使用BeautifulSoup将XML结构转换为DataFrame

2023年3月27日上午11:57 • python-answer

将XML结构转化为Dataframe，需要先安装两个Python包：beautifulsoup4 和 pandas。

首先，导入需要的包：

from bs4 import BeautifulSoup
import pandas as pd

然后，打开XML文件并解析。

with open('example.xml') as f:
    data = f.read()

soup = BeautifulSoup(data, 'xml')

这里假设XML文件名为example.xml，首先用open()函数打开文件并读取文件中的数据，然后用BeautifulSoup解析数据。注意，XML文件需要用xml作为BeautifulSoup的第二个参数。

提取数据并进行转换。

首先，使用find_all()方法提取XML文件中的记录，将其存储在一个变量records中。

records = soup.find_all('record')

然后，用循环语句遍历这些记录，提取每个记录中的文本数据，并将其存储在一个列表中。

data_list = []
for record in records:
    fields = record.find_all('field')
    data = []
    for field in fields:
        data.append(field.get_text())
    data_list.append(data)

在这里，我们使用find_all()方法找到每个记录中的所有字段，存储在一个变量fields中。然后，我们使用循环语句遍历每个字段，提取其中的文本数据。最后，我们将提取的数据存储在一个列表中，并将其添加到我们之前创建的data_list列表中。

将数据转换为Dataframe。

现在，我们已经将XML数据成功提取并存储为一个列表，可以使用pandas将其转换为Dataframe。

df = pd.DataFrame(data_list, columns=["name", "age", "city"])

这里假设XML文件中包含name、age和city三个字段。使用pd.DataFrame()函数将数据列表转换为Dataframe，并使用columns参数指定列名。

完整代码：

from bs4 import BeautifulSoup
import pandas as pd

with open('example.xml') as f:
    data = f.read()

soup = BeautifulSoup(data, 'xml')
records = soup.find_all('record')

data_list = []
for record in records:
    fields = record.find_all('field')
    data = []
    for field in fields:
        data.append(field.get_text())
    data_list.append(data)

df = pd.DataFrame(data_list, columns=["name", "age", "city"])
print(df.head())

这样就将XML结构转换为Dataframe了。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：使用BeautifulSoup将XML结构转换为DataFrame - Python技术站