当需要从网页上抓取表格数据时,Pandas中的read_html()函数可以帮助我们快速实现数据爬取。这个函数可以自动解析HTML页面中的表格标签,返回一个DataFrame对象,我们可以用它来进一步分析并处理数据。
下面是利用read_html()函数抓取维基百科的表格的示例代码:
import pandas as pd
url = 'https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86%E7%9B%B4%E8%BE%96%E5%9B%BD%E5%AE%B6%E5%9D%90%E6%A0%87'
# 读取HTML页面中的表格数据
tables = pd.read_html(url)
# 打印所有抓取到的表格
print(f"总共抓取到{len(tables)}个表格")
# 遍历所有抓取到的表格
for i, table in enumerate(tables):
# 打印表格编号和数据前5行
print(f"表格{i}的前5行数据:")
print(table.head())
在这个示例代码中,我们通过Pandas的read_html()函数从维基百科页面的url中读取了所有的HTML表格。这个函数将返回一个包含DataFrame对象的列表,列表的每个元素代表一个抓取到的表格。
接下来,我们可以通过遍历这个列表,进一步分析每个DataFrame对象的数据。这个示例代码展示了使用enumerate()函数遍历所有的DataFrame对象,输出了每个表格的编号和前5行数据。
需要注意的是,使用read_html()函数抓取表格时,它会默认抓取页面上所有表格的数据,而不是指定表格的数据。所以当页面中包含多个表格时,我们需要进一步筛选出需要的表格。
以上是关于如何用Pandas的read_html()函数抓取维基百科的表格的详细讲解。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:用Pandas的read_html()来抓取维基百科的表格 - Python技术站