1. 安装需要的库
为了实现web爬虫,我们需要安装两个Python库:requests和BeautifulSoup4。
你可以在命令行中使用pip安装它们,命令如下:
pip install requests
pip install beautifulsoup4
2. 理解Requests库
Requests是Python中使用的最流行的HTTP库之一,它可以让我们轻松地发送HTTP请求,并且可以处理响应数据。
首先,导入Requests库并发送GET请求:
import requests
response = requests.get('https://www.example.com')
print(response.content)
在这个例子中,我们向“https://www.example.com”这个网站发送了一个GET请求,并将响应数据打印出来。
3. 理解BeautifulSoup4库
BeautifulSoup是一个流行的Python库,它可以方便地从HTML和XML文件中提取信息。
首先,导入BeautifulSoup库,并使用requests库发送GET请求:
import requests
from bs4 import BeautifulSoup
response = requests.get('https://www.example.com')
soup = BeautifulSoup(response.content, 'html.parser')
print(soup.title)
在这个例子中,我们向“https://www.example.com”这个网站发送了一个GET请求,并用BeautifulSoup库解析了响应数据。我们打印了网页的标题(通过soup.title属性)。
4. 编写Python3.4爬虫Demo
了解了Requests和BeautifulSoup之后,我们就可以编写一个简单的web爬虫程序。这里是一个可以提取网页标题的Python3.4爬虫Demo:
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
print(soup.title.string)
在这个程序中,我们首先定义了要访问的网址,并且使用Requests库发送了一个GET请求。然后,我们使用BeautifulSoup库定义了网页的解析器。最后,我们打印出了网页的标题字符串。
另一个示例,下面是一个可以获取CSDN博客文章标题和作者的爬虫Demo:
import requests
from bs4 import BeautifulSoup
url = 'https://blog.csdn.net/'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
for article in soup.find_all('div', class_='article-item-box csdn-tracking-statistics'):
title = article.h4.a.string.strip()
author = article.find('span', class_='text-ellipsis').a.string.strip()
print('Title:', title)
print('Author:', author)
print('---')
在这个程序中,我们使用了CSDN博客的网页地址,并使用Requests库发送了一个GET请求。然后,我们使用BeautifulSoup库定义了网页的解析器,并提取了所有博客文章所在的div元素。接着,我们从每篇文章中提取标题和作者,并打印出来。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python3.4爬虫demo - Python技术站