以下是“python爬虫万能代码-最精简的爬虫”的完整攻略:
1. 导入必要的库
首先,我们需要导入必要的库。这个例子中,我们需要使用requests库和BeautifulSoup库。可以使用以下代码导入这些库:
import requests
from bs4 import BeautifulSoup
2. 发送请求并解析HTML
接下来,我们需要发送请求并解析HTML。可以使用以下代码:
url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
,'https://example.com'是我们要爬取的网站的URL。我们使用requests库发送GET请求,并将响应文本传递给BeautifulSoup库进行解析。
3. 提取数据
然后,我们需要从HTML中提取数据。可以使用以下代码:
data = []
for item in soup.find_all('div', {'class': 'item'}):
title = item.find('h2', {'class': 'title'}).text.strip()
description = item.find('p', {'class': 'description'}).text.strip()
data.append({'title': title, 'description': description})
在这个例子中,我们从HTML中提取了所有class为“item”的div元素,并从中提取了标题和描述。我们将这些数据存储在一个列表中,每个元素都是一个字典,包含标题和描述。
示例说明
以下是两个关于“python爬虫万能代码-最精简的爬虫”的示例说明:
示例1:爬取网页标题
假设我们要爬取网页的标题。以下是详细步骤:
- 导入必要的库:
import requests
from bs4 import BeautifulSoup
- 发送请求并解析HTML:
url = 'https://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
- 提取数据:
title = soup.find('title').text.strip()
print(title)
这将输出网页的标题。
示例2:爬取商品信息
假设我们要爬取一个电商网站的商品信息。以下是详细步骤:
- 导入必要的库:
import requests
from bs4 import BeautifulSoup
- 发送请求并解析HTML:
url = 'https://example.com/products'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
- 提取数据:
data = []
for item in soup.find_all('div', {'class': 'product'}):
title = item.find('h2', {'class': 'title'}).text.strip()
price = item.find('span', {'class': 'price'}).text.strip()
description = item.find('p', {'class': 'description'}).text.strip()
data.append({'title': title, 'price': price, 'description': description})
print(data)
这将输出所有商品的标题、价格和描述,存储在一个列表中。
总结
使用上述步骤,我们可以编写一个简单但功能强大的Python爬虫。我们可以使用它爬取网页的标题、商品信息等。请注意,爬取网站时需要遵守网站的规则和法律。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python爬虫万能代码-最精简的爬虫 - Python技术站