以下是Python爬取豆瓣电影排行榜的示例代码的完整攻略:
Python爬取豆瓣电影排行榜(requests)的示例代码
在Python中,我们可以使用requests库来爬取网页数据。以下是Python爬取豆瓣电影排行榜的示例代码的攻略。
安装requests库
在开始爬取网页数据之前,我们需要先安装requests库。可以使用以下命令来安装:
pip install requests
发送HTTP请求
在Python中,我们可以使用requests库的get()方法发送HTTP请求。以下是发送HTTP请求的示例:
import requests
url = 'https://movie.douban.com/top250'
response = requests.get(url)
print(response.content)
在上面的示例中,我们使用requests库的get()方法发送了一个HTTP请求到https://movie.douban.com/top250,并使用content属性获取响应的内容。
解析HTML页面
在Python中,我们可以使用BeautifulSoup库来解析HTML页面。以下是解析HTML页面的示例:
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
print(soup.prettify())
在上面的示例中,我们使用requests库的get()方法发送了一个HTTP请求到https://movie.douban.com/top250,并使用BeautifulSoup库的prettify()方法将HTML页面格式化输出。
示例
以下是一个完整的示例:
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
for movie in soup.find_all('div', class_='info'):
title = movie.find('span', class_='title').text
rating = movie.find('span', class_='rating_num').text
print(title, rating)
在上面的示例中,我们使用requests库的get()方法发送了一个HTTP请求到https://movie.douban.com/top250,并使用BeautifulSoup库的find_all()方法查找所有class为info的div元素。然后,我们使用find()方法查找每个电影的标题和评分,并将它们打印出来。
以上是Python爬取豆瓣电影排行榜(requests)的示例代码的攻略,希望对您有所帮助。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python爬取豆瓣电影排行榜(requests)的示例代码 - Python技术站