以下是Python3爬虫学习入门教程的完整攻略:
步骤1:安装requests库
在使用Python3进行爬虫之前,需要安装requests库。以下是一个示例代码:
pip install requests
在这个例子中,我们使用pip命令安装了requests库。
步骤2:使用requests库获取网页内容
在完成安装requests库后,我们就可以使用requests库获取网页内容了。以下是一个示例代码:
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
print(response.text)
在这个例子中,我们使用requests.get()函数获取了百度首页的HTML代码,并使用print()函数打印了HTML代码。
步骤3:使用正则表达式提取信息
在获取网页内容后,我们可以使用正则表达式提取所需的信息。以下是一个示例代码:
import re
html = '<title>Example</title>'
pattern = '<title>(.*?)</title>'
result = re.findall(pattern, html)
print(result[0])
在这个例子中,我们使用re.findall()函数和正则表达式提取了HTML代码中的标题,并使用print()函数打印了标题。
步骤4:使用BeautifulSoup库解析HTML
在使用正则表达式提取信息时,可能会比较麻烦。因此,我们可以使用BeautifulSoup库解析HTML代码。以下是一个示例代码:
from bs4 import BeautifulSoup
html = '<html><head><title>Example</title></head><body><p>This is an example.</p></body></html>'
soup = BeautifulSoup(html, 'html.parser')
print(soup.title.text)
在这个例子中,我们使用BeautifulSoup库解析了一个HTML字符串,并使用soup.title.text属性获取了HTML代码中的标题,并使用print()函数打印了标题。
示例1:爬取豆瓣电影TOP250
以下是一个示例代码,用于演示如何使用Python3爬取豆瓣电影TOP250:
import requests
from bs4 import BeautifulSoup
url = 'https://movie.douban.com/top250'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.select('.item')
for movie in movies:
title = movie.select('.title')[0].text
rating = movie.select('.rating_num')[0].text
print(f'{title} {rating}')
在这个例子中,我们使用requests库发送了一个GET请求,并获取了豆瓣电影TOP250的HTML代码。然后我们使用BeautifulSoup库解析HTML代码,并使用CSS选择器查找所有.item元素。最后,我们使用for循环遍历每个电影元素,并使用select()方法查找电影标题和评分,并打印每个电影的标题和评分。
示例2:爬取糗事百科段子
以下是一个示例代码,用于演示如何使用Python3爬取糗事百科段子:
import requests
from bs4 import BeautifulSoup
url = 'https://www.qiushibaike.com/text/'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
articles = soup.select('.article')
for article in articles:
content = article.select('.content')[0].text.strip()
print(content)
在这个例子中,我们使用requests库发送了一个GET请求,并获取了糗事百科段子的HTML代码。然后我们使用BeautifulSoup库解析HTML代码,并使用CSS选择器查找所有.article元素。最后,我们使用for循环遍历每个段子元素,并使用select()方法查找段子内容,并打印每个段子的内容。
以上就是Python3爬虫学习入门教程的完整攻略,包括安装requests库、使用requests库获取网页内容、使用正则表达式提取信息、使用BeautifulSoup库解析HTML和两个示例代码,分别演示了如何爬取豆瓣电影TOP250和糗事百科段子。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python3爬虫学习入门教程 - Python技术站