Python爬虫爬取糗事百科段子实例分享

让我来详细讲解一下“Python爬虫爬取糗事百科段子实例分享”的完整攻略：

1. 准备工作

在进行爬虫的开发之前，我们需要进行以下准备工作：

安装Python和必要的第三方库，并确保环境配置正确。
确认要爬取的网站及其页面结构，这里我们以糗事百科（http://www.qiushibaike.com/）为例。
了解糗事百科的反爬措施，防止被封IP或者账号。

2. 抓取页面数据

首先，我们需要抓取糗事百科的首页（http://www.qiushibaike.com/），并提取出页面中的段子数据。

我们可以使用Python中的Requests库来发起HTTP请求，并使用BeautifulSoup库来解析页面。

示例代码如下：

import requests
from bs4 import BeautifulSoup

# 抓取页面数据
def get_qiubai(page_num):
    url = 'http://www.qiushibaike.com/8hr/page/'+ str(page_num) +'/'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        content = response.content
        soup = BeautifulSoup(content, 'html.parser')
        divs = soup.find_all('div', class_="content")
        for div in divs:
            if div.find('a', class_="contentHerf"):
                continue
            else:
                text = div.find('span').text.strip()
                print(text)
    else:
        print("请求失败")

在以上代码中，get_qiubai() 函数接受一个参数 page_num，该参数指定要抓取的页面数。函数首先构造目标URL，并添加请求头，然后发起GET请求，获取响应内容。我们判断响应状态码为200时，使用BeautifulSoup解析页面，提取出所有的段子文本并打印输出。

3. 抓取多个页面数据

现在，我们已经能够抓取糗事百科一个页面的数据了，但是我们还需要抓取多个页面的数据，并将这些数据保存到本地文件中。

示例代码如下：

# 抓取多个页面数据
def get_qiubai_pages():
    for i in range(1, 3):  # 抓取前两页数据
        get_qiubai(i)
        print('-----第%d页数据抓取完成-----\n' % i)

# 抓取多个页面数据并保存到本地文件中
def save_to_file():
    with open('qiubai.txt', 'w', encoding='utf-8') as f:
        for i in range(1, 3):  # 抓取前两页数据
            url = 'http://www.qiushibaike.com/8hr/page/'+ str(i) +'/'
            headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
            }
            response = requests.get(url, headers=headers)
            if response.status_code == 200:
                content = response.content
                soup = BeautifulSoup(content, 'html.parser')
                divs = soup.find_all('div', class_="content")
                for div in divs:
                    if div.find('a', class_="contentHerf"):
                        continue
                    else:
                        text = div.find('span').text.strip()
                        f.write(text + '\n\n')
                print('-----第%d页数据抓取完成-----\n' % i)
            else:
                print("请求失败")

# 测试
get_qiubai_pages()
save_to_file()

在以上代码中，get_qiubai_pages() 函数调用了 get_qiubai() 函数，循环抓取了前两页数据并输出。

save_to_file() 函数循环抓取前两页数据，并使用with语句打开文件，向其中写入数据。

最后两个函数都在循环抓取完一页数据后，打印“第X页数据抓取完成”的提示信息。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫爬取糗事百科段子实例分享 - Python技术站

Python爬虫爬取糗事百科段子实例分享

1. 准备工作

2. 抓取页面数据

3. 抓取多个页面数据

相关文章