python requests库爬取豆瓣电视剧数据并保存到本地详解

yizhihongxing

Python requests库爬取豆瓣电视剧数据并保存到本地详解

在进行爬虫开发时,我们可能需要使用Python的requests库来爬取网站数据。本文将介绍如何使用Python requests库爬取豆瓣电视剧数据并保存到本地,并提供两个示例。

实现步骤

步骤一:安装requests库和BeautifulSoup库

在Python中,我们可以使用pip命令安装requests库和BeautifulSoup库:

pip install requests
pip install beautifulsoup4

步骤二:编写爬虫代码

以下是一个示例,演示如何使用Python requests库爬取豆瓣电视剧数据并保存到本地:

import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/tv/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('div', class_='item')

with open('douban_tv.txt', 'w', encoding='utf-8') as f:
    for item in items:
        title = item.find('span', class_='title').text
        rating = item.find('span', class_='rating_num').text
        f.write(title + ' ' + rating + '\n')

在上面的示例中,我们使用requests库发送GET请求,并使用BeautifulSoup库解析响应内容。我们使用find_all方法查找所有class为item的div元素。我们使用with语句打开文件douban_tv.txt,并使用write方法将电视剧名称和评分写入文件中。

步骤三:运行爬虫代码

我们可以使用以下命令运行爬虫代码:

python douban_tv.py

在运行爬虫代码时,我们可以在控制台中查看爬取结果。

示例一:爬取豆瓣电影TOP250数据

以下是一个示例,演示如何使用Python requests库爬取豆瓣电影TOP250数据并保存到本地:

import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('div', class_='item')

with open('douban_movie_top250.txt', 'w', encoding='utf-8') as f:
    for item in items:
        title = item.find('span', class_='title').text
        rating = item.find('span', class_='rating_num').text
        f.write(title + ' ' + rating + '\n')

在上面的示例中,我们使用requests库发送GET请求,并使用BeautifulSoup库解析响应内容。我们使用find_all方法查找所有class为item的div元素。我们使用with语句打开文件douban_movie_top250.txt,并使用write方法将电影名称和评分写入文件中。

示例二:爬取豆瓣图书数据

以下是一个示例,演示如何使用Python requests库爬取豆瓣图书数据并保存到本地:

import requests
from bs4 import BeautifulSoup

url = 'https://book.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('div', class_='pl2')

with open('douban_book_top250.txt', 'w', encoding='utf-8') as f:
    for item in items:
        title = item.find('a')['title']
        rating = item.find('span', class_='rating_nums').text
        f.write(title + ' ' + rating + '\n')

在上面的示例中,我们使用requests库发送GET请求,并使用BeautifulSoup库解析响应内容。我们使用find_all方法查找所有class为pl2的div元素。我们使用with语句打开文件douban_book_top250.txt,并使用write方法将图书名称和评分写入文件中。

总结

本文介绍了如何使用Python requests库爬取豆瓣电视剧数据并保存到本地,并提供了两个示例。我们可以使用requests库方便地发送HTTP请求,并使用BeautifulSoup库解析响应内容。使用Python requests库爬取豆瓣电视剧数据并保存到本地可以帮助我们快速获取数据,提高爬虫开发效率。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python requests库爬取豆瓣电视剧数据并保存到本地详解 - Python技术站

(0)
上一篇 2023年5月15日
下一篇 2023年5月15日

相关文章

  • Python实现爬取需要登录的网站完整示例

    下面就来详细讲解一下“Python实现爬取需要登录的网站完整示例”的攻略。 一、背景介绍 在网络爬虫中,有些网站需要登录才能访问,但是我们通常的爬虫请求是不带任何登录信息的,那么如何实现爬取这些需要登录的网站呢? 这就需要我们使用一些相关的技术和工具,比如Cookie、Session等。下面我们就来介绍如何使用Python实现爬取需要登录的网站的完整示例。 …

    python 2023年5月14日
    00
  • Python 变量类型实例详解

    Python 变量类型实例详解 Python 是一种强类型的半解释型脚本语言,所以在使用变量之前需要先定义变量的类型。在 Python 中有多种变量类型,本文将详细讲解这些变量类型,并提供几个实例说明。 Python 变量类型 Python 中常见的变量类型有以下几种: 数字(Number) Python 中的数字类型包括整数(int)、浮点数(float)…

    python 2023年6月5日
    00
  • 用Python中的__slots__缓存资源以节省内存开销的方法

    Python中的__slots__是一种用于定义类属性的特殊方式,可以限定类只能使用被列在__slots__中的属性。同时,使用__slots__还能大幅度节省对象的内存开销。以下是使用__slots__缓存资源的完整攻略: 第一步:定义类并声明__slots__ 定义类并在类的属性里声明__slots__,需要注意以下几点: __slots__应该为一个元…

    python 2023年6月3日
    00
  • 基于Python爬取素材网站音频文件

    下面是基于Python爬取素材网站音频文件的完整攻略: 步骤一:确认网站是否允许爬取 在进行任何爬取操作之前,我们需要确认素材网站是否允许爬取,如果网站有明确的反爬取机制,那么我们需要思考合适的爬取策略。此外,如果需要登录才能获取资源,我们也需要考虑如何模拟登录。在本例中,我们假设素材网站允许爬取,不需要登录即可获取音频资源。 步骤二:分析网站结构 在确认素…

    python 2023年6月5日
    00
  • Python代码实现KNN算法

    Python代码实现KNN算法 KNN(K-Nearest Neighbors)是一种常用的分类算法,它的基本思想是:对于一个未知样本,找与最近的K个已知样本,然后根据这K个样本的类别进行分类。Python中,可以使用scikit-learn库实现KNN分类算法。本文将详细讲解Python实现KNN分类算法的完整攻略,包括算法原理、Python实现过程和示例…

    python 2023年5月13日
    00
  • 对python GUI实现完美进度条的示例详解

    下面我将详细讲解如何对Python GUI实现完美进度条的示例详解。 1. 了解进度条的组成部分 在Python GUI中实现进度条,我们要首先了解进度条的组成部分。通常进度条由以下几个部分组成: 状态文本:显示当前进度的文本,例如“正在加载…” 进度条区域:用于显示进度条的区域 进度条:显示进度的主体部分,通常是一个矩形或圆形区域 进度值文本:用于显示…

    python 2023年6月13日
    00
  • 分享一个常用的Python模拟登陆类

    下面我将会详细讲解如何分享一个常用的Python模拟登陆类,包含以下几个部分。 1. 确定模拟登陆的目标站点 在分享一个常用的Python模拟登陆类之前,我们首先需要明确登陆对象的目标站点。不同的站点,在模拟登陆过程中可能会有不同的实现方式和注意点。 例如,对于一些不需要验证码的网站,登陆过程可能就比较简单,只需要模拟发送一次POST请求,将用户名和密码等信…

    python 2023年6月3日
    00
  • Python中easy_install 和 pip 的安装及使用

    Python中的easy_install和pip是两个常用的包管理工具,它们可用于安装Python模块或库,并自动处理依赖关系,简化了Python包的安装过程。下面将详细讲解easy_install和pip的安装及使用。 安装easy_install 安装easy_install的方式有多种,这里以使用安装setuptools工具包的方式为例: 下载setu…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部