python requests库爬取豆瓣电视剧数据并保存到本地详解

Python requests库爬取豆瓣电视剧数据并保存到本地详解

在进行爬虫开发时,我们可能需要使用Python的requests库来爬取网站数据。本文将介绍如何使用Python requests库爬取豆瓣电视剧数据并保存到本地,并提供两个示例。

实现步骤

步骤一:安装requests库和BeautifulSoup库

在Python中,我们可以使用pip命令安装requests库和BeautifulSoup库:

pip install requests
pip install beautifulsoup4

步骤二:编写爬虫代码

以下是一个示例,演示如何使用Python requests库爬取豆瓣电视剧数据并保存到本地:

import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/tv/'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('div', class_='item')

with open('douban_tv.txt', 'w', encoding='utf-8') as f:
    for item in items:
        title = item.find('span', class_='title').text
        rating = item.find('span', class_='rating_num').text
        f.write(title + ' ' + rating + '\n')

在上面的示例中,我们使用requests库发送GET请求,并使用BeautifulSoup库解析响应内容。我们使用find_all方法查找所有class为item的div元素。我们使用with语句打开文件douban_tv.txt,并使用write方法将电视剧名称和评分写入文件中。

步骤三:运行爬虫代码

我们可以使用以下命令运行爬虫代码:

python douban_tv.py

在运行爬虫代码时,我们可以在控制台中查看爬取结果。

示例一:爬取豆瓣电影TOP250数据

以下是一个示例,演示如何使用Python requests库爬取豆瓣电影TOP250数据并保存到本地:

import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('div', class_='item')

with open('douban_movie_top250.txt', 'w', encoding='utf-8') as f:
    for item in items:
        title = item.find('span', class_='title').text
        rating = item.find('span', class_='rating_num').text
        f.write(title + ' ' + rating + '\n')

在上面的示例中,我们使用requests库发送GET请求,并使用BeautifulSoup库解析响应内容。我们使用find_all方法查找所有class为item的div元素。我们使用with语句打开文件douban_movie_top250.txt,并使用write方法将电影名称和评分写入文件中。

示例二:爬取豆瓣图书数据

以下是一个示例,演示如何使用Python requests库爬取豆瓣图书数据并保存到本地:

import requests
from bs4 import BeautifulSoup

url = 'https://book.douban.com/top250'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.find_all('div', class_='pl2')

with open('douban_book_top250.txt', 'w', encoding='utf-8') as f:
    for item in items:
        title = item.find('a')['title']
        rating = item.find('span', class_='rating_nums').text
        f.write(title + ' ' + rating + '\n')

在上面的示例中,我们使用requests库发送GET请求,并使用BeautifulSoup库解析响应内容。我们使用find_all方法查找所有class为pl2的div元素。我们使用with语句打开文件douban_book_top250.txt,并使用write方法将图书名称和评分写入文件中。

总结

本文介绍了如何使用Python requests库爬取豆瓣电视剧数据并保存到本地,并提供了两个示例。我们可以使用requests库方便地发送HTTP请求,并使用BeautifulSoup库解析响应内容。使用Python requests库爬取豆瓣电视剧数据并保存到本地可以帮助我们快速获取数据,提高爬虫开发效率。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python requests库爬取豆瓣电视剧数据并保存到本地详解 - Python技术站

(0)
上一篇 2023年5月15日
下一篇 2023年5月15日

相关文章

  • python在指定位置插入字符的实现

    实现在指定位置插入字符的方法,可以通过 python 字符串的切片和加法运算符来实现。具体操作步骤如下: 把字符串分成两个部分:要插入的字符和字符串除了要插入字符的部分; 使用加法运算符,把分成的两个部分以要插入的字符位置为分界点组成新的字符串; 返回新的字符串。 以下是两个示例来说明这个方法的具体实现: 示例一: # 在字符串的第三个字符插入一个&quot…

    python 2023年6月5日
    00
  • Python 获取div标签中的文字实例

    在Web页面中,div标签通常用于组织和布局页面内容。本攻略将介绍Python获取div标签中的文字的方法,包括使用BeautifulSoup库和使用正则表达式。 使用BeautifulSoup库 BeautifulSoup是一个Python库,用于解析HTML和XML文档。它提供了一组简单而强大的API,用于遍历和搜索文档树。以下是一个示例代码,用于使用B…

    python 2023年5月15日
    00
  • python队列原理及实现方法示例

    Python队列原理及实现方法示例 队列是一种常见的数据结构,它是按照先进先出(First-In-First-Out, FIFO)的原则进行操作的线性表。本文将详细介绍Python中队列的原理及实现方法示例。 队列的原理: 队列的原理使用队列可以将输入数据暂时存放,等待后续程序处理。在Python中,可以使用queue模块来实现队列的相关操作。 queue模…

    python 2023年5月19日
    00
  • python创建属于自己的单词词库 便于背单词

    Python创建属于自己的单词词库便于背单词 在本攻略中,我们将介绍如何使用Python创建属于自己的单词词库,以便于背单词。我们将使用Python的文件操作和字符串处理功能来实现这个过程。 步骤1:创建单词列表 使用以下代码可以创建单词列表: words = [‘apple’, ‘banana’, ‘cherry’, ‘date’, ‘elderberry…

    python 2023年5月15日
    00
  • Python基于动态规划算法解决01背包问题实例

    Python基于动态规划算法解决01背包问题实例 什么是01背包问题? 01背包问题是一个经典的动态规划问题,它的基本想是在给定的一组物品中选择一物品,使得这些物品总重量不超过背包的容量,同时总值最大。 动态规划算法解决01背包问题 动态规划算法一种常用的算法思想,它的基本思想是将一个大问题解成若干个小问题,然后逐步解决这小问题,最终得到大问题的解。在决01…

    python 2023年5月14日
    00
  • python3中set(集合)的语法总结分享

    Python3中的set(集合)是一个无序、不重复元素的集合。集合类似于列表或元组,但是不允许有重复的元素。 语法总结 创建集合 可以使用花括号{}或内置函数set()来创建集合。 # 使用花括号创建集合 set1 = {1, 2, 3, 4, 5} # 使用内置函数set()创建集合 set2 = set([5, 6, 7, 8, 9]) 集合操作 添加元…

    python 2023年5月13日
    00
  • python实现MD5进行文件去重的示例代码

    下面是详细的“Python实现MD5进行文件去重的示例代码”的攻略。 1. 原理简介 MD5(Message-Digest Algorithm 5,信息-摘要算法5)是一种常用的哈希散列函数,它可以将任意长度的消息映射为一个固定长度的消息摘要(通常为128位),并且在不同的消息输入情况下得到的输出值具有很高的随机性,互不相同。因此,在文件去重的场景中,可以根…

    python 2023年6月3日
    00
  • Python urlopen()和urlretrieve()用法解析

    Python urlopen() 和 urlretrieve() 用法解析 在Python中,我们可以使用urllib库中的urlopen()和urlretrieve()函数来处理URL。这两个函数都可以用于打开URL并读取其内容,但它们的用法略有不同。本文将详细介绍这两个函数的用法,并提供两个示例。 urlopen()函数 urlopen()函数是Pyth…

    python 2023年5月15日
    00
合作推广
合作推广
分享本页
返回顶部