Python项目之我的第一个爬虫—-爬取豆瓣图书网，统计图书数量

2023年4月11日上午4:10 • 爬虫

今天，花了一个晚上的时间边学边做，搞出了我的第一个爬虫。学习Python有两个月了，期间断断续续，但是始终放弃，今天搞了一个小项目，有种丰收的喜悦。废话不说了，直接附上我的全部代码。

 1 # -*- coding:utf-8 -*-
 2 __author__ = 'Young'
 3 
 4 import re,urllib  #urllib : 网页访问，返回网页的数据、内容
 5 def my_get(ID):# 封装成函数方便调用
 6     html = urllib.urlopen("https://read.douban.com/ebooks/tag/%E5%B0%8F%E8%AF%B4/?cat=book&sort=top&start="+str(ID))# urllib.urlopen() 打开豆瓣读书的网页   str(ID)--方便页面切换
 7     html = html.read()# 解析返回内容
 8     reg = r'<span class="price-tag ">(.*?)元</span><a href=".*?" target="_blank" class="btn btn-icon ">试读</a></div><a data-target-dialog="login" href="#" class="require-login btn btn-info btn-cart "><i class="icon-cart"></i><span class="btn-text">加入购物车</span></a></div><div class="title"><a href=".*?" onclick="moreurl\(this, {&#39;aid&#39;: &#39;.*?&#39;, &#39;src&#39;: &#39;tag&#39;}, true, \'read.douban.com\'\)">(.*?)</a>'
 9     reg = re.compile(reg)
10     rel = re.findall(reg,html)  # rel是二维列表
11     return rel
12 
13 ID = 0
14 price = 0
15 fn = open(r'G:\13_Python-Files\douban.txt',"a")# 存放数据的文件的存放地址  a 表示 可以向文件中追加写入
16 while ID<=80:# 根不同页的网址分析得出规律，此处爬取前4页的内容
17     my_list = my_get(ID)# my_list - 存放返回结果
18     for i in my_list:
19         fn.write("书名：%s-----------价格：%s\n" %(i[1],i[0]))
20         price += float(i[0])# 价格是浮点型
21         ID += 1#图书技术
22         print i[0],i[1]
23         print ID
24 fn.write("数量：%s\t总价：%s\t平均单价：%s\n" % (ID,price,"%.2f"%(price/ID)))
25 fn.close()#最后不要忘记关闭文件

结果截图如下：

Python项目之我的第一个爬虫----爬取豆瓣图书网，统计图书数量

Python项目之我的第一个爬虫----爬取豆瓣图书网，统计图书数量

缺憾：有部分数据被漏掉了，继续找原因中

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python项目之我的第一个爬虫—-爬取豆瓣图书网，统计图书数量 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python_爬虫_使用终端运行爬报错：No such file or directory

上一篇 2023年4月11日

python程序爬虫总是崩溃

下一篇 2023年4月11日

【Python爬虫】HTTP基础和urllib库、requests库的使用

一个网络爬虫的编写主要可以分为三个部分： 1.获取网页 2.提取信息 3.分析信息本文主要介绍第一部分，如何用Python内置的库urllib和第三方库requests库来完成网页的获取。阅读完本文后，读者将能利用这2个库获取一个网页的HTML代码。但是首先，我们需要一点网络方面的基本知识，才能更好的理解爬虫。为此，读者应该理解以下知识： 1.什么是H…

爬虫 2023年4月10日
000
Python 爬虫多线程详解及实例代码

Python 爬虫多线程详解及实例代码简介本文主要介绍使用 Python 编写爬虫时如何使用多线程进行爬取优化。在爬虫程序中，请求网页数据是很常见的操作，但是一个请求需要等待相应的时间，这样在等待的时候程序就阻塞，导致程序运行效率低下。而使用多线程能够使程序并发请求数据，从而提高程序运行效率。多线程编程使用 threading 库创建多线程 Pyth…

python 2023年5月14日
000
爬虫

Python网络爬虫与信息提取（一）（入门篇）

①爬取工具：MySQL数据库 Navicat for mysql 编程语言python3 集成开发环境pycharm(community) Python包管理器Anaconda…

2023年4月11日
000
网页爬虫学习之获取网页中标签内容

（1）本地网页，通过网页中的元素进行筛选想要获取的内容 web_parseDemo01.py from bs4 import BeautifulSoup#1、解析网页内容，网页的构成with open(‘C:/Users/GXY/PycharmProjects/untitled/homework.html’,’r’,encoding=’UTF-8′) as …

爬虫 2023年4月11日
000
python爬虫 – js逆向之猿人学第十九题突破ja3指纹验证

前言废话不多说，直接干，再来猿人学19题分析看了下，没有加密参数：然后拿着接口直接请求：有结果的，不会吧，这么简单？没有加密参数？这次这么草率？用代码访问，唉，卧槽，就是他妈的不行，果然有猫腻换requests: 确实不行，用postman看看，可以的这他妈就很秀啊，上一次这种感觉还是h…

爬虫 2023年4月12日
000
Python爬虫-scrapyd

1、什么是scrapyd 　　Scrapyd是一个服务，用来运行scrapy爬虫的。　　它允许你部署你的scrapy项目以及通过HTTP JSON的方式控制你的爬虫。　　官方文档：http://scrapyd.readthedocs.org/ 2、安装scrapyd和scrapyd-client 　　pip install scrapyd(服务器）　　…

爬虫 2023年4月11日
000
基于python实现垂直爬虫系统的方法详解

基于python实现垂直爬虫系统的方法详解垂直爬虫是一种针对特定领域的爬虫，可以快速、高效地获取特定网站或网站集合中的数据。这里将介绍如何基于Python实现垂直爬虫系统。步骤1：确定目标网站首先需要确定目标网站，了解它的URL结构和网站页面内容。例如，我们以国家统计局官网数据查询页面(https://data.stats.gov.cn/easyque…

python 2023年5月14日
000
python爬虫开发之使用python爬虫库requests，urllib与今日头条搜索功能爬取搜索内容实例

我们来详细讲解”python爬虫开发之使用python爬虫库requests，urllib与今日头条搜索功能爬取搜索内容实例”这个话题，包括以下内容：什么是Python爬虫？为什么要使用爬虫库？ Requests库和Urllib库的介绍和区别今日头条搜索功能爬取内容实例其他爬虫库的简要介绍及应用 1. 什么是Python爬虫？ Python爬虫是指使…

python 2023年5月14日
000

合作推广

合作推广

返回顶部