20行Python代码实现爬取起点小说

相信在座各位应该没有几个不看小说的吧,嘿嘿~
在这里插入图片描述
一般来说咱们书荒的时候怎么办?自然是去起某点排行榜先找到小说名字,然后再找度娘一搜,哎 ,笔趣阁就出来答案了,美滋滋~

在这里插入图片描述
但是那多麻烦,咱们直接用python,直接全部下载下来慢慢看不就好了~
小孩子才做选择,成年人选择都要…

20行Python代码实现爬取起点小说
好了,不啰嗦了,等下大家要骂我了~

准备工作

环境模块

咱们没装软件的装一下软件,没装模块的装一下模块,软件我就不讲了。

模块咱们用到的是这两个模块,需要安装一下。

requests   # 发送请求
re     # 正则表达式模块

 # Python学习交流群  815624229

#  软件和安装教程等等各种资料都在这里了

 

pip install 模块名 安装即可

目标地址

https://read.qidian.com/chapter/3i-t4PVRihdwe0zGvdPFgA2/djLVNZuVg7eaGfXRMrUjdw2/

大家可以自己换,我这里以它为例。

爬虫流程

爬虫的流程基本都是这几步,我这里不详细讲解了,以前的文章有些讲过。

1. 发送请求
2. 获取数据
3. 解析数据
4. 保存数据

20行Python代码实现爬取起点小说

完整代码

import requests     # 发送请求
import re

# 伪装
headers = {
    'cookie': '_yep_uuid=b1421b7f-11da-b15f-a3ad-95316478f93c; e1=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; e2=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; newstatisticUUID=1648708045_1995757040; _csrfToken=mAWbsvESMNwir4NfKBy5fy8RedwvNBabTq3PLx6r; fu=721555856; _gid=GA1.2.1193345906.1648708045; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A18%22%2C%22l1%22%3A3%7D; e2=; qdrs=0%7C3%7C0%7C0%7C1; showSectionCommentGuide=1; qdgd=1; rcr=1031788647%2C1031920667; bc=1031920667%2C1031788647; pageOps=1; lrbc=1031788647%7C686160165%7C0%2C1031920667%7C695153167%7C1; _ga_FZMMH98S83=GS1.1.1648708044.1.1.1648708759.0; _ga_PFYW0QLV3P=GS1.1.1648708044.1.1.1648708759.0; _ga=GA1.2.777546916.1648708045',
    'referer': 'https://book.qidian.com/',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36',
}
url = 'https://book.大家自己改一下,看了准备工作就知道了.com/info/1031920667/#Catalog'
html_data = requests.get(url=url, headers=headers).text
info_list = re.findall('<h2 class="book_name"><a href="(.*?)" target="_blank" data-eid=".*?" data-cid=".*?" alt=".*?" title=".*?">(.*?)</a></h2>', html_data)
for link, title in info_list:
    link = 'https:' + link
    # print(link, title)
    # 1. 发送请求
    response = requests.get(url=link, headers=headers)
    # 2. 获取数据
    link_data = response.text
    # print(html_data)
    # 3. 解析数据
    # 网页标签 <p></p> <a></a> <div></div> <img />
    # <div class="read-content j_readContent" id=".*?">(.*?)</div>
    text = re.findall('<div class="read-content j_readContent" id=".*?">(.*?)</div>', link_data, re.S)[0]
    text = text.replace('<p>', '\n')
    text = title + '\n\n' + text
    print(text)
    # 4. 保存数据
    with open('网恋女友竟是九天神凰.txt', mode='a', encoding='utf-8') as f:
        f.write(text)

 

兄弟们快去试试吧

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:20行Python代码实现爬取起点小说 - Python技术站

(0)
上一篇 2023年4月2日 下午5:48
下一篇 2023年4月2日 下午5:48

相关文章

  • 用Python找出了删除自己微信的所有人并将他们自动化删除了

    哈喽兄弟们,今天我们来试试用Python找出了删除自己微信的所有人,并将他们自动化删除,免得每次看到感叹号心塞。 这不,昨晚小姨子一个人喝多了喊我去接她,但是我睡到现在,刚发消息就发现把我拉黑了… 你是否也有微信被删了好友不自知,还傻傻的给对方发消息,结果出现了下图中那尴尬的一幕的经历呢?其实我们可以用Python提前把他们找出来并自动化删除避免尴尬的。 为…

    Python开发 2023年3月31日
    00
  • 网易云VIP歌曲没权限?还好我会Python,一分钟一个歌单,硬盘有点不够用了~

    人生苦短,我用Python 人之初,喜白嫖。大家都喜欢白嫖,我也喜欢,那么今天就来试试怎么白嫖抑云~       我不是,我没有,别瞎说~       一、你需要准备 1、环境 Python3.6以上 pycharm2019以上 2、模块 requests # 发送请求模块 第三方模块 exec js # 调用JS的模块   二、效果展示 可以看到,这两个是…

    2023年4月2日
    00
  • 八个超级好用的Python自动化脚本,简直太好用了

    每天你都可能会执行许多重复的任务,例如阅读新闻、发邮件、查看天气、打开书签、清理文件夹等等,使用自动化脚本,就无需手动一次又一次地完成这些任务,非常方便。而在某种程度上,Python 就是自动化的代名词。 小编今天分享 8 个非常有用的 Python 自动化脚本。喜欢记得收藏、关注、点赞。 1、自动化阅读网页新闻 这个脚本能够实现从网页中抓取文本,然后自动化…

    Python开发 2023年4月2日
    00
  • Python骚操作!实现自动制作各种证件照,这不比PS快多了!

    事情是这样的 晚上我正在聚精会神写代码(打游戏~) 突然,收到学妹给我发来的消息 还有一张自拍照 而且是可以放在结婚证上的那种哦 就是 之前帮过她几次忙 难道要以身相许 去一起办证 原来是照片尺寸不合适 让我帮她修图。还要什么蓝底、红底各种背景的 虽然有些失落 还是,默默的撸出了我39米长的python大刀 先上效果 1、尺寸长宽调整为:295×413 2、…

    Python开发 2023年4月2日
    00
  • 发现一个舔狗神器,Python真的太厉害了,自动下载妹子视频…

    兄弟们,现在短视频主播好看的妹子太多了,有时候遇到自己喜欢的,虽然点了赞或者收藏了,但是万一主播把视频隐藏下架了呢? 所以今天咱们就用Python来把这些好看的视频统统保存下来…     涉及知识点 1、动态数据抓包演示2、json数据解析方法3、视频数据保存 环境介绍 python 3.6 pycharm requests   案例实现步骤 找数据对应的地…

    2023年4月2日
    00
  • 挑战在代码里面不写for循环,让代码变得更简洁、规范、结构化,以及更好的代码可读性!

    哈喽兄弟们,又是新的一天!今天你敲代码了吗? 一、序言 为什么要挑战自己在代码里不写 for loop?因为这样可以迫使你去学习使用比较高级、比较地道的语法或 library。文中以 python 为例子,讲了不少大家其实在别人的代码里都见过、但自己很少用的语法。 自从我开始探索 Python 中惊人的语言功能已经有一段时间了。一开始,我给自己一个挑战,目的…

    Python开发 2023年4月2日
    00
  • 2022 IEEE 编程语言榜单发布!Python 又双叒叕霸榜了,学 SQL 工作更吃香!

    哈喽兄弟们! 近年来,Python 宛如一匹黑马,一骑绝尘,横扫 TIOBE、Stack Overflow 等榜单,如今在 IEEE Spectrum 发布的第九届年度顶级编程语言榜单中,Python 依然是 C、C++、C#、Java 等老牌语言无法比拟的。 关于编程语言的优劣,众说纷纭。不过,在今年这份报告中,我们也发现了一个让人出乎意料的结果,即根据就…

    Python开发 2023年4月2日
    00
  • Python之字典删除元素(6种方式)

    文中代码 smart_girl = {“name”:”yuan wai”, “age”: 25,”address”:”Beijing”}   第一种方式:pop()方法 注意:找不到对应的key,pop方法会抛出异常KeyError smart_girl.pop(“name”) #返回值是value # Python学习交流裙 708525271   第二种…

    Python开发 2023年3月31日
    00
合作推广
合作推广
分享本页
返回顶部