20行Python代码实现爬取起点小说

相信在座各位应该没有几个不看小说的吧,嘿嘿~
在这里插入图片描述
一般来说咱们书荒的时候怎么办?自然是去起某点排行榜先找到小说名字,然后再找度娘一搜,哎 ,笔趣阁就出来答案了,美滋滋~

在这里插入图片描述
但是那多麻烦,咱们直接用python,直接全部下载下来慢慢看不就好了~
小孩子才做选择,成年人选择都要…

20行Python代码实现爬取起点小说
好了,不啰嗦了,等下大家要骂我了~

准备工作

环境模块

咱们没装软件的装一下软件,没装模块的装一下模块,软件我就不讲了。

模块咱们用到的是这两个模块,需要安装一下。

requests   # 发送请求
re     # 正则表达式模块

 # Python学习交流群  815624229

#  软件和安装教程等等各种资料都在这里了

 

pip install 模块名 安装即可

目标地址

https://read.qidian.com/chapter/3i-t4PVRihdwe0zGvdPFgA2/djLVNZuVg7eaGfXRMrUjdw2/

大家可以自己换,我这里以它为例。

爬虫流程

爬虫的流程基本都是这几步,我这里不详细讲解了,以前的文章有些讲过。

1. 发送请求
2. 获取数据
3. 解析数据
4. 保存数据

20行Python代码实现爬取起点小说

完整代码

import requests     # 发送请求
import re

# 伪装
headers = {
    'cookie': '_yep_uuid=b1421b7f-11da-b15f-a3ad-95316478f93c; e1=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; e2=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; newstatisticUUID=1648708045_1995757040; _csrfToken=mAWbsvESMNwir4NfKBy5fy8RedwvNBabTq3PLx6r; fu=721555856; _gid=GA1.2.1193345906.1648708045; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A18%22%2C%22l1%22%3A3%7D; e2=; qdrs=0%7C3%7C0%7C0%7C1; showSectionCommentGuide=1; qdgd=1; rcr=1031788647%2C1031920667; bc=1031920667%2C1031788647; pageOps=1; lrbc=1031788647%7C686160165%7C0%2C1031920667%7C695153167%7C1; _ga_FZMMH98S83=GS1.1.1648708044.1.1.1648708759.0; _ga_PFYW0QLV3P=GS1.1.1648708044.1.1.1648708759.0; _ga=GA1.2.777546916.1648708045',
    'referer': 'https://book.qidian.com/',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36',
}
url = 'https://book.大家自己改一下,看了准备工作就知道了.com/info/1031920667/#Catalog'
html_data = requests.get(url=url, headers=headers).text
info_list = re.findall('<h2 class="book_name"><a href="(.*?)" target="_blank" data-eid=".*?" data-cid=".*?" alt=".*?" title=".*?">(.*?)</a></h2>', html_data)
for link, title in info_list:
    link = 'https:' + link
    # print(link, title)
    # 1. 发送请求
    response = requests.get(url=link, headers=headers)
    # 2. 获取数据
    link_data = response.text
    # print(html_data)
    # 3. 解析数据
    # 网页标签 <p></p> <a></a> <div></div> <img />
    # <div class="read-content j_readContent" id=".*?">(.*?)</div>
    text = re.findall('<div class="read-content j_readContent" id=".*?">(.*?)</div>', link_data, re.S)[0]
    text = text.replace('<p>', '\n')
    text = title + '\n\n' + text
    print(text)
    # 4. 保存数据
    with open('网恋女友竟是九天神凰.txt', mode='a', encoding='utf-8') as f:
        f.write(text)

 

兄弟们快去试试吧

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:20行Python代码实现爬取起点小说 - Python技术站

(0)
上一篇 2023年4月2日 下午5:48
下一篇 2023年4月2日 下午5:48

相关文章

  • 当我用Python做了个自动工作汇报的脚本后,每天都闲的只能摸鱼

    哈喽兄弟们 之前经常编写Python脚本来进行数据处理、数据传输和模型训练。随着数据量和数据复杂性的增加,运行脚本可能需要一些时间。在等待数据处理完成时可以同时做一些其他工作。 为了达到这个目的,编写了一组用于解决这个问题的Python脚本。使用这些脚本向手机发送流程更新、可视化和完成通知。当偶尔拥有这些自由的时刻,你可以享受而不是担心模型的进度。 一、需要…

    Python开发 2023年4月2日
    00
  • 用Python做了一个法律查询小工具,非常好用

    哈喽兄弟,今天给大家分享一个Python tkinter制作法律查询小工具。 光爬虫大家也只能自己用用,就算打包了exe,运行也不好看,那我们直接写成界面。 当我们想了解法律,但是又不想买书的时候,就可以用这个小工具,慢慢查询了解。 当然,如果想整的比较有意思,就得靠大家自己来完善实现了。 效果展示 我们来看看效果     写的比较简陋,大家不要太在意。 再…

    2023年3月31日
    00
  • 用Python实现简单的验证码识别

    我们在做采集数据的时候,过快或者访问频繁,或者一访问就给弹出验证码,然后就蚌珠了~      今天就给大家来一个简单处理验证码的方法 环境模块 本文使用的是 Python和pycharm   这里需要用到一个 ddddocr 模块 ,这是别人开源写好的一个东西,简单又好用,但是精确度差一点点,但是还是非常好用的。 如果你追求精确度的话,可以调用别人写好的一些…

    2023年4月2日
    00
  • Python遇上SQL,于是一个好用的Python第三方库出现了

    1. 演示数据 本文的所有演示数据,均是基于下方的四张表。下面这四张表大家应该不陌生,这就是网传50道经典MySQL面试题中使用到的几张原表。关于下方各表之间的关联关系,我就不给大家说明了,仔细观察字段名,应该就可以发现。 2. pandasql的使用 1)简介 pandas中的DataFrame是一个二维表格,数据库中的表也是一个二维表格,因此在panda…

    Python开发 2023年4月2日
    00
  • jupyter使用虚拟环境

    为了在jupyter中使用pyTorch的虚拟环境,来记录一下怎么操作一、conda命令的使用因为使用的是jupyter,所有就使用Anaconda Prompt来创建虚拟环境(也可使用virtualenv,不过没试过) conda create -n 环境名 # 创建的环境在默认路径下,C盘位置不够使用下面命令 # 指定创建路径 conda create …

    Python开发 2023年4月2日
    00
  • 为了防止这个公众号被封,我连夜用Python爬取了它所有图片~

    哈喽兄弟们,今天来试试批量获取公众号文章,emmm…     虽然名义上是文章,单其实它是一篇纯图片文,至于为什么不是文字,小姐姐不比文字香?     事前准备     我们需要用到 Fiddler Everywhere 这个软件,Crack是本次要使用到的文件,以及要安装微信PC版客户端,我专门录了一个安装 及使用的教程。 本次使用的是Python3.8 …

    2023年4月2日
    00
  • 西瓜视频视频颜值区如此惊艳,看我只用30行Python代码批量下载,保存本地慢慢看

    不知道各位老色批们平常看视频都是在哪里看的,有人说某鱼舞蹈区,有人说某牙舞蹈区,要我说都不如西瓜shipin,这里面个个都是人才,说话又好听,超喜欢这里的… 好了话不多说,我们直接开始本次的内容。 模块安装 本次需要使用的模块是requests 模块,没安装的小伙伴直接pip安装即可。 环境 本次使用的环境是Python3.8 ,编辑器是 pycharm  …

    Python开发 2023年3月31日
    00
  • Python批量处理Excel表格,将多个表格内容合并到一个,提升工作效率!

    老板最近越来越过分了,快下班了发给我几百个表格让我把内容合并到一个表格内去。还好我会Python,分分钟就搞定了,这要是换个不会Python的,不得加班到第二天天亮去了~ 这么好用的技能,必须分享给大家,话不多说,咱们直接开始! 准备工作 咱们需要先准备表格数据,会爬虫的兄弟可以自己爬一点,不会的,可以找我直接拿数据。 表格内数据     我这里只做展示,所…

    Python开发 2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部