20行Python代码实现爬取起点小说

相信在座各位应该没有几个不看小说的吧,嘿嘿~
在这里插入图片描述
一般来说咱们书荒的时候怎么办?自然是去起某点排行榜先找到小说名字,然后再找度娘一搜,哎 ,笔趣阁就出来答案了,美滋滋~

在这里插入图片描述
但是那多麻烦,咱们直接用python,直接全部下载下来慢慢看不就好了~
小孩子才做选择,成年人选择都要…

20行Python代码实现爬取起点小说
好了,不啰嗦了,等下大家要骂我了~

准备工作

环境模块

咱们没装软件的装一下软件,没装模块的装一下模块,软件我就不讲了。

模块咱们用到的是这两个模块,需要安装一下。

requests   # 发送请求
re     # 正则表达式模块

 # Python学习交流群  815624229

#  软件和安装教程等等各种资料都在这里了

 

pip install 模块名 安装即可

目标地址

https://read.qidian.com/chapter/3i-t4PVRihdwe0zGvdPFgA2/djLVNZuVg7eaGfXRMrUjdw2/

大家可以自己换,我这里以它为例。

爬虫流程

爬虫的流程基本都是这几步,我这里不详细讲解了,以前的文章有些讲过。

1. 发送请求
2. 获取数据
3. 解析数据
4. 保存数据

20行Python代码实现爬取起点小说

完整代码

import requests     # 发送请求
import re

# 伪装
headers = {
    'cookie': '_yep_uuid=b1421b7f-11da-b15f-a3ad-95316478f93c; e1=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; e2=%7B%22pid%22%3A%22qd_P_read%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A3%7D; newstatisticUUID=1648708045_1995757040; _csrfToken=mAWbsvESMNwir4NfKBy5fy8RedwvNBabTq3PLx6r; fu=721555856; _gid=GA1.2.1193345906.1648708045; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A18%22%2C%22l1%22%3A3%7D; e2=; qdrs=0%7C3%7C0%7C0%7C1; showSectionCommentGuide=1; qdgd=1; rcr=1031788647%2C1031920667; bc=1031920667%2C1031788647; pageOps=1; lrbc=1031788647%7C686160165%7C0%2C1031920667%7C695153167%7C1; _ga_FZMMH98S83=GS1.1.1648708044.1.1.1648708759.0; _ga_PFYW0QLV3P=GS1.1.1648708044.1.1.1648708759.0; _ga=GA1.2.777546916.1648708045',
    'referer': 'https://book.qidian.com/',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36',
}
url = 'https://book.大家自己改一下,看了准备工作就知道了.com/info/1031920667/#Catalog'
html_data = requests.get(url=url, headers=headers).text
info_list = re.findall('<h2 class="book_name"><a href="(.*?)" target="_blank" data-eid=".*?" data-cid=".*?" alt=".*?" title=".*?">(.*?)</a></h2>', html_data)
for link, title in info_list:
    link = 'https:' + link
    # print(link, title)
    # 1. 发送请求
    response = requests.get(url=link, headers=headers)
    # 2. 获取数据
    link_data = response.text
    # print(html_data)
    # 3. 解析数据
    # 网页标签 <p></p> <a></a> <div></div> <img />
    # <div class="read-content j_readContent" id=".*?">(.*?)</div>
    text = re.findall('<div class="read-content j_readContent" id=".*?">(.*?)</div>', link_data, re.S)[0]
    text = text.replace('<p>', '\n')
    text = title + '\n\n' + text
    print(text)
    # 4. 保存数据
    with open('网恋女友竟是九天神凰.txt', mode='a', encoding='utf-8') as f:
        f.write(text)

 

兄弟们快去试试吧

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:20行Python代码实现爬取起点小说 - Python技术站

(0)
上一篇 2023年4月2日 下午5:48
下一篇 2023年4月2日 下午5:48

相关文章

  • 如何让电脑永不息屏?Python:这事我熟,只需5行代码…

    最近新来的小老弟问我,按照公司规定,电脑只有十分钟就锁屏,但是他不想让电脑在空闲十分钟后锁屏。 于是我问他,是不是想挑战一下公司信息安全? 不过小老弟很机智,来了句公司信息安全大于天,他就是想让自己多学点知识 ~ 既然他都这么说了,我就勉为其难的教一下他吧! 电脑永不息屏的两种方法 1、电脑手动方式 一般我们让电脑不息屏,正常操作步骤为: 电脑桌面空白处点击…

    Python开发 2023年4月2日
    00
  • 用Python简单的绘制词云图,分析展示热点话题

    平常我们爬的评论、弹幕等等,数量又多又密,根本看不过来,这时候数据分析的作用来了,今天我们就试试用Python根据这些数据,来绘制词云图进行热词分析。 知识点 文件读写 基础语法 字符串处理 文件生成 数据构建 代码展示 # 导入系统包 import platform from flask import Flask, render_template from…

    Python开发 2023年4月2日
    00
  • Python之字典遍历元素(4种方式)

    第一种:for in girl_dict= {“China”: “小美”, “Japan”: “图多天光”, “Korea”: “斯密达美”} for everyKey in girl_dict: print (“key:” + everyKey + “value:” + girl_dict[everyKey])   输出结果 key:japan value…

    Python开发 2023年3月31日
    00
  • 利用Python检验用户输入密码的复杂度

    用Python检测用户输入密码的复杂度,灰常简单! 密码强度检测规则: 至少包含一个数字 至少包含一个大写字母 长度至少 8 位 主要知识点 while 循环 推导式 列表 any 函数 命令行 input 代码部分 密码强度检测 1、创建 python 文件 密码强度检测规则 1 至少包含一个数字 2 至少包含一个大写字母 3 长度至少 8 位 # 导入系…

    2023年4月2日
    00
  • 14个Python处理Excel的常用操作,我先试过了,非常好用

    自从学了Python后就逼迫用Python来处理Excel,所有操作用Python实现。目的是巩固Python,与增强数据处理能力。这也是我写这篇文章的初衷。废话不说了,直接进入正题。 数据是网上找到的销售数据,长这样: 一、关联公式:Vlookup vlookup是excel几乎最常用的公式,一般用于两个表的关联查询等。所以我先把这张表分为两个表。 df1…

    Python开发 2023年3月31日
    00
  • 趁这个软件还没倒闭,我连夜用Python下载了所有壁纸…

    最近啊,有些人总是喜欢乱点一些七七八八的网站,没错,就是那个巳月,点完了又喊我爬,自己不爬! 就是这些,眼熟吗,反正我一个不认识!!一开始我是严词拒绝的!我是那样的人吗?要不是他请我喝奶茶让我来,我才不瞎搞呢!     软件环境 Python 3.8 解释器 Pycharm 编辑器 模块使用 requests 数据请求模块 re 正则 代码展示 代码仅做展示…

    Python开发 2023年4月2日
    00
  • QQ发生大规模账号泄露事件,二十行Python代码,带你了解前因后果

    六月,秋秋发生大规模盗号事件,众说纷纭,也有说因为某习通买卖个人信息导致的,有说是因为点了图片中的网站导致中毒被盗的,还有说企鹅数据库被攻击导致账号被盗的,反正公说公有理婆说婆有理。     但是吧,人呐,一般都喜欢凑热闹,于是乎,我直接用Python把围脖爬了一遍,看他们争论的不亦乐乎,我开心极了~       兄弟们学习python,有时候不知道怎么学,…

    2023年4月2日
    00
  • 花了一个月终于整理出来了,800道Python习题,试试你能做对多少道!

    最近沉寂的太久了,只为了给大家准备这一套试题,这大概是全网最全面的了,各位学这么久Python,检验学习成果的时间到了!! 话不多说我们直接开始把! 一、填空题 001、Python安装扩展库常用的工具是__________和conda,其中后者需要安装Python集成开发环境Anaconda3之后才可以使用,而前者是Python官方推荐和标配的; 我还给大…

    Python开发 2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部