Python丨听说这个地方的漫画不错,只用40行代码,给它全部爬下来

前因后果

公司新来的小姐姐,超级喜欢看漫画,天天给我介绍,好烦~

现在是2022年9月15日16点30,于是我决定, 五点下班前写个代码把她说的漫画全部爬下来,应付一下~

再发篇文章揭露她的罪恶,嘿嘿~
Python丨听说这个地方的漫画不错,只用40行代码,给它全部爬下来

准备事项

环境使用

Python 3.8
Pycharm 2021.2版本

 

模块使用

import requests >>> # 数据请求模块  pip install requests
import re  # 正则模块
import os   #  文件操作模块

 

基本流程思路

一. 数据来源分析

1. 确定自己需求:
    采集那个网站上面什么数据内容
    https://www.dongmanmanhua.cn 网址自己补全一下,实在不知道的话文末见。
正常访问流程:
    1. 选中漫画 ---> 目录页面 <请求列表页面 获取所有章节链接>
    2. 选择一个漫画内容 ---> 漫画页面 <请求章节链接, 获取所有漫画内容url>
    3. 看漫画内容 <保存数据, 漫画图片内容保存下来>

分析流程: <开发者工具进行抓包分析>

    1. 查看漫画图片url地址, 是什么样子
        https://cdn.dongmanmanhua.cn/166052717362315191169.jpg?x-oss-process=image/quality,q_90
    2. 分析url地址在哪里
        通过搜索功能 <开发者工具>  166052717362315191169
        https://www.dongmanmanhua.cn/BOY/moutianchengweimoshen/116-%E7%AC%AC43%E7%AB%A0-%E5%A2%9E%E5%8A%A0%E6%88%98%E6%96%97%E5%8A%9B%E5%90%A73/viewer?title_no=1519&episode_no=116

F12打开开发者工具, 进行刷新网页
点击Img
通过对比分析请求url地址变化 —> 漫画内容都是来于章节链接里面

二. 代码实现步骤过程

1. 发送请求 ---> 对于目录页面发送请求
2. 获取数据 ---> 服务器返回响应数据 <网页源代码数据>
3. 解析数据 ---> 提取想要章节链接 / 漫画名字 / 章节名字
4. 发送请求 ---> 对于章节链接发送请求
5. 获取数据 ---> 服务器返回响应数据 <网页源代码数据>
6. 解析数据 ---> 提取想要图片链接
7. 保存数据 ---> 保存到本地

效果展示

不知不觉都四千多张图了,大家别一窝蜂去爬了,等下网站崩了就不好了~

Python丨听说这个地方的漫画不错,只用40行代码,给它全部爬下来

代码展示

发送请求

def 自定义函数关键字
get_response: 自定义函数名字

模拟浏览器对于url地址发送请求
param html_url: 自定义形式参数
return: 响应对象

def get_response(html_url):
    # 请求头 headers 模拟浏览器 ---> 字典数据类型, 构建完整键值对 <伪装请求头可以复制粘贴>
    headers = {
        # referer 防盗链 告诉服务器请求url地址 是从哪里跳转过来
        'referer': 'https://www.dongmanmanhua.cn/',
        # User-Agent  浏览器基本身份信息
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    # 通过数据请求模块 去发送请求
    response = requests.get(url=html_url, headers=headers)
    # return 返回 ---> 在代码里面 调用 get_response  函数 这个函数, 会给我们返回 response 这个数据
    return response

 

获取章节链接 / 漫画名字 / 章节名字

def get_info(html_url):
    # 调用发送请求函数
    html_data = get_response(html_url).text
    # re正则提取数据
    name = re.findall("title_title: '(.*?)',", html_data)[0]  # 提取漫画名字
    chapter_url_list = re.findall('data-sc-name="PC_detail-page_related-title-list-item".*?href="(.*?)"', html_data, re.S)
    title_list = re.findall('<span class="subj"><span>(.*?)</span></span>', html_data)
    return name, chapter_url_list, title_list

 

获取漫画url地址

def get_img_url(chapter_url):
    # 调用发送请求函数
    chapter_data = get_response(chapter_url).text
    # re获取所有漫画图片内容
    img_url_list = re.findall('alt="image" class="_images _centerImg" data-url="(.*?)"', chapter_data)
    # 403 Forbidden 没有访问权限  ---> 通过代码得到数据 请求头里面加防盗链
    return img_url_list

 

保存数据

def save(name, title, img_url):
    """
    :param name: 漫画名
    :param title: 图片名
    :param img_url: 图片链接
    :return:
    """
    # 自动创建文件夹
    file = f'img\\{name}\\'
    # 如果没有这个文件夹的话
    if not os.path.exists(file):
        # 自动创建文件夹
        os.makedirs(file)
    # 对于图片链接发送请求 获取二进制数据
    img_content = get_response(img_url).content
    # file + title  保存地方以及保存文件名 mode 保存方式
    with open(file + title, mode='wb') as f:
        # 写入数据
        f.write(img_content)
    print(name, title)

 

主函数

整合上面所有内容

def main(page):
    """
    完整源码及视频讲解再这个群 279199867 自取即可
    :param page:
    :return:
    """
    # 目录页面
    link = f'https://www.dongmanmanhua.cn/BOY/moutianchengweimoshen/list?title_no=1519&page={page}'
    # 调用获取章节链接 / 漫画名字 / 章节名字 函数
    name, chapter_url_list, title_list = get_info(link)
    # for循环遍历 提取数据
    for chapter_url, chapter_title in zip(chapter_url_list, title_list):
        # 字符串拼接
        chapter_url = 'https:' + chapter_url
        # 获取漫画内容
        img_url_list = get_img_url(chapter_url)
        # for循环遍历 提取数据
        num = 1
        for img_url in img_url_list:
            title = chapter_title + str(num) + '.jpg'
            # 调用保存数据函数
            save(name, title, img_url)
            # 每次循环 +1
            num += 1

 

函数入口, 当你代码被当作模块调用的时候, 下面的代码不执行。

if __name__ == '__main__':
    for page in range(12, 0, -1):
        main(page)

 

好了,今天的分享就到这喽,完整源码及视频讲解下方名片自取即可~

最后分享一套Python教程:Python实战100例

希望对你有所帮助哈~

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python丨听说这个地方的漫画不错,只用40行代码,给它全部爬下来 - Python技术站

(0)
上一篇 2023年4月2日
下一篇 2023年4月2日

相关文章

  • 毕业设计经典案例:Python实现疫苗接种数据库管理

    那一年过年前,疫情开始爆发,对全国人民的生活和工作造成了严重的影响。但凭借着国家强盛的实力,新冠疫苗也很快的被技术人员研发出来,人们通过接种新冠疫苗来抵御新冠病毒的危害。本次通过接种新冠疫苗的这个数据统计,来设计“疫苗接种数据库”,存储人们接种疫苗的相关信息,并实现“增删改查”等基本操作以及其他的拓展功能。 国内新冠疫苗人员接种后,如果不通过数据统计到数据库…

    Python开发 2023年4月2日
    00
  • 奶奶常说,黑白照片看的不清晰,还好我会Python,分分钟给她变成彩色的~

    咳咳~ 其实是奶奶常说,艾欧尼亚昂扬不灭,正义将指引着我们!   好吧,并不是奶奶说,只是最近回家发现一些黑白老照片,看着不够清晰,然后实验了一波用Python把老照片变成彩色的。 代码展示 import requests # Python学习交流资料源码获取群 279199867 r = requests.post( “https://api.deepai…

    2023年4月2日
    00
  • python移除列表中的重复元素

    所谓基础不牢,地动山摇,咱们基础学完了,但是要温故而知新。     涉及知识点 python 遍历列表 python 集合 set python 方法调用 代码解析 咱们通过遍历和集合两个方式来实现 首先导入使用的模块 import platform # Python学习交流群:279199867 # 进群后可领取海量:Python视频教程、100本Pyth…

    2023年4月2日
    00
  • 花了一个月终于整理出来了,800道Python习题,试试你能做对多少道!

    最近沉寂的太久了,只为了给大家准备这一套试题,这大概是全网最全面的了,各位学这么久Python,检验学习成果的时间到了!! 话不多说我们直接开始把! 一、填空题 001、Python安装扩展库常用的工具是__________和conda,其中后者需要安装Python集成开发环境Anaconda3之后才可以使用,而前者是Python官方推荐和标配的; 我还给大…

    Python开发 2023年4月2日
    00
  • Python:如何只用十几行代码写一个程序?

    Python可以做的事情真的太多了,常见的网站开发,软件开发,爬虫,数据分析,人工智能,机器学习,量化投资,自动化办公,自动化运维,游戏开发,脚本制作,树莓派等等等等~ 今天咱们就来试试用Python做一个简单的程序,只需要十几行代码即可,灰常简单~     知识点 PyQt6 sys   代码展示 #引入类 # 更多好玩的代码 都放在这个群啦 279199…

    2023年4月2日
    00
  • 下班在家没事干?教大家用Python做一个任何视频都能看的软件, 当然,只能看正经的!

    这不,国庆假期结束了,又得开始上班下班之旅了~ 有没有被疫情堵着出不来的呢?     话说回来,放这么久的假,大家还记得Python吗? 这不是怕大家又不能出去旅游,回家了或者在宿舍没事干太无聊,所以特地给大家献上如何用Python来开发一款看视频不需要VIP的软件~ 如果想发给朋友用的话,咱们在打包成exe可执行软件,这样小伙伴也能一起用了~ 效果展示 我…

    2023年4月2日
    00
  • 用Python计算从1到500之间偶数的和

    兄弟们,今天来实现一下用Python计算1到500的偶数总和,灰常简单,检验一下大家基础学的怎么样! 涉及到的知识点 range 使用 for 循环 推导式 函数调用 # 这应该都学过吧,如果刚刚接触Python,基础都还没怎么学的话,加Q群 279199867,领取2022最新的Python视频教程、100本Python电子书、基础、爬虫、数据分析、web…

    Python开发 2023年4月2日
    00
  • 用Python来做一个简单的学生管理系统(附源码)

    小学妹说要毕业了,学了一学期Python等于没学,现在要做毕设做不出来,让我帮帮她,晚上去她家吃夜宵。 当时我心想,这不是分分钟的事情,还要去她家,男孩子晚上不要随便出门,要学会保护好自己,于是我花了十分钟给她写了一个发过去,这下不用去她家了~     代码实战 主要代码,完整代码素材、包括其它版本学生管理系统代码,也有录制好的视频讲解,第八行代码自取即可!…

    2023年3月31日
    00
合作推广
合作推广
分享本页
返回顶部