为了防止这个公众号被封,我连夜用Python爬取了它所有图片~

哈喽兄弟们,今天来试试批量获取公众号文章,emmm…

为了防止这个公众号被封,我连夜用Python爬取了它所有图片~

 

 

虽然名义上是文章,单其实它是一篇纯图片文,至于为什么不是文字,小姐姐不比文字香?

为了防止这个公众号被封,我连夜用Python爬取了它所有图片~

 

 

事前准备

为了防止这个公众号被封,我连夜用Python爬取了它所有图片~

 

 

我们需要用到 Fiddler Everywhere 这个软件,Crack是本次要使用到的文件,以及要安装微信PC版客户端,我专门录了一个安装 及使用的教程。

本次使用的是Python3.8 以及 pycharm2021,这是目前比较稳定的版本。

模块方面需要安装一个requests 模块,它是第三方模块,需要手动安装,win+R 打开运行框输入cmd 按回车打开命令提示符窗口,输入pip install requests 按回车即可安装。

效果展示

太过份的我就不展示了,影响不好,我们是技术爱好者,不是那啥爱好者~

为了防止这个公众号被封,我连夜用Python爬取了它所有图片~

 

 

主要代码

# 软件和安装教程、代码在这个群 279199867 自取哈
headers = {
    'Host': 'mp.weixin.qq.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36 NetType/WIFI MicroMessenger/7.0.20.1781(0x6700143B) WindowsWechat(0x63060012)',
    'Cookie': 'wxuin=2408215323; lang=zh_CN; pass_ticket=TsrY5cXMvTN01ghVFxFxT9k4jdPONJBt8mdl0ta20qxjUHNsnkkWLjib4gXCXSQM; devicetype=android-29; version=2800153f; wap_sid2=CJvmqfwIEooBeV9IQVVCUVAzdVBlWEo5NTlySFpON1Ffek5zTE9qRi1jdWZjVFMyOFYyM0FyVE9RSTRNZ3VuUXFTcU94Q3lKY1VyQlJ2RkEtTWFyRWFLeHhJUTRrWmp0N0VDZ05zOFV4d0kzZ1p5cXBIbTVBbEZGRWJteEt4Q0oxSjY4ZHFhODlaZnMyY1NBQUF+MOXS6ZIGOA1AlU4=',
}
# ::text
for page in range(0, 3):
    url = f'https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=MzU0MzU4OTY2NQ==&f=json&offset={page * 10}&count=10&is_ok=1&scene=&uin=777&key=777&pass_ticket=&wxtoken=&appmsg_token=1161_7%252BO7mVaQbImKSRrYWqKBnNggweX4WNZaqjadeg~~&x5=0&f=json'
    json_data = requests.get(url=url, headers=headers).json()
    general_msg_list = json_data['general_msg_list']
    general_msg_list = json.loads(general_msg_list)['list']
    # print(general_msg_list)
    title_list = []
    content_url_list = []
    for general_msg in general_msg_list:
        title = general_msg['app_msg_ext_info']['title']
        content_url = general_msg['app_msg_ext_info']['content_url']
        multi_app_msg_item_list = general_msg['app_msg_ext_info']['multi_app_msg_item_list']
        title_list.append(title)
        content_url_list.append(content_url)
        for multi_app_msg_item in multi_app_msg_item_list:
            title_list.append(multi_app_msg_item['title'])
            content_url_list.append(multi_app_msg_item['content_url'])
    # print(title_list)
    # print(content_url_list)
    zip_data = zip(title_list, content_url_list)
    for detail_title, detail_url in zip_data:
        if not os.path.exists('img/' + detail_title):
            os.mkdir('img/' + detail_title)
        # 1. 发送请求
        response = requests.get(url=detail_url, headers=headers)
        # 2. 获取数据
        html_data = response.text
        # 3. 解析数据
        # 正则匹配数据 第一个参数 需要匹配的规则
        # 第一个参数 在哪个字符串里面匹配
        img_list = re.findall('data-src="(https://mmbiz.qpic.cn/.*?)"', html_data)
        print(detail_title) 

 

我也录制了对应的视频讲解:Python采集公众号文章

最后推荐一套Python教程:Python实战100例

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:为了防止这个公众号被封,我连夜用Python爬取了它所有图片~ - Python技术站

(0)
上一篇 2023年4月2日
下一篇 2023年4月2日

相关文章

  • Python骚操作!实现自动制作各种证件照,这不比PS快多了!

    事情是这样的 晚上我正在聚精会神写代码(打游戏~) 突然,收到学妹给我发来的消息 还有一张自拍照 而且是可以放在结婚证上的那种哦 就是 之前帮过她几次忙 难道要以身相许 去一起办证 原来是照片尺寸不合适 让我帮她修图。还要什么蓝底、红底各种背景的 虽然有些失落 还是,默默的撸出了我39米长的python大刀 先上效果 1、尺寸长宽调整为:295×413 2、…

    Python开发 2023年4月2日
    00
  • 10个中文成语,10种Python初学者常见错误

    哈喽兄弟们,我总结了Python中十种新手常见的错误,每一个都可以用成语来形容,看看各位遇到过多少次了! 一、画蛇添足 多余的分号 Python语言与大多数编程语言不相同,它的语句后面不需要加分号结尾。有些 Python 新手具有编写其它语言的丰富经验,一时还适应不过来,经常习惯性的加上“分号”: a = 5 # 正确a = 5; # 错误   二、附赘悬疣…

    Python开发 2023年4月2日
    00
  • Python实现下载一个URL图片文件到本地

    今天咱们来实现一下,如何用Python实现下载一个URL图片文件保存本地。 涉及知识点 文件读写 基础语法 字符串处理 # 我还给大家准备了这些资料:Python视频教程、100本Python电子书、基础、爬虫、数据分析、web开发、机器学习、人工智能、面试题、Python学习路线图、问题解答! # 都放在这个扣群啦:279199867   代码展示 imp…

    Python开发 2023年4月2日
    00
  • Python之字典遍历元素(4种方式)

    第一种:for in girl_dict= {“China”: “小美”, “Japan”: “图多天光”, “Korea”: “斯密达美”} for everyKey in girl_dict: print (“key:” + everyKey + “value:” + girl_dict[everyKey])   输出结果 key:japan value…

    Python开发 2023年3月31日
    00
  • 用Python做一个小说下载器,从获取数据到编写GUI界面

    对于广大书虫而言,没有小说看是最痛苦的,你身边有这样的人吗? 今天咱们分享一个小说下载器代码,打包成exe后,发给你的小伙伴也能直接使用… 思路流程 什么是爬虫? 按照一定的规则, 去采集互联网上面数据 爬虫可以做什么? 采集数据: 定制化采集数据 自动化脚本:自动点赞/评论/刷票/商品抢购脚本/自动发送弹幕 爬虫基本实现思路? 一、数据来源分析 明确需求:…

    Python开发 2023年3月31日
    00
  • 重温Python基础——数

    哈喽,兄弟们,本文带大家来复习一下Python基础中的数。 在编程中,经常会使用到数。在一些计算题中,或者其他的可视化数据等。Python能够根据不同用法处理它们 1、整数 在Python中可对整数执行加减乘除运算(+ – * /),使用两个乘号表示乘方(**) a=3 b=4 print(a+b) print(a-b) print(a*b) print(a…

    Python开发 2023年4月2日
    00
  • Python采集疫情数据,绘制可视化动态地图,实时查询疫情数据!

    疫情尚未结束,我们需要做好自己,时刻防范,不给别人添麻烦。 今天我们来尝试用Python抓取世界疫情,实现可视化地图展示。 话不多说直接开搞! 采集数据 1、数据来源 数据来源于TX新闻,链接展示不了,就只贴图了。     2、模块 import requests import csv # Python学习交流君羊:279199867   requests …

    2023年4月2日
    00
  • 王心凌再次爆火,为了防止收费,我连夜用Python把她所有的MV离线

    《乘风破浪的姐姐3》王心凌一骑绝尘,破收视率,多年后再次全网爆火,某音截止现在差不多3500W粉丝,五月份热门女星排名,吊打其它所有人,不愧是我女神! 但是这个热度,感觉她的歌曲和MV,已经离收费越来越近了,于是我连夜用Python把所有MV 和歌曲离线,今天先给大家分享MV的方法。 女神镇楼!     话不多说,我们开冲! 步骤分析 一、数据来源分析 1、…

    2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部