使用Python获取公众号下所有的文章

获取公众号下所有文章的完整攻略可以分为以下几个步骤:

第一步:获取公众号的cookie

获取公众号下所有文章需要先获取公众号的cookie,方法如下:
1. 打开浏览器,访问公众平台
2. 登录自己的公众号
3. 登录成功后,在浏览器中按下F12键,打开开发者工具
4. 点击“Application”选项卡,找到“Cookies”项并点击
5. 在“Cookies”下找到mp.weixin.qq.com项,点击后找到wxuin和wxsid两个cookie,将其记录下来备用。

第二步:使用Python发起请求

使用Python的requests库向公众号文章首页发送请求,并带上获取到的cookie,获取公众号文章的信息,方法如下:

import requests

cookie = {'wxuin': 'xxxx', 'wxsid': 'xxxx'}
url = 'https://mp.weixin.qq.com/mp/profile_ext'
params = {'action': 'getmsg', 'count': '10', 'f': 'json', 'offset': '0', 'uin': 'xxx'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36', 
           'Cookie': ';'.join([key+'='+value for key,value in cookie.items()])}
response = requests.get(url=url, headers=headers, params=params)

其中,cookie是第一步获取到的公众号cookie,url是公众号文章首页的链接,params是请求参数,headers是请求头信息。

第三步:解析响应数据

使用json库解析第二步请求获取到的数据,提取出文章的标题、链接等信息,方法如下:

import json

json_data = json.loads(response.text)
article_data = json_data['general_msg_list']
article_data = json.loads(article_data)['list']
for article in article_data:
    title = article['app_msg_ext_info']['title']
    url = article['app_msg_ext_info']['content_url']
    print(title, url)

其中,json.loads()方法将响应数据中的json字符串转换为Python字典数据,article_data获取文章列表信息,遍历article_data,提取出每篇文章的标题和链接。

示例1:获取公众号“伊索”下的所有文章链接

import requests
import json

cookie = {'wxuin': 'xxxx', 'wxsid': 'xxxx'}
url = 'https://mp.weixin.qq.com/mp/profile_ext'
params = {'action': 'getmsg', 'count': '10', 'f': 'json', 'offset': '0', 'uin': 'xxx'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36', 
           'Cookie': ';'.join([key+'='+value for key,value in cookie.items()])}
response = requests.get(url=url, headers=headers, params=params)

json_data = json.loads(response.text)
article_data = json_data['general_msg_list']
article_data = json.loads(article_data)['list']
for article in article_data:
    title = article['app_msg_ext_info']['title']
    url = article['app_msg_ext_info']['content_url']
    print(title, url)

示例2:获取公众号“机器之心”近期发布的文章链接

import requests
import json

cookie = {'wxuin': 'xxxx', 'wxsid': 'xxxx'}
url = 'https://mp.weixin.qq.com/mp/profile_ext'
params = {'action': 'getmsg', 'count': '10', 'f': 'json', 'offset': '0', 'uin': 'xxx'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36', 
           'Cookie': ';'.join([key+'='+value for key,value in cookie.items()])}
response = requests.get(url=url, headers=headers, params=params)

json_data = json.loads(response.text)
article_data = json_data['general_msg_list']
article_data = json.loads(article_data)['list']
for article in article_data:
    if '机器之心' in article['app_msg_ext_info']['title']:
        title = article['app_msg_ext_info']['title']
        url = article['app_msg_ext_info']['content_url']
        print(title, url)

在示例2中,我们遍历了所有文章信息,并使用if语句筛选出包含“机器之心”关键字的文章信息。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:使用Python获取公众号下所有的文章 - Python技术站

(0)
上一篇 2023年6月3日
下一篇 2023年6月3日

相关文章

  • 简单介绍Python中的RSS处理

    当使用Python处理带有RSS的网站时,可以使用“feedparser”模块,此模块可以让你轻松地获取和处理这些数据。 安装feedparser 使用feedparser模块需要先安装它。可以使用pip来安装feedparser,运行以下命令即可: pip install feedparser 解析RSS Feed 一旦安装了feedparser,就可以使…

    python 2023年6月3日
    00
  • Python集合操作方法详解

    Python集合操作方法详解 什么是集合 集合(Set)是一个无序的不重复元素序列。它是由一个或多个数据组成的,不需要顺序,也不要求唯一性。 Python中的集合与数学中的集合概念相同。简单地说,它是包含各种元素的数据结构。 Python中集合的操作 创建集合 创建集合只需要使用set()函数。 示例: # 创建空集合 set1 = set() print(…

    python 2023年5月13日
    00
  • Python格式化字符串的案例方法

    当我们在Python中需要将变量的值按照一定的格式输出的时候,Python中提供了一种格式化字符串的方法,可以通过format()方法或者f-strings进行实现。 格式化字符串的方法一:format()方法 位置参数方式,字符串中使用占位符{},format()方法中传入需要填充的变量,用逗号隔开,并且严格按照顺序填充。 实例代码: name = ‘Ja…

    python 2023年6月5日
    00
  • 详解python内置模块urllib

    详解Python内置模块urllib urllib是Python中一个内置的HTTP请求库,可以方便地进行HTTP请求、URL解析、Cookie处理等操作。本文将详细讲解urllib模块的使用方法,包括HTTP请求、URL解析、Cookie处理等操作。 HTTP请求 以下是一个使用urllib模块发送HTTP请求的示例: import urllib.requ…

    python 2023年5月15日
    00
  • 在主流系统之上安装Pygame的方法

    在主流系统之上安装Pygame的方法可以分为以下几步: 安装Python解释器 在安装Pygame之前,需要先安装Python解释器。可以从官网 https://www.python.org/downloads/ 下载对应操作系统的Python安装包。安装时需要注意勾选“Add Python to PATH”选项,这样才能在命令行中使用python命令。 安…

    python 2023年5月14日
    00
  • Python中Dict两种实现的原理详解

    Python中Dict两种实现的原理详解 在Python中,字典(Dict)被广泛使用。Python使用了两种不同的技术来实现Dict,分别为散列表(Hash Table)和有序字典(Ordered Dict)。本篇攻略将详细讲解Python中Dict两种实现的原理。 散列表(Hash Table) 散列表(Hash Table)是一种用于快速查找的数据结构…

    python 2023年5月13日
    00
  • Python文件操作和异常处理的方法和技巧

    Python 是一门强大的编程语言,它提供了许多文件操作和异常处理的方法和技巧,本文将详细讲解其中的几个常用方法和技巧。 Python文件操作方法 在 Python 中,我们可以通过以下方法进行文件操作: 打开文件 我们可以使用 open() 函数打开要操作的文件。其用法如下: f = open(‘file.txt’, ‘r’) 其中,’file.txt’ …

    python 2023年5月13日
    00
  • 初步探究Python程序的执行原理

    下面是详细讲解如何初步探究Python程序的执行原理的完整攻略。 观察程序执行过程 了解 Python 程序的执行过程,需要对程序运行时的几个关键步骤进行观察和理解,主要包括以下几个方面: Python 程序被解释器进行解释,并转化为字节码。 字节码被传递给 Python 虚拟机进行执行。 程序在解释器和虚拟机的协同作用下,完成程序的执行。 为了更好地观察这…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部