Python爬虫基础丨采集知乎问答区内容

不知道现在还有多少人玩知某乎,我们那时候没事就刷刷知某乎,贴某吧,不知留下了多少足迹。

知乎上问答的质量挺高,今天咱们就对其问答内容进行爬虫实验。

效果展示

可以看到,数据咱们就获取下来了,保存就可以了。

Python爬虫基础丨采集知乎问答区内容

代码展示

import requests
import re
import json
import pprint
# 文章不理解,我还专门个大家录制了详细的视频讲解,直接在这个扣裙里面领取 708525271
 
headers = {
    'cookie': '__snaker__id=tx5pc8xnwNvTYvG3; SESSIONID=stAjAfHLiBBtepPE5fTov5aYQJYBLURoM8YhM5jRXqG; JOID=W1EUA0yH_mXOxwv_Jo6gdXoTh844pNVH6uoo1ASq3U7s4ybcDe3ljKTJA_YgcWoL8eX7c_wINvZ6Pe0AjXgWecM=; osd=WloVAUOG9WTMyAr0J4yvdHEShcE5r9RF5esj1Qal3EXt4SndBuzng6XCAvQvcGEK8-r6eP0KOfdxPO8PjHMXe8w=; _zap=ba7095c9-0aae-423f-9975-92c7813e6036; d_c0=ANAWztCFPxaPTkyqOI3cpp5phHc7BJUpFhs=|1675000059; YD00517437729195%3AWM_TID=q1pMuo8yFBhAAQVQURLAPRTyEuWDd2qg; arialoadData=false; YD00517437729195%3AWM_NI=jPZTAA6q1q7YI0MPivmHxhtaLmJ7TBYjTAF34UDD36WmBPrKwe5O4Lfww1472OKDIPEwCz5Ug2Hrtg%2BMm8apy4EH%2BmnIshxyXyWNH2jmJ%2FmJIFwli06F3A4RKje5REwBUXo%3D; YD00517437729195%3AWM_NIKE=9ca17ae2e6ffcda170e2e6ee8fb246a7eb8187c142bbb48bb6d84a969b9e86d46b91bb96a6cb728ceafbd5d82af0fea7c3b92aaa9096b5c44bf6afff92b6538bf083b1ec7eaf98b889f76b90b386d8d74a9bb69ca2c539f88b8ca5b23e95b38eb1f141b5bbfbb0b748a6a9b9d2b73df29185a5cc5c87a98d9bb85fa5ee8893f76de993a3d9e47cbbec8ba9aa67ae97bd89fb739ca799afcb3aaab386d0f0428b9ab98dec3cf69afda2b75a89b6abd6d14fb59e9bb9ee37e2a3; _xsrf=8cfa292c-c915-42f3-b376-a82f56613cc3; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1676462242,1676547626,1676557107,1676612193; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1676612193; captcha_session_v2=2|1:0|10:1676612193|18:captcha_session_v2|88:SWI5MW91WjcybkczamhaT1FOY0lCZWczM1h1UDBvVTBQcXFYcC9JWm9qUXlybkIvbW5MQWFvd1lpeHVLUVVTWg==|68915c879a030053a7c3b5921aa2d5974f5837adb19001b606e891ae08247c14; gdxidpyhxdE=ohaj9Ig0u1f%5CcdLdC0QAEhJE6fplEfZ%2BYp07xr3XVZCJ3JmJQRfzhckh%2BJayuMOQGReJMfCem4ZE2Slz2MHMzY4r5fkAIJpTvzYcqGPHtICLgVWSM6lR5tNj1Y0O0436Gun52GbM9HW9%2F15JME0vJYKLhdSQtwykihOokRLmLbeVXJ4K%3A1676613094284; KLBRSID=2177cbf908056c6654e972f5ddc96dc2|1676612386|1676612191',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'
}
url = 'https://www.****.com/question/584206512'
html_data = requests.get(url=url, headers=headers).text
json_str = re.findall('<script id="js-initialData" type="text/json">(.*?)</script>', html_data)[0]
json_data = json.loads(json_str)
next_url = json_data['initialState']['question']['answers']['584206512']['next']
answers = json_data['initialState']['entities']['answers']
for key in list(answers.keys()):
    print(answers[key]['content'])

 

最后

视频我都录制了对应的视频讲解,大家直接在下方领取,包括代码!

今天的分享就到这结束了,下次见!

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python爬虫基础丨采集知乎问答区内容 - Python技术站

(0)
上一篇 2023年3月31日
下一篇 2023年3月31日

相关文章

  • 程序员即将失业?ChatGPT正在取代各位!

    最近OpenAI的ChatGPT真的是到处都在刷屏,我想你已经看过很多关于ChatGPT的文章或者视频了,我就不过多介绍了。 不过你碰巧还不知道的话,可以先百度一下,然后再回来继续。 与ChatGPT对话很有趣,甚至很有启发性。有人用它聊天,有人用它写代码,太多省时省力的工作,都可以由它完成,我们的内容创作部门已经将ChatGPT用于文案生成。那么对研发,C…

    Python开发 2023年3月31日
    00
  • Python做游戏其实很简单,只是你觉得难…

    很多小伙伴都喜欢小游戏源码,想学一手Python做小游戏,问我做游戏难不难,要怎么做,接下来我就介绍一下,如何用Python做游戏。 游戏演示 2048小游戏 表白弹窗 贪吃蛇 五子棋 俄罗斯方块 超多小游戏,让你一个爽个够! 用PyGame做游戏非常简单,我们今天第一篇文章,让大家实现一个可以在地图上移动的小猪。 基本框架 首先,无论你是做什么游戏,别管三…

    Python开发 2023年4月2日
    00
  • 值得收藏的python语法总结

    python2早已在 2020 年停止维护,随着Python版本的不断更新迭代,很多旧的语法在可读性与效率上都已经有更好的替代了。当然,大部分的重要特性,例如装饰器、生成器、async等,相信大家都已经了然于心,本文小编就对一些用的稍微少一些、日常看到的代码中不太常见,但是能用得上的语法做一个简单的总结,供大家参考,如果大家有什么不同的见解,还望各位大佬们多…

    Python开发 2023年4月2日
    00
  • Python批量处理Excel表格,将多个表格内容合并到一个,提升工作效率!

    老板最近越来越过分了,快下班了发给我几百个表格让我把内容合并到一个表格内去。还好我会Python,分分钟就搞定了,这要是换个不会Python的,不得加班到第二天天亮去了~ 这么好用的技能,必须分享给大家,话不多说,咱们直接开始! 准备工作 咱们需要先准备表格数据,会爬虫的兄弟可以自己爬一点,不会的,可以找我直接拿数据。 表格内数据     我这里只做展示,所…

    Python开发 2023年4月2日
    00
  • 两行Python代码实现自动打开百度并输入搜索词,超简单

    在群里面最常见的一句话就是,本群已和百度达成深度合作,有问题直接找百度即可! 好家伙~ 那我们今天就来试试,用Python自动打开百度找答案! 涉及知识点 基础语法 路由跳转 http 状态码 代码展示 首先导入咱们需要使用的模块 import platform import webbrowser # 我给大家准备了这些资料:Python视频教程、100本P…

    Python开发 2023年4月2日
    00
  • 重温Python基础——if语句

    哈喽兄弟们,本节咱们来复习一下Python基础入门中的if语句。 编程中经常需要检查一系列条件,并据此决定采取什么措施。在python中,if语句能检测你的程序的当前状态,并据此采取什么措施。 if语句功能 可以作为条件测试检查是否相等,检查是不相等数值比较,检查多个条件等!下面来一些简单的示例: a=10 b=11 c=21 if a==b: print(…

    Python开发 2023年4月2日
    00
  • 重温Python基础——操作列表

    哈喽兄弟们,今天咱们来复习一下Python基础中的列表操作,不知道各位还记得多少呢? 遍历整个列表加粗样式 遍历列表的所有元素,对每一个元素进行相同的操作,是我们常常所需要的。在python中可使用for()循环。 假如我们需要将一个列表中的手机品牌一一打印,我们可以分别获取手机品牌的名字。如果数据特别的,对我们的操作要求量很大,而且容易输入错误,但使用fo…

    Python开发 2023年4月2日
    00
  • 【Python基础教程】类的定义和使用

    哈喽兄弟们,今天咱们分享一下类的定义和使用。   在Python中,类表示具有相同属性和方法的对象的集合。在使用类时,需要先定义类,然后再创建类的实例,通过类的实例就可以访问类中的属性和方法了。 1、定义类 在Python中,类的定义使用class关键字来实现,语法如下: class ClassName: “”“类的帮助信息”“” # 类文本字符串 stat…

    Python开发 2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部