【2023最新B站评论爬虫】用python爬取上千条哔哩哔哩评论

2023年4月2日下午4:17 • Python开发

一、爬取目标
二、展示爬取结果
三、爬虫代码
四、同步视频
五、附完整源码

您好，我是@马哥python说，一枚10年程序猿。

一、爬取目标

之前，我分享过一些B站的爬虫：
【Python爬虫案例】用Python爬取李子柒B站视频数据
 【Python爬虫案例】用python爬哔哩哔哩搜索结果
 【爬虫+情感判定+Top10高频词+词云图】"谷爱凌"热门弹幕python舆情分析

但我学习群中小伙伴频繁讨论B站评论的爬取，所以，再分享一个B站视频评论的爬虫。

二、展示爬取结果

首先，看下部分爬取数据：
【2023最新B站评论爬虫】用python爬取上千条哔哩哔哩评论

爬取字段含：视频链接、评论页码、评论作者、评论时间、IP属地、点赞数、评论内容。

三、爬虫代码

导入需要用到的库：

import requests  # 发送请求
import pandas as pd  # 保存csv文件
import os  # 判断文件是否存在
import time
from time import sleep  # 设置等待，防止反爬
import random  # 生成随机数

定义一个请求头：

# 请求头
headers = {
    'authority': 'api.bilibili.com',
    'accept': 'application/json, text/plain, */*',
    'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
    # 需定期更换cookie，否则location爬不到
    'cookie': "需换成自己的cookie值",
    'origin': 'https://www.bilibili.com',
    'referer': 'https://www.bilibili.com/video/BV1FG4y1Z7po/?spm_id_from=333.337.search-card.all.click&vd_source=69a50ad969074af9e79ad13b34b1a548',
    'sec-ch-ua': '"Chromium";v="106", "Microsoft Edge";v="106", "Not;A=Brand";v="99"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
    'sec-fetch-dest': 'empty',
    'sec-fetch-mode': 'cors',
    'sec-fetch-site': 'same-site',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.47'
}

请求头中的cookie是个很关键的参数，如果不设置cookie，会导致数据残缺或无法爬取到数据。
那么cookie如何获取呢？打开开发者模式，见下图：
【2023最新B站评论爬虫】用python爬取上千条哔哩哔哩评论

由于评论时间是个十位数：
【2023最新B站评论爬虫】用python爬取上千条哔哩哔哩评论

所以开发一个函数用于转换时间格式：

def trans_date(v_timestamp):
    """10位时间戳转换为时间字符串"""
    timeArray = time.localtime(v_timestamp)
    otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
    return otherStyleTime

向B站发送请求：

response = requests.get(url, headers=headers, )  # 发送请求

接收到返回数据了，怎么解析数据呢？看一下json数据结构：
【2023最新B站评论爬虫】用python爬取上千条哔哩哔哩评论

0-19个评论，都存放在replies下面，replies又在data下面，所以，这样解析数据：

data_list = response.json()['data']['replies']  # 解析评论数据

这样，data_list里面就是存储的每条评论数据了。
接下来吗，就是解析出每条评论里的各个字段了。
我们以评论内容这个字段为例：

comment_list = []  # 评论内容空列表
# 循环爬取每一条评论数据
for a in data_list:
    # 评论内容
    comment = a['content']['message']
    comment_list.append(comment)

其他字段同理，不再赘述。

最后，把这些列表数据保存到DataFrame里面，再to_csv保存到csv文件，持久化存储完成：

# 把列表拼装为DataFrame数据
df = pd.DataFrame({
    '视频链接': 'https://www.bilibili.com/video/' + v_bid,
    '评论页码': (i + 1),
    '评论作者': user_list,
    '评论时间': time_list,
    'IP属地': location_list,
    '点赞数': like_list,
    '评论内容': comment_list,
})
# 把评论数据保存到csv文件
df.to_csv(outfile, mode='a+', encoding='utf_8_sig', index=False, header=header)

注意，加上encoding='utf_8_sig'，否则可能会产生乱码问题！

下面，是主函数循环爬取部分代码：（支持多个视频的循环爬取）

# 随便找了几个"世界杯"相关的视频ID
bid_list = ['BV1DP411g7jx', 'BV1M24y117K3', 'BV1nt4y1N7Kj']
# 评论最大爬取页（每页20条评论）
max_page = 30
# 循环爬取这几个视频的评论
for bid in bid_list:
    # 输出文件名
    outfile = 'b站评论_{}.csv'.format(now)
    # 转换aid
    aid = bv2av(bid=bid)
    # 爬取评论
    get_comment(v_aid=aid, v_bid=bid)

四、同步视频

演示视频：
https://www.zhihu.com/zvideo/1584884344677437440

五、附完整源码

附完整代码：【B站评论爬虫】用python爬取上千条哔哩哔哩评论

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：【2023最新B站评论爬虫】用python爬取上千条哔哩哔哩评论 - Python技术站

马哥python说

0 0 打赏

微信扫一扫

支付宝扫一扫

10个优秀的Python库，实用且有趣

上一篇 2023年4月2日

PYTHON爬取图片

下一篇 2023年4月2日

【保姆级Python入门教程】马哥手把手带你安装Python、安装Pycharm、环境配置教程

您好，我是 @马哥python说，一枚10年程序猿。我的社群中小白越来越多，咨询讨论的问题很多集中在python安装上，故输出此文，希望对大家起步有帮助。下面开始，先安装Python，再安装pycharm，咱一步一步来。一、安装Python解释器 1、打开python官网下载地址：https://www.python.org/downloads/ 「…

Python开发 2023年4月2日
000
Python开发

【股票爬虫教程】我用100行Python代码，爬了雪球网5000只股票，还发现一个网站bug！

目录一、爬取目标二、分析网页三、爬虫代码四、同步视频五、get完整源码一、爬取目标您好，我是@马哥python说，今天继续分享爬虫案例。爬取网站：雪球网的沪深股市行情数据具体菜单：雪球网 > 行情中心 > 沪深股市 > 沪深一览爬取字段，含：股票代码，股票名称，当前价，涨跌额，涨跌幅，年初至今，成交量，成交额，换手率，市盈…

2023年4月2日
000
Python开发

【可视化分析案例】用python分析B站Top100排行榜数据

目录一、数据源二、数据读取三、数据概览四、数据清洗五、可视化分析 5.1 相关性分析（Correlation） 5.2 饼图（Pie） 5.3 箱形图（Boxplot） 5.4 词云图（wordcloud）六、同步讲解视频七、附完整源码一、数据源之前，我分享过一期爬虫，用python爬取Top100排行榜：最终数据结果，是这样的：在此数…

2023年4月2日
000
Python开发

【GUI开发案例】用python爬百度搜索结果，并开发成exe桌面软件！

目录一、背景介绍 1.1 老版本 1.2 爬取目标 1.3 软件运行截图 1.4 爬取数据 1.5 实现思路二、代码讲解 2.1 爬虫 2.2 软件界面 2.3 日志模块三、软件运行演示四、完整源码一、背景介绍你好，我是 @马哥python说，一名10年程序猿。 1.1 老版本之前我开发过一个百度搜索的python爬虫代码，具体如下：【pyt…

2023年4月2日
000
Python开发

【拖拽可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理，简单粗暴！

目录一、设计方案二、项目背景三、电影爬虫 3.1 导入库 3.2 发送请求 3.3 解析页面 3.4 存储到csv 3.5 讲解视频四、数据持久化存储 4.1 导入库 4.2 存入MySQL 4.3 讲解视频五、开发可视化大屏 5.1 柱形图 5.2 饼图 5.3 词云图 5.4 数据表格 5.5 涟漪散点图 5.6 条形图 5.7 大标题 5.8…

2023年4月2日
000
【11个适合毕设的Python可视化大屏】用pyecharts开发拖拽式可视化数据大屏

你好，我是@马哥python说，一枚10年程序猿。一、效果演示以下是我近期用Python开发的原创可视化数据分析大屏，非常适合毕设用，下面逐一展示：（以下是截图，实际上有动态交互效果哦）以下大屏均为@马哥python说的个人原创，请勿转载。 1.1 影视剧分析大屏 1.2 豆瓣电影分析大屏A 1.3 豆瓣电影分析大屏B 1.4 58同城房源分析大屏 1…

python 2023年5月10日
000
Python开发

详细剖析pyecharts大屏的Page函数配置文件:chart_config.json

目录一、问题背景二、揭开json文件神秘面纱三、巧用json文件四、关于Table图表五、同步讲解视频 5.1 讲解json的视频 5.2 讲解全流程大屏的视频 5.3 讲解全流程大屏的文章一、问题背景前情提要（第5.8章节）：【Python可视化大屏】全流程揭秘实现可视化数据大屏的背后原理！在用Page函数拖拽组合完大屏时，点击页面左上角…

2023年4月2日
000
Python开发

【可视化大屏教程】用Python开发智慧城市数据分析大屏！

目录一、开发背景二、讲解代码 2.1 大标题+背景图 2.2 各区县交通事故统计图-系列柱形图 2.3 图书馆建设率-水球图 2.4 当年城市空气质量aqi指数-面积图 2.5 近7年人均生产总值变化图-面积图 2.6 城市人才占比结构图-柱形图 2.7 城市宣传片视频-大屏左上角位置 2.8 组合以上图表，生成临时大屏 2.9 生成最终大屏 2.10 …

2023年4月2日
000