【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩”狂飙”的评论

2023年3月31日下午9:02 • Python开发

一、背景介绍
二、爬虫代码
- 2.1 展示爬取结果
- 2.2 爬虫代码讲解
三、可视化代码
四、演示视频
五、附完整源码

一、背景介绍

您好，我是@马哥python说，一枚10年程序猿。

2023开年这段时间，《狂飙》这部热播剧引发全民追剧，不仅全员演技在线，更是符合反黑主旋律，因此创下多个收视率记录！

基于此热门事件，我用python抓取了B站上千条评论，并进行可视化舆情分析，下面详细讲解代码。

二、爬虫代码

2.1 展示爬取结果

首先，看下部分爬取数据：
爬取结果

爬取字段含：视频链接、评论页码、评论作者、评论时间、IP属地、点赞数、评论内容。

2.2 爬虫代码讲解

导入需要用到的库：

import requests  # 发送请求
import pandas as pd  # 保存csv文件
import os  # 判断文件是否存在
import time
from time import sleep  # 设置等待，防止反爬
import random  # 生成随机数

定义一个请求头：

# 请求头
headers = {
    'authority': 'api.bilibili.com',
    'accept': 'application/json, text/plain, */*',
    'accept-language': 'zh-CN,zh;q=0.9,en;q=0.8,en-GB;q=0.7,en-US;q=0.6',
    # 需定期更换cookie，否则location爬不到
    'cookie': "需换成自己的cookie值",
    'origin': 'https://www.bilibili.com',
    'referer': 'https://www.bilibili.com/video/BV1FG4y1Z7po/?spm_id_from=333.337.search-card.all.click&vd_source=69a50ad969074af9e79ad13b34b1a548',
    'sec-ch-ua': '"Chromium";v="106", "Microsoft Edge";v="106", "Not;A=Brand";v="99"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
    'sec-fetch-dest': 'empty',
    'sec-fetch-mode': 'cors',
    'sec-fetch-site': 'same-site',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36 Edg/106.0.1370.47'
}

请求头中的cookie是个很关键的参数，如果不设置cookie，会导致数据残缺或无法爬取到数据。

那么cookie如何获取呢？打开开发者模式，见下图：
获取cookie

由于评论时间是个十位数：
ctime

所以开发一个函数用于转换时间格式：

def trans_date(v_timestamp):
    """10位时间戳转换为时间字符串"""
    timeArray = time.localtime(v_timestamp)
    otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
    return otherStyleTime

向B站发送请求：

response = requests.get(url, headers=headers, )  # 发送请求

接收到返回数据了，怎么解析数据呢？看一下json数据结构：

0-19个评论，都存放在replies下面，replies又在data下面，所以，这样解析数据：

data_list = response.json()['data']['replies']  # 解析评论数据

这样，data_list里面就是存储的每条评论数据了。

接下来吗，就是解析出每条评论里的各个字段了。

我们以评论内容这个字段为例：

comment_list = []  # 评论内容空列表
# 循环爬取每一条评论数据
for a in data_list:
    # 评论内容
    comment = a['content']['message']
    comment_list.append(comment)

其他字段同理，不再赘述。

最后，把这些列表数据保存到DataFrame里面，再to_csv保存到csv文件，持久化存储完成：

# 把列表拼装为DataFrame数据
df = pd.DataFrame({
    '视频链接': 'https://www.bilibili.com/video/' + v_bid,
    '评论页码': (i + 1),
    '评论作者': user_list,
    '评论时间': time_list,
    'IP属地': location_list,
    '点赞数': like_list,
    '评论内容': comment_list,
})
# 把评论数据保存到csv文件
df.to_csv(outfile, mode='a+', encoding='utf_8_sig', index=False, header=header)

注意，加上encoding='utf_8_sig'，否则可能会产生乱码问题！

下面，是主函数循环爬取部分代码：（支持多个视频的循环爬取）

# 随便找了几个"狂飙"相关的视频ID
bid_list = ['BV1Hx4y1E7QP', 'BV1Ev4y1r737', 'BV19x4y177ni']
# 评论最大爬取页（每页20条评论）
max_page = 50
# 循环爬取这几个视频的评论
for bid in bid_list:
    # 输出文件名
    outfile = 'b站评论_{}.csv'.format(now)
    # 转换aid
    aid = bv2av(bid=bid)
    # 爬取评论
    get_comment(v_aid=aid, v_bid=bid)

三、可视化代码

为了方便看效果，以下代码采用jupyter notebook进行演示。

3.1 读取数据

用read_csv读取刚才爬取的B站评论数据：
读取数据

查看前3行及数据形状：
前3行

3.2 数据清洗

处理空值及重复值：
数据清洗

3.3 可视化

3.3.1 IP属地分析-柱形图

柱形图

可得结论：TOP10地区中，评论里关注度最高为广东、山东、江苏等地区，其中，广东省的关注度最高。

3.3.2 评论时间分析-折线图

分析出评论时间的分布情况：
折线图

可得结论：关于"狂飙"这个话题，在抓取到的数据范围内，2月2日的评论数据量最大，网友讨论最热烈，达到了将近1200的数量峰值。

3.3.3 点赞数分布-直方图

由于点赞数大部分为0或个位数情况，个别点赞数到达成千上万，直方图展示效果不佳，因此，仅提取点赞数<30的数据绘制直方图。

可得结论：从直方图的分布来看，点赞数在0-3个的评论占据大多数，很少点赞数达到了上千上万的情况。证明网友对狂飙这部作品的态度分布比较均匀，没有出现态度非常聚集的评论内容。

3.3.4 评论内容-情感分布饼图

针对中文评论数据，采用snownlp开发情感判定函数：

情感分布饼图，如下：

可得结论：关于狂飙这部电视剧，网友的评论情感以正面居多，占据了70.43%，说明这部电视剧获得了网友们很高的评价。

3.3.5 评论内容-词云图

除了哈工大停用词之外，还新增了自定义停用词：

jieba分词之后，对分词后数据进行绘制词云图：

可得结论：在词云图中，阳、感染、发烧、症状、疼、嗓子等词汇较大，出现频率较高，反应出众多网友对确诊阳性后描述病症、积极探讨病情的现状。
附原始背景图，可对比看：（需要先人物抠图）

四、演示视频

代码演示视频：
https://www.zhihu.com/zvideo/1608856878666231808

五、附完整源码

完整源码：【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩"狂飙"的评论

我是 @马哥python说，持续分享python源码干货中！

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩”狂飙”的评论 - Python技术站

马哥python说

0 0 打赏

微信扫一扫

支付宝扫一扫

Python实现类别变量的独热编码（One-hot Encoding）

上一篇 2023年3月31日

什么是Python装饰器？

下一篇 2023年3月31日

Python开发

【Python数据分析案例】python数据分析老番茄B站数据（pandas常用基础数据分析代码）

目录一、爬取老番茄B站数据二、python数据分析 1、读取数据源 2、查看数据概况 3、查看异常值 4.1、查看最大值（max函数） 4.2、查看最小值（min函数） 5.1、查看TOP3的视频（nlargest函数） 5.2、查看倒数3的视频（nsmallest函数） 6、查看相关性 7.1、可视化分析-plot 7.2、可视化分析-pyechart…

2023年4月2日
000
Python开发

【拖拽可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理，简单粗暴！

目录一、设计方案二、项目背景三、电影爬虫 3.1 导入库 3.2 发送请求 3.3 解析页面 3.4 存储到csv 3.5 讲解视频四、数据持久化存储 4.1 导入库 4.2 存入MySQL 4.3 讲解视频五、开发可视化大屏 5.1 柱形图 5.2 饼图 5.3 词云图 5.4 数据表格 5.5 涟漪散点图 5.6 条形图 5.7 大标题 5.8…

2023年4月2日
000
【11个适合毕设的Python可视化大屏】用pyecharts开发拖拽式可视化数据大屏

你好，我是@马哥python说，一枚10年程序猿。一、效果演示以下是我近期用Python开发的原创可视化数据分析大屏，非常适合毕设用，下面逐一展示：（以下是截图，实际上有动态交互效果哦）以下大屏均为@马哥python说的个人原创，请勿转载。 1.1 影视剧分析大屏 1.2 豆瓣电影分析大屏A 1.3 豆瓣电影分析大屏B 1.4 58同城房源分析大屏 1…

python 2023年5月10日
000
Python开发

【爬虫+情感判定+Top10高频词+词云图】“刘畊宏“热门弹幕python舆情分析

目录一、背景介绍二、代码讲解-爬虫部分 2.1 分析弹幕接口 2.2 讲解爬虫代码三、代码讲解-情感分析部分 3.1 整体思路 3.2 情感分析打标 3.3 统计top10高频词 3.4 绘制词云图 3.5 情感分析结论四、同步演示视频五、附完整源码一、背景介绍最近一段时间，刘畊宏真是火出了天际，引起一股全民健身的热潮，毕竟锻炼身体，是个好事！…

2023年4月2日
000
Python开发

【2023最新B站评论爬虫】用python爬取上千条哔哩哔哩评论

目录一、爬取目标二、展示爬取结果三、爬虫代码四、同步视频五、附完整源码您好，我是@马哥python说，一枚10年程序猿。一、爬取目标之前，我分享过一些B站的爬虫：【Python爬虫案例】用Python爬取李子柒B站视频数据【Python爬虫案例】用python爬哔哩哔哩搜索结果【爬虫+情感判定+Top10高频词+词云图】”谷爱凌”热门弹幕py…

2023年4月2日
000
Python开发

【技术流吃瓜】python可视化大屏舆情分析“张天爱“事件微博评论

目录一、事件背景二、微热点分析二、自开发Python舆情分析 2.1 Python爬虫 2.2 可视化大屏 2.2.1 大标题 2.2.2 词云图 2.2.3 条形图 2.2.4 饼图（玫瑰图） 2.2.5 地图三、演示视频四、完整源码一、事件背景大家好，我是马哥python说，一枚10年程序猿。演员张天爱于2022.8.25号在网上爆出一段…

2023年4月2日
000
Python开发

【2023知乎爬虫】我用Python爬虫爬了2386条知乎评论！

目录一、爬取目标二、展示爬取结果三、爬虫代码讲解 3.1 分析知乎页面 3.2 爬虫代码四、同步视频五、完整源码您好，我是 @马哥python说，一枚10年程序猿。一、爬取目标前些天我分享过一篇微博的爬虫：https://www.cnblogs.com/mashukui/p/16414027.html但是知乎平台和微博平台的不同之处在于，微博…

2023年4月2日
000
【保姆级Python入门教程】马哥手把手带你安装Python、安装Pycharm、环境配置教程

您好，我是 @马哥python说，一枚10年程序猿。我的社群中小白越来越多，咨询讨论的问题很多集中在python安装上，故输出此文，希望对大家起步有帮助。下面开始，先安装Python，再安装pycharm，咱一步一步来。一、安装Python解释器 1、打开python官网下载地址：https://www.python.org/downloads/ 「…

Python开发 2023年4月2日
000