【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”热门弹幕python舆情分析

2023年4月2日下午5:39 • Python开发

一、背景介绍
二、代码讲解-爬虫部分
- 2.1 分析弹幕接口
- 2.2 讲解爬虫代码
三、代码讲解-情感分析部分
四、同步讲解视频
五、附完整源码

一、背景介绍

最近几天，谷爱凌在冬奥会赛场上夺得一枚宝贵的金牌，为中国队贡献了自己的荣誉！

针对此热门事件，我用Python的爬虫和情感分析技术，针对小破站的弹幕数据，分析了众网友弹幕的舆论导向，下面我们来看一下，是如何实现的分析过程。

二、代码讲解-爬虫部分

2.1 分析弹幕接口

首先分析B站弹幕接口。

经过分析，得到的弹幕地址有两种：

第一种：http://comment.bilibili.com/{cid}.xml
第二种：https://api.bilibili.com/x/v1/dm/list.so?oid={cid}
这两种返回的结果一致！但都不全，都是只有部分弹幕！
以视频 https://www.bilibili.com/video/BV1YY41157dk 为例，查看网页源代码，可以找到对应的cid为503862594，所以该视频对应的弹幕接口地址是：http://comment.bilibili.com/503862594.xml
【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”热门弹幕python舆情分析

既然这样，就好办了，开始撸代码！

2.2 讲解爬虫代码

首先，导入需要用到的库：

import re  # 正则表达式提取文本
import requests  # 爬虫发送请求
from bs4 import BeautifulSoup as BS  # 爬虫解析页面
import time
import pandas as pd  # 存入csv文件
import os

然后，向视频地址发送请求，解析出cid号：

r1 = requests.get(url=v_url, headers=headers)
html1 = r1.text
cid = re.findall('cid=(.*?)&aid=', html1)[0]  # 获取视频对应的cid号
print('该视频的cid是:', cid)

根据cid号，拼出xml接口地址，并再次发送请求：

danmu_url = 'http://comment.bilibili.com/{}.xml'.format(cid)  # 弹幕地址
print('弹幕地址是：', danmu_url)
r2 = requests.get(danmu_url)

解析xml页面：标签的文本内容为弹幕，标签内p属性值（按逗号分隔）的第四个字段是时间戳：

soup = BS(html2, 'xml')
danmu_list = soup.find_all('d')
print('共爬取到{}条弹幕'.format(len(danmu_list)))
video_url_list = []  # 视频地址
danmu_url_list = []  # 弹幕地址
time_list = []  # 弹幕时间
text_list = []  # 弹幕内容
for d in danmu_list:
	data_split = d['p'].split(',')  # 按逗号分隔
	temp_time = time.localtime(int(data_split[4]))  # 转换时间格式
	danmu_time = time.strftime("%Y-%m-%d %H:%M:%S", temp_time)
	video_url_list.append(v_url)
	danmu_url_list.append(danmu_url)
	time_list.append(danmu_time)
	text_list.append(d.text)
	print('{}:{}'.format(danmu_time, d.text))

保存时应注意，为了避免多次写入csv标题头，像这样：

这里，我写了一个处理逻辑，大家看注释，应该能明白：

if os.path.exists(v_result_file):  # 如果文件存在，不需写入字段标题
	header = None
else:  # 如果文件不存在，说明是第一次新建文件，需写入字段标题
	header = ['视频地址', '弹幕地址', '弹幕时间', '弹幕内容']
df.to_csv(v_result_file, encoding='utf_8_sig', mode='a+', index=False, header=header)  # 数据保存到csv文件

三、代码讲解-情感分析部分

3.1 整体思路

针对情感分析需求，我主要做了三个步骤的分析工作：

用SnowNLP给弹幕内容打标：积极、消极，并统计占比情况
用jieba.analyse分词，并统计top10高频词
用WordCloud绘制词云图

首先，导入csv数据，并做数据清洗工作，不再赘述。

下面，正式进入情感分析代码部分：

3.2 情感分析打标

情感分析计算得分值、分类打标，并统计积极/消极占比。

# 情感分析打标
def sentiment_analyse(v_cmt_list):
	"""
	情感分析打分
	:param v_cmt_list: 需要处理的评论列表
	:return:
	"""
	score_list = []  # 情感评分值
	tag_list = []  # 打标分类结果
	pos_count = 0  # 计数器-积极
	neg_count = 0  # 计数器-消极
	for comment in v_cmt_list:
		tag = ''
		sentiments_score = SnowNLP(comment).sentiments
		if sentiments_score < 0.3:
			tag = '消极'
			neg_count += 1
		else:
			tag = '积极'
			pos_count += 1
		score_list.append(sentiments_score)  # 得分值
		tag_list.append(tag)  # 判定结果
	print('积极评价占比：', round(pos_count / (pos_count + neg_count), 4))
	print('消极评价占比：', round(neg_count / (pos_count + neg_count), 4))
	df['情感得分'] = score_list
	df['分析结果'] = tag_list
	# 把情感分析结果保存到excel文件
	df.to_excel('谷爱凌_情感评分结果.xlsx', index=None)
	print('情感分析结果已生成：谷爱凌_情感评分结果.xlsx')

这里，我设定情感得分值小于0.3为消极，否则为积极。（这个分界线，没有统一标准，根据数据分布情况和分析经验自己设定分界线即可）
占比结果：
【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”热门弹幕python舆情分析

打标结果：（最后两列，分别是得分值和打标结果）

3.3 统计top10高频词

# 2、用jieba统计弹幕中的top10高频词
keywords_top10 = jieba.analyse.extract_tags(v_cmt_str, withWeight=True, topK=10)
print('top10关键词及权重：')
pprint(keywords_top10)

这里需要注意，在调用jieba.analyse.extract_tags函数时，要导入的是import jieba.analyse 而不是 import jieba
统计结果为：（分为10组关键词及其权重，权重按倒序排序）
【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”热门弹幕python舆情分析

3.4 绘制词云图

注意别踩坑：
想要通过原始图片的形状生成词云图，原始图片一定要白色背景（实在没有的话，PS修图修一个吧），否则生成的是满屏词云！！

def make_wordcloud(v_str, v_stopwords, v_outfile):
	"""
	绘制词云图
	:param v_str: 输入字符串
	:param v_stopwords: 停用词
	:param v_outfile: 输出文件
	:return: None
	"""
	print('开始生成词云图：{}'.format(v_outfile))
	try:
		stopwords = v_stopwords  # 停用词
		backgroud_Image = np.array(Image.open('谷爱凌背景图.png'))  # 读取背景图片
		wc = WordCloud(
			background_color="white",  # 背景颜色
			width=1500,  # 图宽
			height=1200,  # 图高
			max_words=1000,  # 最多字数
			font_path='/System/Library/Fonts/SimHei.ttf',  # 字体文件路径，根据实际情况(Mac)替换
			# font_path="C:WindowsFontssimhei.ttf",  # 字体文件路径，根据实际情况(Windows)替换
			stopwords=stopwords,  # 停用词
			mask=backgroud_Image,  # 背景图片
		)
		jieba_text = " ".join(jieba.lcut(v_str))  # jieba分词
		wc.generate_from_text(jieba_text)  # 生成词云图
		wc.to_file(v_outfile)  # 保存图片文件
		print('词云文件保存成功：{}'.format(v_outfile))
	except Exception as e:
		print('make_wordcloud except: {}'.format(str(e)))

得到的词云图：
【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”热门弹幕python舆情分析

和原始背景图对比：
【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”热门弹幕python舆情分析

3.5 情感分析结论

打标结果中，积极评价占0.8871，远远大于消极评价！
top10关键词统计结果中，"加油"、"厉害"、"天才"等好评词汇占据多数！
词云图中，"中国"、"好"、"厉害"、"卧槽"等好评词看上去更大（词频高）！

综上所述，经分析"谷爱凌"相关弹幕，得出结论：

众多网友对谷爱凌的评价都很高，也很喜欢她，毕竟不但年轻、颜值高、有才华，还能为祖国争得宝贵的荣誉！

致敬！！

四、同步讲解视频

上集：（爬虫采集）
https://www.zhihu.com/zvideo/1476299216318857217
下集：（情感分析）
https://www.zhihu.com/zvideo/1476300807759294464

五、附完整源码

附完整源码：点击这里完整源码

更多源码案例 -> 马哥python说

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：【爬虫+情感判定+Top10高频词+词云图】“谷爱凌”热门弹幕python舆情分析 - Python技术站

马哥python说

0 0 打赏

微信扫一扫

支付宝扫一扫

python_matplotlib基础教程

上一篇 2023年4月2日下午5:39

Python自定义排序及实际遇到的一些实例

下一篇 2023年4月2日下午5:39

Python开发

【GUI开发】用python爬YouTube博主信息，并开发成exe软件！

目录一、背景介绍二、代码讲解 2.1 爬虫 2.2 tkinter界面 2.3 存日志三、说明一、背景介绍你好，我是@马哥python说，一名10年程序猿。最近我用python开发了一个GUI桌面软件，目的是爬取相关YouTube博主的各种信息，字段包括：视频标题、视频链接、博主名称、博主链接、国家、telegram链接、whatsapp链接、…

2023年4月2日
000
Python开发

【2023微博签到爬虫】用python爬上千条m端微博签到数据

一、爬取目标大家好，我是 @马哥python说，一枚10年程序猿。今天分享一期python爬虫案例，爬取目标是新浪微博的微博签到数据，字段包含：页码,微博id,微博bid,微博作者,发布时间,微博内容,签到地点,转发数,评论数,点赞数经过分析调研，发现微博有3种访问方式，分别是： PC端网页：https://weibo.com/ 移动端：https:/…

2023年3月31日
000
Python开发

【可视化分析案例】用python分析B站Top100排行榜数据

目录一、数据源二、数据读取三、数据概览四、数据清洗五、可视化分析 5.1 相关性分析（Correlation） 5.2 饼图（Pie） 5.3 箱形图（Boxplot） 5.4 词云图（wordcloud）六、同步讲解视频七、附完整源码一、数据源之前，我分享过一期爬虫，用python爬取Top100排行榜：最终数据结果，是这样的：在此数…

2023年4月2日
000
Python开发

【拖拽可视化大屏】全流程讲解用python的pyecharts库实现拖拽可视化大屏的背后原理，简单粗暴！

目录一、设计方案二、项目背景三、电影爬虫 3.1 导入库 3.2 发送请求 3.3 解析页面 3.4 存储到csv 3.5 讲解视频四、数据持久化存储 4.1 导入库 4.2 存入MySQL 4.3 讲解视频五、开发可视化大屏 5.1 柱形图 5.2 饼图 5.3 词云图 5.4 数据表格 5.5 涟漪散点图 5.6 条形图 5.7 大标题 5.8…

2023年4月2日
000
【python爬虫案例】爬取微博任意搜索关键词的结果，以“唐山打人”为例

目录一、爬取目标二、展示爬取结果三、讲解代码四、同步视频 4.1 演示视频 4.2 讲解视频五、附：完整源码一、爬取目标大家好，我是马哥。今天分享一期python爬虫案例，爬取目标是新浪微博的微博数据，包含：页码, 微博id, 微博bid, 微博作者, 发布时间, 微博内容, 转发数, 评论数, 点赞数经过分析调研，发现微博有3种访问方式…

Python开发 2023年4月2日
000
【11个适合毕设的Python可视化大屏】用pyecharts开发拖拽式可视化数据大屏

你好，我是@马哥python说，一枚10年程序猿。一、效果演示以下是我近期用Python开发的原创可视化数据分析大屏，非常适合毕设用，下面逐一展示：（以下是截图，实际上有动态交互效果哦）以下大屏均为@马哥python说的个人原创，请勿转载。 1.1 影视剧分析大屏 1.2 豆瓣电影分析大屏A 1.3 豆瓣电影分析大屏B 1.4 58同城房源分析大屏 1…

python 2023年5月10日
000
【NLP教程】用python调用百度AI开放平台进行情感倾向分析

目录一、背景二、操作步骤 2.1 创建应用 2.2 获取token 2.3 情感倾向分析三、其他情感分析四、讲解视频一、背景 Hi，大家！我是 @马哥python说，一名10年程序猿。今天我来演示一下：通过百度AI开放平台，利用python调用百度接口进行中文情感倾向分析，并得出情感极性分为积极、消极还是中性以及置信度结果。二、操作步骤首先…

python 2023年4月25日
000
Python开发

【2023知乎爬虫】我用Python爬虫爬了2386条知乎评论！

目录一、爬取目标二、展示爬取结果三、爬虫代码讲解 3.1 分析知乎页面 3.2 爬虫代码四、同步视频五、完整源码您好，我是 @马哥python说，一枚10年程序猿。一、爬取目标前些天我分享过一篇微博的爬虫：https://www.cnblogs.com/mashukui/p/16414027.html但是知乎平台和微博平台的不同之处在于，微博…

2023年4月2日
000