Python爬虫b站视频弹幕并生成词云图分析

2023年4月11日上午4:08 • 爬虫

爬虫：requests，beautifulsoup

词云：wordcloud，jieba

代码加注释：

 1 # -*- coding: utf-8 -*-
 2 import xlrd#读取excel
 3 import xlwt#写入excel
 4 import requests
 5 import linecache
 6 import wordcloud
 7 import jieba
 8 import matplotlib.pyplot as plt
 9 from bs4 import BeautifulSoup
10  
11 if __name__=="__main__":
12     yun=""
13 
14     n=0#ID编号
15     target='https://api.bilibili.com/x/v1/dm/list.so?oid=132084205'#b站oid页
16     user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
17     headers = {'User-Agent':user_agent}#伪装浏览器
18 
19     req=requests.get(url=target)
20     html=req.text
21     html=html.encode('ISO 8859-1')
22     #html=html.replace('<br>',' ').replace('<br/>',' ').replace('/>','>')
23     bf=BeautifulSoup(html,"html.parser")   
24 
25     texts=bf.find('i')
26     texts_div=texts.find_all('d')
27     #print(texts_div)
28     for item in texts_div:
29         n=n+1
30         item_name=item.text#标题
31         yun+=str(item_name)
34 
35     yun=yun.replace(" ","")
36     yun=yun.replace("哈","")
37     yun=yun.replace("啊","")
38     yun=yun.replace("一","")#去除无意义弹幕
39     # 结巴分词，生成字符串，wordcloud无法直接生成正确的中文词云
40     cut_text = " ".join(jieba.cut(yun))
41     wc = wordcloud.WordCloud(
42     #设置字体，不然会出现口字乱码，文字的路径是电脑的字体一般路径，可以换成别的
43     font_path="C:/Windows/Fonts/simfang.ttf",
44     #设置了背景，宽高
45     background_color="white",width=1000,height=880).generate(cut_text)
46 
47     plt.imshow(wc, interpolation="bilinear")
48     plt.axis("off")
49     plt.show()
50     print("Done!")

运行结果图：

Python爬虫b站视频弹幕并生成词云图分析

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫b站视频弹幕并生成词云图分析 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

简单的爬虫

上一篇 2023年4月11日

爬虫入门urlib,urlib2的基本使用和进阶

下一篇 2023年4月11日

Python爬虫入门遇到的坑

1. 环境 – Python 　　mac os预装的python $ python -V Python 2.7.10 $ where python /usr/bin/python $ ls /System/Library/Frameworks/Python.framework/Versions 2.3 2.5 2.6 2.7 Current $ ls /…

爬虫 2023年4月11日
000
爬虫

爬虫的基本流程

爬虫的基本流程 1.发送请求使用http库向目标站点发起请求，即发送一个Request Request包含：请求头、请求体、路由等 2.获取响应内容如果服务器能正常响应，则会得到一个Response 包含：html页面，json,图片 3.解析内容解析html数据：正则表达式，第三方解析库如bs4 解析json数据：json模块解析二进制数据：以b的…

2023年4月11日
000
python3爬虫爬取网页思路及常见问题（原创）

学习爬虫有一段时间了，对遇到的一些问题进行一下总结。　　爬虫流程可大致分为：请求网页（request），获取响应（response），解析（parse），保存（save）。　　下面分别说下这几个过程中可以出现的问题：　　你可以这样理解，你在浏览器输入xxjpg.com，告诉这个网站，我想看你的内容，然后网站服务器收到这个请求后，会分…

爬虫 2023年4月10日
000
【Python】爬虫

目前主流而合法的网络数据收集方法，主要分为3类：开放数据集下载； API读取；爬虫。许多读者对爬虫的定义，有些混淆。咱们有必要辨析一下。维基百科是这么说的：网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。这问题就来了，你又不打算做搜索引擎，为什么对网络爬虫那么热…

爬虫 2023年4月13日
000
基于scrapy-redis分布式爬虫的部署【python网络爬虫】之requests相关模块

redis分布式部署 1.scrapy框架是否可以自己实现分布式？　　　　- 不可以。原因有二。　　　　　　其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）　　　　　　其二：多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出…

爬虫 2023年4月13日
000
Python爬虫中的并发编程详解

Python爬虫中的并发编程详解在Python爬虫中，为了提高爬虫效率，通常需要使用并发编程。本文将介绍Python爬虫中的并发编程，包括多线程、协程和异步IO等技术。同时，还会提供两个示例讲解。多线程多线程是指在一个进程中存在多个线程，每个线程都可以独立执行不同的任务。在Python中，可以使用threading模块实现多线程编程。下面是一个简单的…

python 2023年5月14日
001
爬虫笔记(十三)——lxml库的使用

HTML示例代码： text = ”’ <div> <ul> <li class=”item-0″><a href=”link1.html”>first item</a></li> <li class=”item-1″><a href=”link2.html”>…

爬虫 2023年4月11日
000
如何解析Ajax异步加载的数据？

网络爬虫在解析页面时，通常会使用BeautifulSoup、Scrapy等工具来进行解析，但这些工具通常只能解析HTML代码，无法解析使用Ajax异步加载的数据。因此，我们需要使用其他的方法来解析这些数据。一种常用的方法是使用Selenium模拟浏览器行为，让浏览器先加载完所有的Ajax异步请求后，再进行解析。具体步骤如下：安装Selenium库和浏览器…

爬虫 2023年4月20日
000

合作推广

合作推广

返回顶部