Python爬虫下载Bilibili番剧弹幕

2023年4月10日下午8:51 • 爬虫

本文绍如何利用python爬虫下载bilibili番剧弹幕。

准备：

python3环境
需要安装BeautifulSoup,selenium包
phantomjs

原理:

通过aid下载bilibili番剧弹幕
通过aid获取cid，如: http://www.bilibili.com/widget/getPageList?aid=9654289
下载弹幕地址：http://comment.bilibili.com/cid.xml

代码：

# -*- coding: utf-8 -*-

import requests
import json
import urllib.request
import zlib
import os
import re
from bs4 import BeautifulSoup
from urllib.parse import quote
from selenium import webdriver
headers = { 'Accept':'*/*',
    'Accept-Encoding':'gzip, deflate, sdch, br',
    'Accept-Language':'zh-CN,zh;q=0.8',
    'Access-Control-Request-Headers':'content-encoding, content-type, x-za-batch-size, x-za-log-version, x-za-platform, x-za-product',
    'Access-Control-Request-Method':'POST',
    'Cache-Control':'no-cache',
    'Connection':'keep-alive',
    'Host':'bilibili-web-analytics.bilibili.com',
    'Origin':'https://www.bilibili.com',
    'Pragma':'no-cache',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
}
for key, value in enumerate(headers):
    webdriver.DesiredCapabilities.PHANTOMJS['phantomjs.page.customHeaders.{}'.format(key)] = value
driver = webdriver.PhantomJS(executable_path='./phantomjs-2.1.1-windows/bin/phantomjs.exe')

def geAidByKeyword(Keyword):
    print('正在搜索，请等待......')
    search_url="http://search.bilibili.com/bangumi?keyword="+Keyword
    search_url=quote(search_url,safe='/:?=')
    search_html = urllib.request.urlopen(search_url)
    search_bsObj = BeautifulSoup(search_html,'html.parser')
    search_linkList = search_bsObj.findAll("a",{"class":"title"})
    count=len(search_linkList)
    print('已找到%s个' %count)
    i=0
    for item in search_linkList:
        print('%s:%s' % (i,search_linkList[i]['title']))
        i=i+1
    # 选择
    select=input('请选择你要下载的编号：')
    select=int(select)
    # print(select)
    search_link=search_linkList[select]['href']
    if search_link=='':
        print('输入无效字符')
        return False
    # 进入
    # print(search_link)
    search_link="http:"+search_link
    select_link_html = urllib.request.urlopen(search_link)
    select_link_bsObj = BeautifulSoup(select_link_html,'html.parser')
    select_link_list=select_link_bsObj.findAll("li",{"data-newest-ep-id":re.compile("[0-9]+")})
    data_season_id=select_link_list[0]['data-season-id']
    data_newest_ep_id=select_link_list[0]['data-newest-ep-id']
    new_aid_url="http://bangumi.bilibili.com/anime/%s/play#%s" % (data_season_id,data_newest_ep_id)
    getNewAid(new_aid_url)
    # print(data_season_id)


def getNewAid(url):
    driver.get(url)
    html = driver.page_source
    bsObj = BeautifulSoup(html,'html.parser')
    aid_list=bsObj.findAll("a",{"class":"v-av-link"})
    aid=aid_list[0].get_text()
    aid=aid[2:]
    checkAndDown(aid)

def checkAndDown(aid):
    title=getAnimeName(aid)
    check=input('你要下载的是%s,是否要下载(1：是；0：否)：' %title)
    print(check)
    if int(check)==1:
        getPageList(aid)
    else:
        return False


def getAnimeName(aid):
    # print(aid)
    html = urllib.request.urlopen("http://www.bilibili.com/video/av%s" %aid)
    bsObj = BeautifulSoup(html,'html.parser')
    try:
       title=bsObj.find("title").get_text()
    except Exception as e:
        print('获取失败,aid=%s' %aid)
        return False

    return title

def getPageList(aid):
    url="http://www.bilibili.com/widget/getPageList"
    params = {
        'aid':aid
    }
    re = requests.get(url,params)
    cidDic=json.loads(re.text)
    animeName=getAnimeName(aid)
    for cidItem in cidDic:
        cidItem['animeName']=animeName
        downloadDanmu(cidItem)

def downloadDanmu(cidItem):
    cid=cidItem['cid']
    animeName=cidItem['animeName']
    pagename=cidItem['pagename']
    comment_url="http://comment.bilibili.com/%s.xml" %cid
    comment_page_zip=urllib.request.urlopen(comment_url).read()
    comment=zlib.decompressobj(-zlib.MAX_WBITS).decompress(comment_page_zip)
    if os.path.exists('%s' % animeName)==False:
        os.makedirs('%s' % animeName)
    fout=open('%s/%s.xml' % (animeName,pagename),'wb')
    fout.write(comment)
    fout.close()
    print('%s %s下载完成' % (animeName,pagename))

def main():
    # aid=input('请输入aid：')
    # getPageList(aid)
    keyword=input('请输入番剧的关键字：')
    geAidByKeyword(keyword)

if __name__ == '__main__':
    main()

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫下载Bilibili番剧弹幕 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

基础的爬虫框架及运行流程

上一篇 2023年4月10日

Python 爬虫使用动态切换ip防止封杀

下一篇 2023年4月10日

python爬虫实践——滑动登陆验证

1 from selenium import webdriver 2 from selenium.webdriver import ActionChains 3 import time 4 5 driver=webdriver.Chrome() 6 driver.implicitly_wait(10) 7 driver.get(‘http://www.run…

爬虫 2023年4月11日
000
python编程实现12306的一个小爬虫实例

Python编程实现12306的一个小爬虫实例爬虫实例介绍本爬虫实例主要是用Python编写的，通过模拟用户登录和查询车票的方式来获取查询结果。在本实例中，我们将使用requests库和正则表达式来进行实现，最终可以输出符合条件的车票信息。实现步骤步骤一：模拟登录首先，我们需要模拟用户登录。通过F12或其他抓包工具，可以查看12306网站登录时提交…

python 2023年5月14日
000
爬虫，request，response 属性，方法，2.beautifulsoup解析模块

# print(resp.text)# print(resp.content)# print(resp.status_code)# print(resp.url)# print(resp.cookies) # 获取返回的cookies信息# print(resp.cookies.get_dict()) # 获取返回的cookies信息# # print(ty…

爬虫 2023年4月10日
000
Python爬虫练习汇总

Python爬虫练习汇总攻略 Python爬虫是一种抓取网络数据的技术，也是现在比较热门的技术之一。学习Python爬虫，需要具备一定的编程基础和网络基础。下面是Python爬虫练习汇总攻略：了解爬虫基础在学习Python爬虫之前，需要先了解一些基础的概念或知识：爬虫是什么？指的是通过网络来抓取网页数据的程序，可以获取各种网络数据，如HTML、XML、…

python 2023年5月14日
000
python中绕过反爬虫的方法总结

Python中绕过反爬虫的方法总结什么是反爬虫？反爬虫（Anti-Crawling，又称防爬虫、反抓取）是指爬虫在爬取网站时，遭到网站方面的限制或者阻挠的情况。反爬虫是对抗爬虫的重要手段，目的是为了保护网站的数据安全和网站的稳定性。反爬虫的方法在爬虫程序的编写过程中，我们需要考虑到避免被反爬虫。以下是一些绕过反爬虫的方法： 1. 伪装浏览器请求头有…

python 2023年5月14日
000
爬虫入门（三）——动态网页爬取：爬取pexel上的图片

Pexel上有大量精美的图片，没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的壁纸，然而自己当时不会上周好不容易搞出来了，周末现在认真地总结一下上周所学的内容也希望自己写的东西可以帮到爬虫入门滴朋友！ Before 同样的，我们在…

爬虫 2023年4月11日
000
Python爬虫爬虫必备—BeautifulSoup

1. python3中只要记住：urllib , requests 两个库 GET一个URL >>> import urllib.request >>> with urllib.request.urlopen(‘http://www.python.org/’) as f: … print(f.read(300))…

爬虫 2023年4月13日
000
python_爬虫_爬取7*24小时财经新闻

import requests import timefrom bs4 import BeautifulSoup def sina(): is_first = True task_q = [] # 本地存储新闻 task_time = [] while True: data_list = getNews() if is_first: task_q = dat…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部