真香,Python爬取B站弹幕原来如此简单,源码已附在文末
haoteby 2025-09-14 18:44 8 浏览
B站的弹幕区一直是人才圣地。今天我就用 python 来手把手教大家爬取B站排行榜热门视频,Python爬取视频也可以如此简单。
网站分析
在B站中,只要视频中有弹幕,就会有一个 cid 参数。cid 用来表示某个视频对应的弹幕池。每个弹幕都有一个对应的 XML 文件,我们可以通过解析 XML 文件获取到 B 站视频的弹幕。
所以,只要知道了 cid 参数值,就可以找到视频弹幕数据的位置了。
那我们在观看视频的时候该如何拿到这个 XML 文件呢?
B 站的弹幕是在 XML 文件里,每个视频都有其对应的 cid 和 aid,我们取到 cid 中的数字放入
http://comment.bilibili.com/cid.xml,即可得到该视频对应的弹幕 XML 文件。
首先我们打开视频播放地址,F12打开浏览器开发者模式,如下图找到视频对应的cid就可以构造出弹幕链接
http://comment.bilibili.com/451236101.xml
到此可为止,有了弹幕文件,后面将通过爬虫方式解析弹幕,并进行弹幕内容分析。
请求发送
我们使用request模拟浏览器发送请求获取弹幕数据
url = f'http://comment.bilibili.com/{
cid}.xml'
headers = {
'referer': 'https://www.bilibili.com/video/BV19h411s7oq?spm_id_from=333.934.0.0',
'User-Agent': 'https://www.bilibili.com/video/BV19h411s7oq?spm_id_from=333.934.0.0',
'cookie': "_uuid=19DF1EDB-20B7-FF74-A700-9DF415B2429530977infoc; buvid3=AAD6C6C7-FB31-40E7-92EC-7A6A7ED3920C148814infoc; sid=jzp2723t; fingerprint=2e74a5bc11a3adec2616987dde475370; buvid_fp=AAD6C6C7-FB31-40E7-92EC-7A6A7ED3920C148814infoc; buvid_fp_plain=AAD6C6C7-FB31-40E7-92EC-7A6A7ED3920C148814infoc; DedeUserID=434541726; DedeUserID__ckMd5=448fda6ab5098e5e; SESSDATA=1fe46ad7%2C1651971297%2Ceb583*b1; bili_jct=5bcd45718996ac402a29c7f23110984d; blackside_state=1; rpdid=|(u)YJlJmmu|0J'uYJYRummJm; bp_t_offset_434541726=590903773845625600; bp_video_offset_434541726=590903773845625600; CURRENT_BLACKGAP=0; LIVE_BUVID=AUTO5716377130871212; video_page_version=v_old_home; PVID=1; CURRENT_FNVAL=976; i-wanna-go-back=1; b_ut=6; b_lsid=4F7CFC82_17D78864851; bsource=search_baidu; innersign=1"
}
resp = requests.get(url, headers = headers)
print(resp.text)
成功获取到了数据但是全部都是乱码,这里我们不用设置字符的编码格式,
只需要让request获取到的编码格式和网页的编码格式相等即可
一行代码即可搞定
# 调用.encoding属性获取requests模块的编码方式
# 调用.apparent_encoding属性获取网页编码方式
# 将网页编码方式赋值给response.encoding
resp.encoding = resp.apparent_encoding
成功获取到弹幕数据
信息提取
数据已经给成功的获取到,接下来我们要提取出所有的弹幕信息,
我们从获取到网站的响应信息后可以看出,所有的弹幕文字信息其实都是在
****标签之内的
<d
p="221.05300,1,25,16777215,1638378040,0,a60c99c7,58346355162459136,10">太木呐了 二仙桥大爷</d>
所以我们选择使用正则提取。
# 获取所有评论内容
content_list = re.findall('<d p=".*?">(.*?)</d>', resp.text)
数据保存
我们使用函数将所有的弹幕数据存储在’B站弹幕.csv’文件中
if os.path.exists(comment_file_path):
os.remove(comment_file_path)
for item in content_list:
with open(comment_file_path, 'a', encoding = 'utf-8')as fin:
fin.write(item + '\n')
print(item)
print('-------------弹幕获取完毕!-------------')
数据处理
接下来就是对数据去重和去空处理了,然后随机抽取五条数据展示如下:
# 读取数据
rcv_data = pd.read_csv('./B站弹幕.csv', encoding='gbk')
# 抽样展示5条数据
print(rcv_data.sample(5))
精彩弹幕
538 一脸开心
162 好活
661 买两箱,,买买买买
17 笑死我了 哈哈哈
424 不忘初心
词频展示
文章评论出现频率最高的前十个词分别如下:
# 词频设置
all_words = [word for word in result.split(' ') if len(word) > 1 and word not in stop_words]
wordcount = Counter(all_words).most_common(10)
'''
('哈哈哈', '大爷', '制作', '离谱', '一起', '猝不及防', '二仙', 'sir', '卧槽', '一定')
(207, 69, 27, 13, 13, 13, 12, 12, 12, 9)
'''
词云展示
我们使用结巴分词
最后使用stylecloud绘制漂亮的词云图展示
# 词云展示
def visual_ciyun():
pic = './img.jpg'
gen_stylecloud(text=result,
icon_name='fas fa-archway',
font_path='msyh.ttc',
background_color='white',
output_name=pic,
custom_stopwords=stop_words
)
print('词云图绘制成功!')
源码奉上
# -*- coding: utf-8 -*-
# Date: 2021/12/2 10:00
# Author: 不卖萌的邓肯
# wechat: 印象python
import requests
import re, os
import jieba
from wordcloud import WordCloud
from imageio import imread
comment_file_path = 'B站弹幕.csv'
def spider_page(cid):
url = f'http://comment.bilibili.com/{
cid}.xml'
headers = {
'referer': 'xxxxx',
'User-Agent': 'xxxxx',
'cookie': "xxxxx"
}
resp = requests.get(url, headers = headers)
# 调用.encoding属性获取requests模块的编码方式
# 调用.apparent_encoding属性获取网页编码方式
# 将网页编码方式赋值给response.encoding
resp.encoding = resp.apparent_encoding
print(resp.text)
if resp.status_code == 200:
# 获取所有评论内容
content_list = re.findall('<d p=".*?">(.*?)</d>', resp.text)
if os.path.exists(comment_file_path):
os.remove(comment_file_path)
for item in content_list:
with open(comment_file_path, 'a', encoding = 'utf-8')as fin:
fin.write(item + '\n')
print(item)
print('-------------弹幕获取完毕!-------------')
def data_visual():
with open(comment_file_path, encoding='utf-8')as file:
comment_text = file.read()
wordlist = jieba.lcut_for_search(comment_text)
new_wordlist = ' '.join(wordlist)
mask = imread('img_1.png')
wordcloud = WordCloud(font_path='msyh.ttc', mask=mask).generate(new_wordlist)
wordcloud.to_file('picture_1.png')
if __name__ == '__main__':
cid = '451236101'
print('正在解析,开始爬取弹幕中。。。。。')
spider_page(cid)
#data_visual()
今天分享就到此结束啦!有问题,评论区见~~
相关推荐
- 能跑源码,还提供数据集:这里有一个入门企业级验证码识别项目
-
机器之心专栏作者:kerlomz网上关于验证码识别的开源项目众多,但大多是学术型文章或者仅仅是一个测试demo,那么企业级的验证码识别究竟是怎样的呢?1.前言网上关于验证么识别的开源项目众多,但大...
- kdj源码_kdj源码公式描述
-
N:=9;M1:=3;M2:=3;...
- QT实现抖动文字和滚动文字,附源码
-
前言不知道大家有没有发现今天的文章有什么不一样,哈哈,我自己胡拼乱凑弄了一个logo,好不好看就先不说了,最起码萌萌哒...当然这不是今天的重点,在做logo的时候,我原本想让文字动起来的,奈何技术有...
- 我试图通过这篇文章告诉你,这行源码有多牛逼。
-
你好呀,我是歪歪。这次给你盘一个特别有意思的源码,正如我标题说的那样:看懂这行源码之后,我不禁鼓起掌来,直呼祖师爷牛逼。...
- 想了解Python源代码加密吗?现总结如下5大加密混淆手段!
-
我们在进行...
- Android系统基础(03) Android系统源码下载
-
常规官方网站说明:Android源码官方网站为(google你懂的):https://source.android.com官网参考链接,对应的tag(tag是一种标签,我们可以根据tag来判断下载的...
- 真香,Python爬取B站弹幕原来如此简单,源码已附在文末
-
B站的弹幕区一直是人才圣地。今天我就用python来手把手教大家爬取B站排行榜热门视频,Python爬取视频也可以如此简单。...
- 最详细的 maven 教程,可以收藏_maven步骤
-
链接|cnblogs.com/hzg110/p/6936101.html正文目前所有的项目都在使用maven,可是一直没有时间去整理学习,这两天正好有时间,好好的整理一下。...
- Python黑科技-VIP视频破解源码分享
-
《利用Python制作自己的VIP视频解析软件》想看的电视剧更新了还要充VIP?喜欢的电影你是VIP还得付费?学了Python哪要这些花里胡哨的,打开我自己的VIP付费视频解析软件,想怎么看就怎么看!...
- 抖音无水印解析网站源码_抖音无水印解析平台
-
链接:https://share.weiyun.com/59Ah44S密码:hv4dm7上传到主机解压不用安装,直接打开域名就可以了原文地址:https://www.xigsc.com/post/...
- 「电脑知识」USBOS 3.0 v2022.1.24 超级PE启动维护工具标准增强版
-
前几天一直在发PE类工具就是为了制作U盘PE启动重装系统教程的,今天小编继续分享有一篇关于pe的之前小编发布过一款微PE工具箱,今天发布另外一个无任何流氓行为功能超级强大虽然体积大了一点,但是这个...
- 模版网站建设制作的八步流程_模板的网站
-
模版网站比较简单,一般我们按照如下流程就可以制作出来。 一、网站定位: 在建站之前,一定要了解你要建的网站是什么。你必须考虑你网站的标题(关键词)、网站描述以及你想要建立的网站。 二、选择域...
- 求职季必备,这几个免费的个人简历模板网站,你可千万不要错过!
-
晃晃悠悠又到了春招的季节,相信一定有很多小伙伴趁着这个金三银四求职季,四处投递简历。这时候一个亮眼优秀的简历,可以很好的祝你吸引HR的注意。今天就把我珍藏很久的5个免费简历模板网站分享给大家,简历模板...
- 简约时尚作品博客商店网站HTML5模板源码
-
Meduza是简约时尚和现代的博客HTML模板,带商店电商元素的博客页面。考虑所有的作品集网站需求页可以设计一个旅游网站。原生响应设计HTML5和CSS3(台式机、平板电脑、手机…)简单,干净的和专业...
- 13 款免费样机网站合集,UI设计、产品设计、VI设计全都有!
-
俗话说得好,人靠衣装,在作完设计后不少设计师都会为自己的作品套一个「样机」好让设计看过去更加高端大气上档次!今天,我就总结了无论是UI设计、包装设计、服装设计、品牌设计、logo设计,都能用到...