百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

真香,Python爬取B站弹幕原来如此简单,源码已附在文末

haoteby 2025-09-14 18:44 8 浏览

B站的弹幕区一直是人才圣地。今天我就用 python 来手把手教大家爬取B站排行榜热门视频,Python爬取视频也可以如此简单。

网站分析

在B站中,只要视频中有弹幕,就会有一个 cid 参数。cid 用来表示某个视频对应的弹幕池。每个弹幕都有一个对应的 XML 文件,我们可以通过解析 XML 文件获取到 B 站视频的弹幕。

所以,只要知道了 cid 参数值,就可以找到视频弹幕数据的位置了。

那我们在观看视频的时候该如何拿到这个 XML 文件呢?

B 站的弹幕是在 XML 文件里,每个视频都有其对应的 cid 和 aid,我们取到 cid 中的数字放入
http://comment.bilibili.com/cid.xml,即可得到该视频对应的弹幕 XML 文件。

首先我们打开视频播放地址,F12打开浏览器开发者模式,如下图找到视频对应的cid就可以构造出弹幕链接

http://comment.bilibili.com/451236101.xml

到此可为止,有了弹幕文件,后面将通过爬虫方式解析弹幕,并进行弹幕内容分析。

请求发送

我们使用request模拟浏览器发送请求获取弹幕数据

url = f'http://comment.bilibili.com/{
   cid}.xml'

headers = {
 
      'referer': 'https://www.bilibili.com/video/BV19h411s7oq?spm_id_from=333.934.0.0',
      'User-Agent': 'https://www.bilibili.com/video/BV19h411s7oq?spm_id_from=333.934.0.0',
      'cookie': "_uuid=19DF1EDB-20B7-FF74-A700-9DF415B2429530977infoc; buvid3=AAD6C6C7-FB31-40E7-92EC-7A6A7ED3920C148814infoc; sid=jzp2723t; fingerprint=2e74a5bc11a3adec2616987dde475370; buvid_fp=AAD6C6C7-FB31-40E7-92EC-7A6A7ED3920C148814infoc; buvid_fp_plain=AAD6C6C7-FB31-40E7-92EC-7A6A7ED3920C148814infoc; DedeUserID=434541726; DedeUserID__ckMd5=448fda6ab5098e5e; SESSDATA=1fe46ad7%2C1651971297%2Ceb583*b1; bili_jct=5bcd45718996ac402a29c7f23110984d; blackside_state=1; rpdid=|(u)YJlJmmu|0J'uYJYRummJm; bp_t_offset_434541726=590903773845625600; bp_video_offset_434541726=590903773845625600; CURRENT_BLACKGAP=0; LIVE_BUVID=AUTO5716377130871212; video_page_version=v_old_home; PVID=1; CURRENT_FNVAL=976; i-wanna-go-back=1; b_ut=6; b_lsid=4F7CFC82_17D78864851; bsource=search_baidu; innersign=1"
     }

  resp = requests.get(url, headers = headers)
  print(resp.text)

成功获取到了数据但是全部都是乱码,这里我们不用设置字符的编码格式,

只需要让request获取到的编码格式和网页的编码格式相等即可

一行代码即可搞定

# 调用.encoding属性获取requests模块的编码方式
    # 调用.apparent_encoding属性获取网页编码方式
    # 将网页编码方式赋值给response.encoding
    resp.encoding = resp.apparent_encoding

成功获取到弹幕数据

信息提取

数据已经给成功的获取到,接下来我们要提取出所有的弹幕信息,

我们从获取到网站的响应信息后可以看出,所有的弹幕文字信息其实都是在

****标签之内的

<d

p="221.05300,1,25,16777215,1638378040,0,a60c99c7,58346355162459136,10">太木呐了 二仙桥大爷</d>

所以我们选择使用正则提取。

# 获取所有评论内容
content_list = re.findall('<d p=".*?">(.*?)</d>', resp.text)

数据保存

我们使用函数将所有的弹幕数据存储在’B站弹幕.csv’文件中

if os.path.exists(comment_file_path):
    os.remove(comment_file_path)
for item in content_list:

    with open(comment_file_path, 'a', encoding = 'utf-8')as fin:
        fin.write(item + '\n')
        print(item)
print('-------------弹幕获取完毕!-------------')

数据处理

接下来就是对数据去重和去空处理了,然后随机抽取五条数据展示如下:

# 读取数据
rcv_data = pd.read_csv('./B站弹幕.csv', encoding='gbk')

# 抽样展示5条数据
print(rcv_data.sample(5))

          精彩弹幕 
538       一脸开心        
162         好活        
661  买两箱,,买买买买        
17    笑死我了 哈哈哈        
424       不忘初心

词频展示

文章评论出现频率最高的前十个词分别如下:

# 词频设置
all_words = [word for word in result.split(' ') if len(word) > 1 and word not in stop_words]
wordcount = Counter(all_words).most_common(10)
    
'''
('哈哈哈', '大爷', '制作', '离谱', '一起', '猝不及防', '二仙', 'sir', '卧槽', '一定')
(207, 69, 27, 13, 13, 13, 12, 12, 12, 9)
'''

词云展示

我们使用结巴分词

最后使用stylecloud绘制漂亮的词云图展示

# 词云展示
def visual_ciyun():
    pic = './img.jpg'
    gen_stylecloud(text=result,
                   icon_name='fas fa-archway',
                   font_path='msyh.ttc',
                   background_color='white',
                   output_name=pic,
                   custom_stopwords=stop_words
                   )
print('词云图绘制成功!')

源码奉上

# -*- coding: utf-8 -*-
# Date: 2021/12/2 10:00
# Author: 不卖萌的邓肯
# wechat: 印象python

import requests
import re, os
import jieba
from wordcloud import WordCloud
from imageio import imread

comment_file_path = 'B站弹幕.csv'

def spider_page(cid):
    url = f'http://comment.bilibili.com/{
   cid}.xml'

    headers = {
 
        'referer': 'xxxxx',
        'User-Agent': 'xxxxx',
        'cookie': "xxxxx"
     }

    resp = requests.get(url, headers = headers)
    # 调用.encoding属性获取requests模块的编码方式
    # 调用.apparent_encoding属性获取网页编码方式
    # 将网页编码方式赋值给response.encoding
    resp.encoding = resp.apparent_encoding

    print(resp.text)

    if resp.status_code == 200:
        # 获取所有评论内容
        content_list = re.findall('<d p=".*?">(.*?)</d>', resp.text)

        if os.path.exists(comment_file_path):
            os.remove(comment_file_path)
        for item in content_list:

            with open(comment_file_path, 'a', encoding = 'utf-8')as fin:
                fin.write(item + '\n')
                print(item)
        print('-------------弹幕获取完毕!-------------')

def data_visual():
    with open(comment_file_path, encoding='utf-8')as file:
        comment_text = file.read()
        wordlist = jieba.lcut_for_search(comment_text)
        new_wordlist = ' '.join(wordlist)
        mask = imread('img_1.png')
        wordcloud = WordCloud(font_path='msyh.ttc', mask=mask).generate(new_wordlist)
        wordcloud.to_file('picture_1.png')

if __name__ == '__main__':
    cid = '451236101'
    print('正在解析,开始爬取弹幕中。。。。。')
    spider_page(cid)
    #data_visual()

今天分享就到此结束啦!有问题,评论区见~~

相关推荐

能跑源码,还提供数据集:这里有一个入门企业级验证码识别项目

机器之心专栏作者:kerlomz网上关于验证码识别的开源项目众多,但大多是学术型文章或者仅仅是一个测试demo,那么企业级的验证码识别究竟是怎样的呢?1.前言网上关于验证么识别的开源项目众多,但大...

kdj源码_kdj源码公式描述

N:=9;M1:=3;M2:=3;...

QT实现抖动文字和滚动文字,附源码

前言不知道大家有没有发现今天的文章有什么不一样,哈哈,我自己胡拼乱凑弄了一个logo,好不好看就先不说了,最起码萌萌哒...当然这不是今天的重点,在做logo的时候,我原本想让文字动起来的,奈何技术有...

我试图通过这篇文章告诉你,这行源码有多牛逼。

你好呀,我是歪歪。这次给你盘一个特别有意思的源码,正如我标题说的那样:看懂这行源码之后,我不禁鼓起掌来,直呼祖师爷牛逼。...

想了解Python源代码加密吗?现总结如下5大加密混淆手段!

我们在进行...

Android系统基础(03) Android系统源码下载

常规官方网站说明:Android源码官方网站为(google你懂的):https://source.android.com官网参考链接,对应的tag(tag是一种标签,我们可以根据tag来判断下载的...

真香,Python爬取B站弹幕原来如此简单,源码已附在文末

B站的弹幕区一直是人才圣地。今天我就用python来手把手教大家爬取B站排行榜热门视频,Python爬取视频也可以如此简单。...

最详细的 maven 教程,可以收藏_maven步骤

链接|cnblogs.com/hzg110/p/6936101.html正文目前所有的项目都在使用maven,可是一直没有时间去整理学习,这两天正好有时间,好好的整理一下。...

Python黑科技-VIP视频破解源码分享

《利用Python制作自己的VIP视频解析软件》想看的电视剧更新了还要充VIP?喜欢的电影你是VIP还得付费?学了Python哪要这些花里胡哨的,打开我自己的VIP付费视频解析软件,想怎么看就怎么看!...

抖音无水印解析网站源码_抖音无水印解析平台

链接:https://share.weiyun.com/59Ah44S密码:hv4dm7上传到主机解压不用安装,直接打开域名就可以了原文地址:https://www.xigsc.com/post/...

「电脑知识」USBOS 3.0 v2022.1.24 超级PE启动维护工具标准增强版

前几天一直在发PE类工具就是为了制作U盘PE启动重装系统教程的,今天小编继续分享有一篇关于pe的之前小编发布过一款微PE工具箱,今天发布另外一个无任何流氓行为功能超级强大虽然体积大了一点,但是这个...

模版网站建设制作的八步流程_模板的网站

  模版网站比较简单,一般我们按照如下流程就可以制作出来。  一、网站定位:  在建站之前,一定要了解你要建的网站是什么。你必须考虑你网站的标题(关键词)、网站描述以及你想要建立的网站。  二、选择域...

求职季必备,这几个免费的个人简历模板网站,你可千万不要错过!

晃晃悠悠又到了春招的季节,相信一定有很多小伙伴趁着这个金三银四求职季,四处投递简历。这时候一个亮眼优秀的简历,可以很好的祝你吸引HR的注意。今天就把我珍藏很久的5个免费简历模板网站分享给大家,简历模板...

简约时尚作品博客商店网站HTML5模板源码

Meduza是简约时尚和现代的博客HTML模板,带商店电商元素的博客页面。考虑所有的作品集网站需求页可以设计一个旅游网站。原生响应设计HTML5和CSS3(台式机、平板电脑、手机…)简单,干净的和专业...

13 款免费样机网站合集,UI设计、产品设计、VI设计全都有!

俗话说得好,人靠衣装,在作完设计后不少设计师都会为自己的作品套一个「样机」好让设计看过去更加高端大气上档次!今天,我就总结了无论是UI设计、包装设计、服装设计、品牌设计、logo设计,都能用到...