一、概述
元旦前夕,《bilibili晚会 二零一九最美夜》在B站上映,朋友圈刷到不少朋友对晚会的称赞,不禁我也想去围观一波,截止目前评分高达9.9分,6945万次播放,238.4万条弹幕。
瞄了一下,貌似时长有几个小时,也没得时间看,就利用闲暇时间,采集一下弹幕,做个分析,感受一波广大观众的情感热浪,顺便温习一下爬虫、数据分析等知识。
随便点到一段,感受了一波弹幕的洪流,开着弹幕简直无法看节目,关了弹幕又觉得少了点啥。。。
节目总共分为三个篇章:日落、月升、星繁。光这篇章的名字我都想刷波666。
每个篇章下有7-8个节目,共计22个节目



二、数据获取
本次分析主要针对节目的弹幕进行分析,因此需要爬取到所有弹幕,爬去弹幕时,发现弹幕信息页保存有用户性别,那就一波带走,可以附加一个性别分析。
所有弹幕、弹幕所属篇章和节目、发弹幕者性别、各个节目的弹幕数等
使用爬虫爬取了几千个网页,获取到每个篇章、每个节目的弹幕数、评论者姓名、弹幕内容,并保存到本地。
(ps:刚开始保存到了excel里面,想着方便看,没想到excel太不给力,单个单元格存储能力有限,2M的内容,硬生生自动给我去除到了300k)
三、数据清洗计算
好了,拿到了宝贵的数据后,就开始进行数据清洗。
1、将bilibili_data字段清理成三个字段:comment:评论内容、comment_num:评论数、sex:评论者性别
2、使用jieba对comment:评论内容进行分词
3、计算整体数据:用于展示整体弹幕词云、整体性别占比
4、计算出最受关注的节目数据:用于选出最受关注的节目、展示排行
5、计算最受关注节目数据:用于展示最受欢迎节目弹幕词云、最受欢迎节目弹幕性别占比
1、综合数据
2、整体数据:词云数据+性别数据


3、节目关注排行数据

4、最受关注节目数据:词云数据+性别数据


1、词云:
使用了wordcloud、matplotlib、PIL、numpy等库进行词云的生成
2、其他数据:
使用power bi进行可视化
四、数据分析报告
1、弹幕几十万条,到底讲的啥?词云了解一下。
看到:“啊啊啊 啊啊啊”,跟开头看到的弹幕截图相呼应,真的是整个节目从头到尾的啊啊啊,所以,到底为啥啊啊啊?是为了提前张嘴抢吴亦凡的“大碗宽面”吗?哈哈。
最显眼的四个大字:“真的”、“好听”,看来是真的好听啊。。。
另外,观察到左上角“第一”这个词还挺大,第一明明只有一个,你这么大岂不是很奇怪??
看了一下评论:果然很多个第一呀。。。。

同时,发现弹幕几十页是同一个时间,说明弹幕非常多,同一时间大量的弹幕。
喜讯:恭喜这位兄弟,你是真正的第一!!!

ps:第一个竟然是过了22秒才发出来,5G还是要抓紧时间普及呀。。。
2、晚会更受男生欢迎还是女生欢迎?
整体来看,男性评论者还是占大多数,节目中魔兽世界、还有各类小姐姐,各种cosplay,势必更受男性站友的欢迎。
一共22个节目,哪个节目更受大家的关注呢?
1、弹幕数排行数据概览
2、可视化排行
节目共有8141条弹幕,短短8分钟,相当于一秒钟17条弹幕,看了一下一条弹幕大概在屏幕上停留3s钟,那么,整个屏幕上全程51条弹幕保驾护航,开着弹幕还看个球啊,关了弹幕认真的看一遍,再打开弹幕听一遍吧。。。
(貌似不够,可能8000多条有很多的评论而非弹幕吧)
1、同样,词云了解一下最受关注的节目弹幕讲的啥。
同样的一堆“啊啊啊”,大碗宽面估计还没吃到。。。
这么大的“深深”和“周深”,满屏的“深深”,这估计来了不少女粉吧。。。
没想到你们不仅颜值控,还声控,哼!
用词云里面的词,祝大家:
2、这个节目不会真的女生偏多吧?
哦吼!果然。。。
这个节目女粉异常的多呀,竟然奔着男生的3倍去了。。。
ok,不说了,夜深了,清清嗓子到小区楼下练唱歌去了 ,拜了个拜!!!




