暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据分享|数据视角可视化分析豆瓣电影评分爬虫数据

拓端数据部落 2023-03-23
299

原文链接:http://tecdat.cn/?p=26988


豆瓣已经成为国内影迷和影评人的聚集地。豆瓣评分已经成为评价中国电影的重要指标。豆瓣积累了大量的电影数据,为电影行业分析提供了重要资源点击文末“阅读原文”获取完整代码数据



豆瓣电影被用来衡量国内外电影的发展。本文对豆瓣电影评分爬虫数据查看文末了解数据获取方式进行可视化分析。

中国与其他国家数量和评分对比

汇总年电影总产量。一直在快速推进的电影产业在2017年出现转折,电影产量开始下滑。与现在相比,相差1500部左右。这种趋势一直持续。 


中国大陆的评分低于整体评分,然后我们选择电影数量排名前三的国家与中国大陆进行比较。日本电影的质量非常好,评分一直保持在平均水平以上。中国大陆、美国和日本的电影评分差距很大。美国电影评分更高。

总体而言,近年来电影产量有所下降,但评分有所上升。怀疑两者之间存在联系。

电影类型和烂片分析

再来看看拍摄偏好和烂片率。现在烂片越来越多。现在让我们从数据的角度来看。

按烂片率降序排列,不良片定义为:评分低于3.35分(5.9-1.5*(7.6-5.9))。每种类型的电影数量需要大于200。


众所周知,日本有丰富的情色和动画电影,战争片的烂片率最低,其次是悬疑片。中国恐怖惊悚片的烂片率非常高,不建议观看。而且,国产电影包揽了豆瓣烂片前五名:女娲日记拿下豆瓣烂片之王,得分倒数第,接着是怨灵宿舍之白纸女生、女导演连环杀人案、灵异实录


点击标题查阅往期内容


数据分享|关联规则Apriori挖掘豆瓣读书评论爬虫采集数据与可视化


左右滑动查看更多


01

02

03

04



电影数量分析

统计每个国家的电影数量,选出前4名的观察值:

豆瓣采用打星的方式,所以最低分是一星,也就是两分。

影片数量超过500部,综合评分和数量后,前4名的国家或地区:


在豆瓣,收录在电影里。虽然美国、中国大陆、日本都有大量的电影。但平均评分低于法国、英国、德国和意大利。其中,德国的电影评分均值最高,英国的电影数量最多,这意味着相对而言,德国电影的质量最高。英国部分数据非常低,比如:《围攻唐宁街》,豆瓣评分2.4分,但还是没有国产神剧2.0分低。豆瓣包括电影500+的国家或地区,大部分为发达国家,或中国、印度等人口大国,说明电影数量可能与一个国家或地区的发展水平有一定的关系。

本文章中的所有信息(包括但不限于分析、预测、建议、数据、图表等内容)仅供参考,__拓端数据(__tecdat__)__不因文章的全部或部分内容产生的或因本文章而引致的任何损失承担任何责任。


数据获取


在下面公众号后台回复“电影数”,可获取完整数据。





点击文末“阅读原文”

获取全文完整资料


本文选自《数据视角可视化分析豆瓣电影评分爬虫数据》。


点击标题查阅往期内容

PYTHON条件生存森林模型CONDITIONAL SURVIVAL FOREST分类预测客户流失交叉验证可视化|数据分享
杭州出租车行驶轨迹数据空间时间可视化分析
【视频】主成分分析PCA降维方法和R语言分析葡萄酒可视化实例|数据分享
R语言对布丰投针(蒲丰投针)实验进行模拟和动态可视化生成GIF动画
圆堆图circle packing算法可视化分析电商平台网红零食销量爬虫采集数据
R语言在BRFSS数据中可视化分析探索糖尿病的影响因素
数据可视化分析案例:探索BRFSS电话调查数据
R语言随机森林RandomForest、逻辑回归Logisitc预测心脏病数据和可视化分析
R语言计算资本资产定价模型(CAPM)中的Beta值和可视化
R语言主成分分析(PCA)葡萄酒可视化:主成分得分散点图和载荷图
R语言时变向量自回归(TV-VAR)模型分析时间序列和可视化
R语言样条曲线、决策树、Adaboost、梯度提升(GBM)算法进行回归、分类和动态可视化
R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
R语言对布丰投针(蒲丰投针)实验进行模拟和动态可视化生成GIF动画
R语言信用风险回归模型中交互作用的分析及可视化
R语言生存分析可视化分析
R语言线性回归和时间序列分析北京房价影响因素可视化案例
R语言用温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图可视化
R语言动态可视化:绘制历史全球平均温度的累积动态折线图动画gif视频图
R语言动态图可视化:如何、创建具有精美动画的图
R语言中生存分析模型的时间依赖性ROC曲线可视化
python主题建模可视化LDA和T-SNE交互式可视化
R语言时间序列数据指数平滑法分析交互式动态可视化
用R语言制作交互式图表和地图
如何用r语言制作交互可视化报告图表
【数据分享】数据驱动营销活动:最优子集筛选有价值的客户信息
数据感知游客的森林公园游憩需求
数据盘点高校新生录取情况
调查数据倾听大学生外卖需求
数据挖掘:香水电商销售策略分析
新零售消费者特征的数据视野
数据聚焦护士职业满意度
数据分析促进白血病预测诊断
移动广告中基于点击率的数据策略
bilibili视频流量数据潜望镜
数据观察“双十一”网购新常态
数据解锁职场女性潜力
数据视域下图书馆话题情感分析
数据类岗位需求的数据面
数据度量消费贷款—消费者的考虑因素
数据探析期刊文章研究热点
疫情下的新闻数据观察
已迁离北京外来人口的数据画像



文章转载自拓端数据部落,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论