豆瓣电影数据分析 您所在的位置:网站首页 美国电影口碑变低了 豆瓣电影数据分析

豆瓣电影数据分析

2024-06-30 12:06| 来源: 网络整理| 查看: 265

概述之前(可以无视)

这篇报告是我转行数据分析后的第一篇报告,当时学完了Python,SQL,BI以为再做几个项目就能找工作了,事实上……分析思维、业务,这两者远比工具重要的多。一个多月后回过头来看,这篇报告虽然写得有模有样,但和数据分析报告还是有挺大差别的,主要原因在于:a.只是针对豆瓣电影数据分析太过宽泛了,具体关键指标到底是哪些呢?;b.没有一个确切有效的分析模型/框架,会有种东一块西一块的拼接感。 即便有着这些缺点,我还是想把它挂上来,主要是因为:1.当做Pandas与爬虫(Selenium+Request)练手,总得留下些证明;2.以豆瓣电影进行分析确实很难找到一条业务逻辑线支撑,总体上还是描述统计为主;3.比起网上能搜到的其他豆瓣电影数据分析,它更为详细,可视化效果也不错;

概述

本篇报告旨在针对豆瓣电影1990-2020的电影数据进行分析,首先通过编写Python网络爬虫爬取了51375条电影数据,采集对象包括:电影名称、年份、导演、演员、类型、出品国家、语言、时长、评分、评论数、不同评价占比、网址。经过去重、清洗,最后得到29033条有效电影数据。根据电影评分、时长、地区、类型进行分析,描述了评分与时长、类型的关系,并统计了各个地区电影数量与评分。之后,针对演员、导演对数据进行聚合,给出产量与评分最高的名单。在分析过程中,还发现电影数量今年逐步增加,但评分下降,主要原因是中国地区今年低质量影视作品的增加。

另外,本篇报告还爬取了电影票房网(http://58921.com/)1995-2020年度国内上映的影片票房,共采集4071条数据,其中3484条有效。进一步,本文分析了国内院线电影票房年度变化趋势,票房与评分、评价人数、时长、地区的关系,票房与电影类型的关联,并给出了票房最高的导演、演员与电影排名。

基本框架 1.电影数据的评分、时长分析

1.1 电影数据总体描述 1.2 时长分布 1.3 评分分布 1.4 评分与时长、评论人数的关系

2.电影数据的地区分析

2.1 全球电影数量分布 2.2 各地区电影评分分布 2.3 各地区对整体均分的影响

3.电影数据的类型分析

3.1 不同类型电影的特点 3.2 电影类型对整体均分的影响 3.3 中美两国各类型电影的均分变化

4.演员与导演分析

4.1 作品数量 4.2 导演与演员排名

5.电影票房分析

5.1 票房随着年度变化趋势 5.2 票房与评分、评价人数、时长、地区的关系 5.3 不同类型电影的票房差异 5.4 导演、演员票房表现 5.5 影片票房排名

6.总结 1. 电影数据的评分、时长分析 1.1 电影数据总体描述

清洗、去重后,可以看到29033条数据长度、评分、评论数具有以下特点:

a.平均电影时长为102.62分钟,最长的时间为826分钟,最短时间为60分钟; b.最低评分为2分,最高评分为9.8分,平均分为6.50分; c.最多的评分数量为2091401条,最少的评分数量为100条,平均每部电影评分人数为1765371条; 表格 1 电影数据总体描述 1.2 时长分布

结合图1(a)(b)看,可以看到电影数据时长主要集中在90-120分钟之间,向两极呈现阶梯状递减,将数据按照短(60-90分钟),中(90-120分钟),长(120-150分钟),特长(>150分钟)划分,各部分占比为21.06%, 64.15%, 11.95%, 2.85%。

图 1 时长分布图:(a)时长分布柱状图,(b)各类时长占比 1.3 评分分布

结合图2(a)看,可以看到我们采集到的电影数据评分主要集中在6.0-8.0之间,向两极呈现阶梯状递减,在此按照评分划分区间:2.0-4.0为口碑极差,4.0-6.0为口碑较差,6.0-7.0为口碑尚可,7.0-8.0为口碑较好,8.0-10.0为口碑极佳。

这5种电影数据的占比分别为:5.78%, 23.09%, 30.56%, 29.22%, 11.34%

图 2 评分分布图: (a)评分分布柱状图,(b)各类评分占比

再将评分数据细化到每年进行观察,可以发现,30年内电影数量与年度电影均分呈反相关,年度均分整体呈现下降趋势,2016年电影均分最低,电影数量最多。

进一步做出每个年份下不同评级等级的电影数据占比,可以发现,近年来,评分在[2.0,6.0)的电影数据占比有着明显提升,评分在[6.0,7.0)的数据占比不变,评分在[7.0,10.0)的数据占比减少,可能原因有:

1.幸存者偏差,1990-2000年的劣质作品少有人关注,数据保存困难,豆瓣数据库仅采集到了相对而言较为优质的作品。 2.近年来有较多的低质量影视作品,拉低了均分。 图 3评分与电影数量随年份的变化趋势 图 4评分占比随年份的变化趋势 1.4 评分与时长、评论人数的关系 图 5 评分与时长、评论人数的关系: (a)评分—人数,(b)评分—时长

对照图5,可以发现,评分与时长、评论人数的分布大致呈现漏斗状,高分电影位于漏斗上部,低分电影位于漏斗下部。这意味着,如果一部电影的评论人数很多(特别是超过30w人观影),时长较长(大于120min),那么它大概率是一部好电影。

2.电影数据的地区分析 2.1 全球电影数量分布 图 6 各个地区电影数量分布 表格 2 电影数量前十的国家

根据各个国家的电影数量作图,可以得到图6,列出电影数量前十的国家可得表格2,发现美国在电影数量上占第一,达到8490部,中国其次,达6222部。此外,法国,英国,日本的电影数量也超过1000,其余各国电影数量相对较少。这可以说明美国电影有着较大的流量输入,在中国产生了较大的影响。

2.2 各地区电影评分分布 图 7 各国电影评分箱线图

进一步分析各国电影的质量,依据评分绘制评分箱线图可得图7,在电影数量排名前20的国家中:

a.欧洲国家,英国、法国、意大利、俄罗斯、丹麦、爱尔兰、瑞典,评分普遍偏高,均分超过了7分,箱体位置较高且下限较低,说明豆瓣收录的欧洲电影口碑较好。 b.相比之下,亚洲国家表现较差,中国、韩国、泰国的电影数据得分普遍较低。其中,中国电影箱体较长,位置较低,有着最高的上下限。表现最好的日本、印度电影,均分勉强达到7分。 c.非洲国家没有出现在图7中,是由于豆瓣电影数据中非洲国家电影数量较少,往往只有1部电影,最多的南非也只贡献了34条数据。 d.美洲国家中,美国的电影产量位列第一,评分有着较高的上限,但整体评价处于中游。 2.3 各地区对整体均分的影响

接着我们可以探索,哪个国家的电影对豆瓣评分随年份下降的贡献最大,考虑到电影数量对应着评分的权重。根据上述各国的电影评分表现,我们可以猜测电影数量较多的国家可能对年度均分的下降有较大影响。于是,我们再计算出这些国家的年度电影均分,并与整体均分进行比较分析。

按照地区对数据进行分组,计算各地区电影均分年度变化与整体均分年度变化的相关系数可得表格3,看到评分的时间序列与中国电影评分的时间序列有着最强的相关性,R值达到0.970,美国电影也与均分下降有着强关联,R值达到0.967。由于其他国家电影数目不及中国、美国,且相关性也较弱,在此我们推断是由中美两国的豆瓣电影数据引起了评分下降。 两国之中,美国电影数量要多于中国电影数量,数量决定对总分的权重贡献,中国电影相比美国电影权重更低。但观察图8可知,在相应的年份数据下,中国电影均分要比美国电影均分低得多,中国电影均分的变化趋势与全球电影变化趋势更接近,因此可以认为均分的下降主要由中国电影均分下降造成。 表格 3 各地区电影均分年度变化的相关系数 图 8 全局与局部地区均分对比关系

再作出中国大陆,中国台湾,中国香港的均分箱线图图9(a),可以看到,大陆电影均分低于港台电影,且存在大量低分电影拉低了箱体的位置。

分析相关性可得,大陆、香港、台湾电影年度均分与全部评分关联度分别为R=0.979,0.919,0.822,说明滤去台湾和香港电影,大陆电影年度均分的变化趋势与全部评分变化更接近。图9(b)可以进一步反映这一点。

图 9 中国各地区与全部地区年度均分对比 : (a)中国各地区电影评分箱线图,(b) 全局与局部地区均分对比 3.电影数据的类型分析 3.1 不同类型电影的特点 图 10 各类型电影评分、评论人数、电影数目分布

可以看到,大部分类型集中在X×Y=[10000,30000]×[6.00,7.50]的区间范围内,剧情、喜剧、爱情、犯罪、动作类电影数量上较多,说明这些题材的电影是近三十年比较热门的题材,其中剧情类电影占比最多,音乐、传记类电影平均得分更高,但在数量上较少,动作、惊悚类电影评论人数虽多,但评价普遍偏低。

除此之外,还有两块区域值得关注:

一是绘图区域左下角,恐怖片、情色片观影人数少,评分低,可能是因为题材限制,影片质量无法保证。惊悚片也比较接近这一区域,可能说明惊悚、恐怖真的不太符合绝大多数人的口味。 二是每部电影平均评论人数>40000的区域,这类电影虽然每部平均评论人数较多,但评价不高,电影数量也较少,以灾难片最为极端,推测原因可能是投入成本较高,造成拍片成本较高。另一方面,由于题材关注重点原因,平均得分不高。 3.2 电影类型对整体均分的影响

根据类型对电影数据进行聚合,整理得到各类型电影评分的时间序列,计算它们与整体均分时间序列的相关性,可得表格4与图11,可以看到剧情,喜剧,悬疑这三种类型片与总分趋势变化相关性最强,同时剧情、喜剧类电影在电影数量上也最多,因此可以认为这两类电影对于下跌趋势影响最大,但其余类别电影的相关性也达到了0.9以上,说明几种热门的电影得分的变化趋势与总体均分趋势一致。

表格 4 各类型电影时间序列相关性 图 11部分类型电影均分与全部均分关系 3.3 中美两国各类型电影的均分变化

前面已经得知,中美两国电影占比最高,且对于均分时间序列的影响最大。在此,进一步对两国电影进行类型分析,选取几种主要的类型(数量上较多,且相关性较高)进行分析,分别是剧情,喜剧,爱情,惊悚,动作,悬疑类电影,绘制近年来几类电影的数量变化柱状图与评分箱线图可得图12,13,14,15。

分析图12,13,可以发现,随着年份变化,美国各类型电影在评分上整体水平保持稳定。在数量上,各类型电影变化趋势接近,在2008年以前逐年增加,2008年达到高峰回落后,在14-18年间再度出现高峰。 分析图14,15可以发现,国产各类型电影在90年代至20世纪初数量较少,近年来数量有着明显增长,但在口碑评分上较低,这也导致了豆瓣收录的国产电影,以及世界电影均分下滑。 图 12 美国几种主要类型电影的箱线图 图 13 美国几种主要类型电影数量变化图 图 14 中国几种主要类型电影的箱线图 图15 中国几种主要类型电影数量变化图 4. 演员与导演分析 4.1 作品数量

对导演与演员进行聚合,得到数据中共有15011名导演,46223名演员。按照作品数量在(0,2], (2,5], (5,10], (10,20], (20,999]进行分组统计导演数量,可以发现,15009名导演中有79.08%只拍过1-2部作品,46220名演员中有75.93%只主演过1-2部作品。忽略那些客串、跑龙套的演员,数据总体符合二八定律,即20%的人占据了行业内的大量资源。

图16 导演、演员的作品数量分布 4.2 导演与演员排名

在此,可以通过电影得分、每部电影评论人数以及电影数目寻找优秀的电影导演与演员。这三项指标分别衡量了导演/演员的创作水平,人气以及产能。考虑到电影数据集中可能有少量影视剧/剧场版动画,且影视剧/剧场版动画受众少于电影,但得分普遍要高于电影,这里根据先根据每部电影评论数量、作品数量来筛选导演/演员,再根据电影得分进行排名,并取前30名进行作图,可得图17,18。

图17中,左下角数据较为密集,右上角较为稀疏,这是因为处于图表右上角的导演作品不仅口碑极其优秀,而且电影受众广泛。 图18给出的演员排名存在一定偏差,主要原因在于没有考虑到演员在作品中是否是主演、以及数据中可能混有一些电视剧等非电影类数据。比如数据6所表示的演员,参演作品以电视剧为主,在其他电影中仅仅饰演配角,但却排到了第6位。 图 17 导演电影均分与评论人数分布图 图 18演员电影均分与评论人数分布图 5. 电影票房分析

结合电影票房网(http://58921.com/)采集到的3353条票房数据,与豆瓣数据按照电影名称进行匹配,可以得到1995-2020年在中国大陆上映的电影信息,分别分析中国内地电影的数量、票房变化趋势,票房与评分、评价人数、时长、地区以及类型的关系,此外还给出了不同导演与演员的票房表现以及影片票房排名。

5.1 票房随着年度变化趋势

如图19所示,国内票房数据与上映的电影数量逐年递增,2020年记录的只是上半年的数据,且由于受疫情影响,票房与数量骤减。这说明在不发生重大事件的情况下,国内电影市场规模正在不断扩大。

图 19 1995-2020年国内上映的电影数量与票房数据 5.2 票房与评分、评价人数、时长、地区的关系 分析图20(a),可以看到,对于评分而言,评分较高、较低的电影都不一定有好的票房,大部分高票房电影集中在5-8分的区间内; 分析图20(b)反映了,对于评价人数而言,评价人数多的电影,票房未必高,说明网友中有很大一部分是白嫖党; 分析图20(c)可知,对于时长而言,过长或过短的电影一般都不能取得好的票房,一般90-130分钟内影片票房表现较好,推测原因是适中的时长才能保证观众对电影质量满意,同时能够保证排片量,创造更多营收; 分析图20(d),可知,对于地区而言,可以看到,本土电影票房占据近6成,除此之外,美国电影也占据相当大的比例,达36%。其他国家电影的票房收入则要少得多,只有2.32%,说明本土电影与美国电影占据着较大的市场份额。 (a)票房与评分关系,(b) 票房与评价人数关系 图20 票房与评分、评论人数、时长、地区关系: (c)票房与时长关系,(d) 票房与地区关系 5.3 不同类型电影的票房差异

对电影数据根据类型进行聚合,绘制散点图21,可以发现:

a.动作、冒险、喜剧、剧情、奇幻、科幻、爱情类电影在票房总量上排在前列,因为这几类题材更为通俗,符合绝大多数观众的审美。 b.传记、音乐、歌舞类电影虽有着较好的口碑,但吸金能力不比商业类影片。 c.灾难、战争、古装类电影数量虽少,但对票房总量的贡献不低,可能原因是成片成本较高,投入产出比相对低,因此拍摄数量比热门影片少。 d.恐怖、西部、运动、同性、情色类电影受题材影响比较冷门,电影数量与整体票房贡献都比较少。儿童类电影票房较少,但这一类别可能是动画类电影的子类,并不具有代表性。 图 21 不同类型电影的数量、评价得分与票房表现 5.4 导演、演员票房表现

提取导演/演员姓名,对导演/演员字段进行聚合,计算每个导演/演员的票房总和,上映电影均分、以及执导/参与电影数目进行计算,作出票房总和前30名的导演/演员,可得图22,23,图中导演/演员标号反映了票房排名,具体每位导演/演员的上映影片数量、均分、每部电影评价人数、平均时长与总票房在表5、表6中给出。

图22中有部分数据重合,如数据点1与2重合,23与24重合,是导演合作指导造成的,6与27重合则是导演指导作品数量与平均得分相近的结果。可以看到,数据较为分散,但存在一种趋势,执导电影数量多的导演均分往往偏低,说明影片产量与口碑难以达到均衡,电影数量在五部以内的导演往往比十部以上的导演均分要高。 同样也可以发现,图23中大部分演员位于图形主对角线上,出演作品数量较多时,作品的平均质量下滑。也有部分演员位于图形左下角,说明他们的作品虽然有限、评价不高,但口味迎合大众,取得了不错的票房。 图 22 执导电影总票房前30的导演分布情况 图 23参与电影总票房前30的演员分布情况 表格 5 执导电影总票房排名前30的导演 表格 6参演电影总票房排名前30的演员 5.5 影片票房排名

最后根据电影票房进行排名,得到票房排名前20的电影如表格7所示,可以看到绝大部分上榜电影都是中国电影,索引序号为3、10、12、14、18、19为美国电影,这也反映了除国产电影之外,好莱坞大片占据较大的市场。

表格 7 内地电影票房Top 20排名 6. 总结

本篇报告采集了1990-2020年间豆瓣电影29033组有效数据,从豆瓣电影的评分、时长、地区、类型、演员、导演以及票房等信息进行分析评价,主要有以下结论:

豆瓣电影影片时长主要集中在90-120分钟,评分主要集中在6-8分,评分高的电影往往时间更长、评论人数更多。 数量上,美国电影最多,达8490部,中国其次,达6222部,其他国家相对少很多,非洲电影最少。分数上,欧洲电影均分偏高,亚洲电影相对较低,中国低分电影尤其多,可能原因有:豆瓣电影对外国电影数据收录不全;网友评分的地域性偏好;中国电影近年质量偏低。 豆瓣影片年度均分呈现下降趋势,主要由于中国大陆地区近年来低分电影增多,特别是热门题材中的低分电影,对整体造成了一定负面评价。 类别上,剧情、喜剧、爱情、犯罪、动作类较为热门,特别是剧情、喜剧、悬疑这三种类型片对于整体均分的影响较大。 针对导演演员的统计,揭示出少部分导演与演员拍摄了大部分作品,符合二八定律,此外还根据作品评分、数量以及评价人数列举了部分较为优秀的导演/演员。 针对电影票房,发现电影票房逐年增加;大部分高票房电影集中在5-8分的区间内,时长在90-130分钟间;动作、冒险、喜剧、剧情、奇幻、科幻、爱情类电影在票房总量上排在前列,因为这几类题材更为通俗,符合绝大多数观众的审美;国产与美国影片占据97%的市场份额。 此外,还列举了票房排名前30的导演与演员,发现高票房导演与演员作品数量多的,评价往往较低。另外,列举了票房排名前20的电影,发现国产电影与好莱坞大片占据内地电影市场的较大份额。


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有