首页 > 其他分享 >电影分析

电影分析

时间:2023-11-24 10:23:06浏览次数:27  
标签:分析 5.2 票房 评分 电影 ____ 类型

数据清洗

1 导入数据

 

 

 

 

 

 

2 缺失值处理

缺失记录仅____3____条,采取网上搜索,补全信息。

2.1 补全 release_date

 

缺失记录的电影标题为《 America Is Still the Place》,日期为 2014-06-01。

2.2 补全 runtime

 

缺失记录的电影 runtime 分别为____94___min 和 ___240____min。

3 重复值处理

 

运行结果:有_____4803_____个不重复的 id,可以认为没有重复数据。3

4 日期值处理

将 release_date 列转换为日期类型:

 

5 筛选数据

使用数据分析师最喜欢的一个语法:

 

票房、预算、受欢迎程度、评分为____0___的数据应该去除;

评分人数过低的电影,评分不具有统计意义,筛选评分人数大于__50___的数据。

 

此时剩余____2961__条数据,包含____19__个字段。

6 json 数据转换

 

 

 

**说明:**genres,keywords,production_companies,production_countries,cast,crew 这 6 列都是

json 数据,需要处理为列表进行分析。

处理方法:

json 本身为字符串类型,先转换为字典列表,再将字典列表转换为,以’,'分割的字符串4

7 数据备份

 

 

5 数据分析

5.1 why

想要探索影响票房的因素,从电影市场趋势,观众喜好类型,电影导演,发行时间,评分与

关键词等维度着手,给从业者提供合适的建议。

5.2 what

5.2.1 电影类型:定义一个集合,获取所有的电影类型

 

 

 

注意到集合中存在多余的元素:空的单引号,所以需要去除。5

5.2.1.1 电影类型数量(绘制条形图)

 

5.2.1.2 电影类型占比(绘制饼图)

 

5.2.1.3 电影类型变化趋势(绘制折线图)6

 

5.2.1.4 不同电影类型预算/利润(绘制组合图)

 

 

 

 

5.2.2 电影关键词(keywords 关键词分析,绘制词云图)

 

5.3 when

 

 

查看 runtime 的类型,发现是 object 类型,也就是字符串,所以,先进行数据转化。7

5.3.1 电影时长(绘制电影时长直方图)

 

5.3.2 发行时间(绘制每月电影数量和单片平均票房)8

 

 

5.4 where

本数据集收集的是美国地区的电影数据,对于电影的制作公司以及制作国家,在本次的故事

背景下不作分析。

5.5 who

5.5.1 分析票房分布及票房 Top10 的导演

 

 

 

 

5.5.2 分析评分分布及评分 Top10 的导演

 

 

 

5.6 how

5.6.1 原创 VS 改编占比(饼图)9

 

 

5.6.2 原创 VS 改编预算/利润率(组合图)

 

 

 

5.7 how much

5.7.1 计算相关系数(票房相关系数矩阵)

 

5.7.2 票房影响因素散点图

 

 

6 对附件的 tmdb_1000_predicted.csv 的预测结果

 

.

预测支持人数:

 

 

 预测评分:

 

 

 

 

 

 

 

标签:分析,5.2,票房,评分,电影,____,类型
From: https://www.cnblogs.com/jy-all-bug/p/17853128.html

相关文章

  • 豆瓣电影top250爬取
     <aclass="answer-item_3Zrp6cos-text-body-lgcos-color-bg"href="https://m.baidu.com/sf?atn=index&lid=0&pd=topone_multi&top=%7B%22sfhs%22%3A1%7D&type=cpage&word=%E8%B1%86%E7%93%A3%E7%94%B5%E5%BD%B1top250&key=1v......
  • 【代码可视化实践】代码变更影响分析
    1.前言笔者前文“浅析代码可视化”中讲述了代码可视化的基本实现原理,并给出了一些业界的应用场景。由于涉及原理和技术范围较广,以笔者能力难以做到面面俱到,为了减少信息传递偏差,便给出了一些信息来源供读者深入阅读。不过针对文中提到应用场景中的一些小的功能点,可以拿出来详尽的......
  • R语言集成模型:提升树boosting、随机森林、约束最小二乘法加权平均模型融合分析时间序
    原文链接:http://tecdat.cn/?p=24148原文出处:拓端数据部落公众号 最近我们被要求撰写关于集成模型的研究报告,包括一些图形和统计输出。特别是在经济学/计量经济学中,建模者不相信他们的模型能反映现实。比如:收益率曲线并不遵循三因素的Nelson-Siegel模型,股票与其相关因素之间的......
  • 在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析|附代码数据
    原文链接:http://tecdat.cn/?p=9024原文出处:拓端数据部落公众号  最近我们被要求撰写关于GAM的研究报告,包括一些图形和统计输出。用GAM进行建模时间序列我已经准备了一个文件,其中包含四个用电时间序列来进行分析。数据操作将由data.table程序包完成。将提及的智能电表数据......
  • 简单的用Python采集股票数据,保存表格后分析历史数据
    前言字节跳动如果上市,那么钟老板将成为我国第一个世界首富趁着现在还没上市,咱们提前学习一下用Python分析股票历史数据,抱住粗大腿坐等起飞~好了话不多说,我们直接开始正文准备工作环境使用Python3.10解释器Pycharm编辑器模块使用requests—>数据......
  • R数据分析:集成学习方法之随机生存森林的原理和做法,实例解析
    很久很久以前给大家写过决策树,非常简单明了的算法。今天给大家写随机(生存)森林,随机森林是集成了很多个决策数的集成模型。像随机森林这样将很多个基本学习器集合起来形成一个更加强大的学习器的这么一种集成思想还是非常好的。所以今天来写写这类算法。 集成学习方法Ensembl......
  • 视频监控平台EasyCVR+智能分析网关+物联网,联合打造智能环卫监控系统
    一、背景介绍城市作为人们生活的载体,有着有无数楼宇和四通八达的街道,这些建筑的整洁与卫生的背后,是无数环卫工作人员的努力。环卫工人通过清理垃圾、打扫街道、清洗公共设施等工作,保持城市的整洁和卫生,防止垃圾和污染对城市环境和居民健康造成危害。二、现存问题当前城市环卫......
  • 羚通视频智能分析平台抽烟打电话识别系统 抽烟、打电话算法检测
    羚通视频智能分析平台抽烟打电话识别系统是一种先进的技术,旨在通过算法检测来识别和监控人们在特定场所是否抽烟或打电话。该系统利用先进的计算机视觉和深度学习算法,对视频流进行实时分析和处理,以准确识别出抽烟和打电话的行为。首先,该系统通过摄像头或其他视频设备......
  • 羚通视频智能分析平台抽烟打电话识别系统 抽烟、打电话算法检测
    羚通视频智能分析平台抽烟打电话识别系统是一种先进的技术,旨在通过算法检测来识别和监控人们在特定场所是否抽烟或打电话。该系统利用先进的计算机视觉和深度学习算法,对视频流进行实时分析和处理,以准确识别出抽烟和打电话的行为。首先,该系统通过摄像头或其他视频设备获取实时的视频......
  • iOS APP包分析工具
    介绍分享一款用于分析iOSipa包的脚本工具,使用此工具可以自动扫描发现可修复的包体积问题,同时可以生成包体积数据用于查看。这块工具我们团队内部已经使用很长一段时间,希望可以帮助到更多的开发同学更加效率的优化包体积问题。工具下载地址背景APPAnalyze工具最早诞生主要是为......