首页 > 其他分享 >11.24每日总结

11.24每日总结

时间:2023-11-24 23:33:05浏览次数:32  
标签:总结 5.2 tmdb 票房 每日 电影 11.24 5000 数据

代码:1000

时长7h

今日学习了大数据的测试知识,做了一上午,终于完成

1 MathorCup 高校数学建模挑战赛——大数据竞赛 练习题:观影大数据分析 王 S 聪想要在海外开拓万 D 电影的市场,这次他在考虑:怎么拍商业电影才 能赚钱?毕竟一些制作成本超过 1 亿美元的大型电影也会失败。这个问题对电影 业来说比以往任何时候都更加重要。 所以,他就请来了你(数据分析师)来帮 他解决问题,给出一些建议,根据数据分析一下商业电影的成功是否存在统一公 式?以帮助他更好地进行决策。 解决的终极问题是:电影票房的影响因素有哪些? 接下来我们就分不同的维度分析: • 观众喜欢什么电影类型?有什么主题关键词? • 电影风格随时间是如何变化的? • 电影预算高低是否影响票房? • 高票房或者高评分的导演有哪些? • 电影的发行时间最好选在啥时候? • 拍原创电影好还是改编电影好? 本次使用的数据来自于 Kaggle 平台(TMDb 5000 Movie Database)。收录了 美国地区 1916-2017 年近 5000 部电影的数据,包含预算、导演、票房、电影评 分等信息。原始数据集包含 2 个文件: • tmdb_5000_movies:电影基本信息,包含 20 个变量 • tmdb_5000_credits:演职员信息,包含 4 个变量 请使用 Python 编程,完成下列问题: (1)使用附件中的 tmdb_5000_movies.csv 和 tmdb_5000_credits.csv 数据集,进 行数据清洗、数据挖掘、数据分析和数据可视化等,研究电影票房的影响因素有 哪些?从不同的维度分析电影,讨论并分析你的结果。 (2)附件 tmdb_1000_predict.csv 中包含 1000 部电影的基本信息,请你选择 合适的指标,进行特征提取,建立机器学习的预测模型,预测 1000 部电影的 vote_average 和 vote_count,并保存为 tmdb_1000_predicted.csv。2 数据清洗 1 导入数据 2 缺失值处理 缺失记录仅________条,采取网上搜索,补全信息。 2.1 补全 release_date 缺失记录的电影标题为《__________________________》,日期为___________________。 2.2 补全 runtime 缺失记录的电影 runtime 分别为_______min 和 _______min。 3 重复值处理 运行结果:有__________个不重复的 id,可以认为没有重复数据。3 4 日期值处理 将 release_date 列转换为日期类型: 5 筛选数据 使用数据分析师最喜欢的一个语法: 票房、预算、受欢迎程度、评分为_______的数据应该去除; 评分人数过低的电影,评分不具有统计意义,筛选评分人数大于_____的数据。 此时剩余______条数据,包含______个字段。 6 json 数据转换 **说明:**genres,keywords,production_companies,production_countries,cast,crew 这 6 列都是 json 数据,需要处理为列表进行分析。 处理方法: json 本身为字符串类型,先转换为字典列表,再将字典列表转换为,以’,'分割的字符串4 7 数据备份 5 数据分析 5.1 why 想要探索影响票房的因素,从电影市场趋势,观众喜好类型,电影导演,发行时间,评分与 关键词等维度着手,给从业者提供合适的建议。 5.2 what 5.2.1 电影类型:定义一个集合,获取所有的电影类型 注意到集合中存在多余的元素:空的单引号,所以需要去除。5 5.2.1.1 电影类型数量(绘制条形图) 5.2.1.2 电影类型占比(绘制饼图) 5.2.1.3 电影类型变化趋势(绘制折线图)6 5.2.1.4 不同电影类型预算/利润(绘制组合图) 5.2.2 电影关键词(keywords 关键词分析,绘制词云图) 5.3 when 查看 runtime 的类型,发现是 object 类型,也就是字符串,所以,先进行数据转化。7 5.3.1 电影时长(绘制电影时长直方图) 5.3.2 发行时间(绘制每月电影数量和单片平均票房)8 5.4 where 本数据集收集的是美国地区的电影数据,对于电影的制作公司以及制作国家,在本次的故事 背景下不作分析。 5.5 who 5.5.1 分析票房分布及票房 Top10 的导演 5.5.2 分析评分分布及评分 Top10 的导演 5.6 how 5.6.1 原创 VS 改编占比(饼图)9 5.6.2 原创 VS 改编预算/利润率(组合图) 5.7 how much 5.7.1 计算相关系数(票房相关系数矩阵) 5.7.2 票房影响因素散点图 6 对附件的 tmdb_1000_predicted.csv 的预测结果

 

用python写的,代码网上有,但是得分析好

https://www.cnblogs.com/Lizhichengweidashen/p/15683041.html

标签:总结,5.2,tmdb,票房,每日,电影,11.24,5000,数据
From: https://www.cnblogs.com/zhaoshengfu/p/17855029.html

相关文章

  • 11.24每日总结
    今天完成建民老师布置的大数据测试 1MathorCup高校数学建模挑战赛——大数据竞赛练习题:观影大数据分析王S聪想要在海外开拓万D电影的市场,这次他在考虑:怎么拍商业电影才能赚钱?毕竟一些制作成本超过1亿美元的大型电影也会失败。这个问题对电影业来说比以往任何时候都......
  • 2023.11.24 日记 夜浓浓
    轻闲的一天。夜浓浓地笼罩在窗外,远远地依稀见到明暗的城市灯火。白日久违地听孙佳讲课,内容是没细听了,只是边学着英语的《语法通霸》边挂着一只耳朵听讲(纪中的英语老师笑着对我们仨说,挂着一只耳朵听课。她没有解释下去,我约摸是边做自己的事边听课,偶尔会被课堂吸引。不知这样是否是......
  • 11.24日记
    前面有提到MapReduce框架采用非循环式的数据流模型,把中间结果写入到HDFS中,带来了大量的数据复制、磁盘IO和序列化开销。且这些框架只能支持一些特定的计算模式(map/reduce),并没有提供一种通用的数据抽象。因此出现了RDD这个概念。RDD(ResilientDistributedDataset)叫做弹性......
  • NOIP2023总结
    Before晚上的fan给予了二连击jio冷爆了,ice-creamassassin终究活成了fanassassin的模样珊姐早餐的混沌的麻油很香,像出前一丁,但是xc的生煎包也很好吃,吃了一袋感觉可能会寄,csp-s的T3用掉了挺多rp的Duration忘记怎么配置vscode了,所以就跟上次noip模拟考一样开......
  • 2023.11.24——每日总结
    学习所花时间(包括上课):9h代码量(行):0行博客量(篇):1篇今天,上午学习,下午学习;我了解到的知识点:1.JavaGUI2.会话跟踪技术明日计划:学习......
  • stm32学习随笔23.11.24
    探索TIM2两个PWM输出视频:B站BV1vb4y1T72LMain.C主函数部分节选#include"stm32f10x.h"                 //Deviceheader#include"Delay.h"#include"OLED.h"#include"TestLED.h"#include"PWM.h"#include"KEY.h"#incl......
  • 2023-2024-1 20231320 《计算机基础与程序设计》第九周学习总结
    2023-2024-120231320《计算机基础与程序设计》第九周学习总结作业信息这个作业属于哪个课程<班级的链接>(2023-2024-1计算机基础与程序设计)这个作业要求在哪里<作业要求的链接>(2022-2023-1计算机基础与程序设计第九周作业)这个作业的目标<自学《计算机基础与......
  • 11.24每日总结
    今天完成了大数据的测试,这一次没有用hadoop用的是python直接对数据的导入、清洗、分析和可视化展示的操作,下面是所有的代码。 importtorchimporttorch.nnasnnimporttorch.optimasoptimfromtorch.utils.dataimportDataLoader,TensorDatasetfromsklearn.mod......
  • 11.24打卡
    1.相同的树(100)给你两棵二叉树的根节点 p 和 q ,编写一个函数来检验这两棵树是否相同。/***Definitionforabinarytreenode.*publicclassTreeNode{*intval;*TreeNodeleft;*TreeNoderight;*TreeNode(){}*TreeNode(intv......
  • 每日总结20231124
    代码时间(包括上课)5h代码量(行):100行博客数量(篇):1篇相关事项:1、今天是周五,今天上午进行了软件需求分析课上的有关于大数据竞赛的题目的考试,也很顺利的写完了。2、今天下午洗了洗衣服,刷会抖音,睡了一觉,好好休息了一下午。3、今天晚上打算继续完成人机交互的作业。......