首页 > 其他分享 >11.24每日总结

11.24每日总结

时间:2023-11-24 11:56:01浏览次数:33  
标签:总结 5000 每日 电影 11.24 tmdb csv 数据 1000

今天上课完成了大数据的测试。

王 S 聪想要在海外开拓万 D 电影的市场,这次他在考虑:怎么拍商业电影才

能赚钱?毕竟一些制作成本超过 1 亿美元的大型电影也会失败。这个问题对电影

业来说比以往任何时候都更加重要。 所以,他就请来了你(数据分析师)来帮

他解决问题,给出一些建议,根据数据分析一下商业电影的成功是否存在统一公

式?以帮助他更好地进行决策。

解决的终极问题是:电影票房的影响因素有哪些?

接下来我们就分不同的维度分析:

  • • 观众喜欢什么电影类型?有什么主题关键词?
  • • 电影风格随时间是如何变化的?
  • • 电影预算高低是否影响票房?
  • • 高票房或者高评分的导演有哪些?
  • • 电影的发行时间最好选在啥时候?
  • • 拍原创电影好还是改编电影好?

本次使用的数据来自于 Kaggle 平台(TMDb 5000 Movie Database)。收录了

美国地区 1916-2017 年近 5000 部电影的数据,包含预算、导演、票房、电影评

分等信息。原始数据集包含 2 个文件:

  • • tmdb_5000_movies:电影基本信息,包含 20 个变量
  • • tmdb_5000_credits:演职员信息,包含 4 个变量

请使用 Python 编程,完成下列问题:

(1)使用附件中的 tmdb_5000_movies.csv 和 tmdb_5000_credits.csv 数据集,进

行数据清洗、数据挖掘、数据分析和数据可视化等,研究电影票房的影响因素有

哪些?从不同的维度分析电影,讨论并分析你的结果。

(2)附件 tmdb_1000_predict.csv 中包含 1000 部电影的基本信息,请你选择

合适的指标,进行特征提取,建立机器学习的预测模型,预测 1000 部电影的

vote_average 和 vote_count,并保存为 tmdb_1000_predicted.csv。

                                                                                          1

 

数据清洗

 

标签:总结,5000,每日,电影,11.24,tmdb,csv,数据,1000
From: https://www.cnblogs.com/ZRGUGUGU818/p/17853422.html

相关文章

  • #2023-2024-1 20231308 《计算机基础与程序设计》第九周学习总结
    2023-2024-120231308《计算机基础与程序设计》第九周学习总结作业信息这个作业属于哪个课程2023-2024-1-计算机基础与程序设计这个作业要求在哪里2023-2024-1计算机基础与程序设计第九周作业这个作业的目标计算机科学概论第10,11章《C语言程序设计》第8章并完成......
  • 数据库总结复习(并发控制二)
    目录前言死锁解决方法超时等待法等待图法串行化概念验证串行化判断冲突可串行化举例为了保证可串行而出现的封锁协议--两段锁协议概念与一次封锁的区别前言本文为JMU22级数据库原理考前复习而总结归纳,刨除了课本以及课堂上晦涩且长篇大论的文章,以尽量简洁易懂的语句来对知识点进......
  • 存储云服务中OBS(对象存储服务)的一些归纳总结
    一、概念一个基于对象的海量存储服务,桶(类似于文件夹)里面装着对象(文件)。桶是OBS中存储对象的容器,对象是OBS中数据存储的基本单位一个对象实际上是文件数据与其相关属性信息的集合体(不只是一个data),可以类似于Java中的类。OBS用户可以上传下载OBS系统里的任意资源我自己画的一......
  • 每日总结
    今天进行了软件构造的作业题书写。packagecom.example.test;importjava.sql.*;importjava.util.ArrayList;importjava.util.List;publicclassJDBC{privatestaticConnectionconnection;privatestaticStringurl="jdbc:mysql://localhost:3306/?useSS......
  • Linux学习总结
     编辑文件(vi、vim)vi文件名//打开需要编辑的文件--进入后,操作界面有三种模式:命令模式(commandmode)、插入模式(Insertmode)和底行模式(lastlinemode)命令模式-刚进入文件就是命令模式,通过方向键控制光标位置,-使用命令"dd"删除当前整行-使用命令"/字段"进行查找-按"i......
  • 每日总结-23.11.22
    packagekousuanti;importjavax.swing.*;importjava.awt.*;importjava.awt.event.ActionEvent;importjava.awt.event.ActionListener;importjava.util.Random;publicclassArithmeticProgramextendsJFrame{privateJPanelcontentPanel;privateJ......
  • 每日总结-23.22.23
    packagekousuanti;importjava.awt.*;importjava.awt.event.ActionEvent;importjava.awt.event.ActionListener;importjavax.swing.JButton;importjavax.swing.JFrame;importjavax.swing.JLabel;importjavax.swing.JPanel;importjavax.swing.JTextField;imp......
  • 《最简单的图形与最复杂的信息》总结
    绘制图形的核心原则真实刻画数据表现,不能夸张与缩小数据表现。一句话,还原数据本来的样子。图形的组成标题,坐标轴,图例(可选),数据曲线1.坐标轴a.选择合适的坐标刻度,尽可能让数据曲线占到图形的2/3Y轴的刻度不宜过小于过大,负责对于折线图表现变化过于夸张b.竖直条形图需要有零基......
  • 每日博客
    实验19:中介者模式packagezhongjiezhe;importjava.util.*; publicclassGroupextendsAbcharroom{privateHashtablems=newHashtable();publicvoidregister(Memberm){if(!ms.contains(m)){ms.put(m.getname(),m);m.setroom(this);}}publicvoidsendtext(St......
  • 2023-2024 20232319《网络空间安全导论》第2周学习总结
    思维导图教材学习过程中的问题和解决过程问题一:sm2算法和sm4算法是对称算法还是非对称算法?答案:sm2属于非对称算法,sm4属于对称算法。问题一解决方案:询问chatgpt。问题二:区块链技术与密码学的关系答案:区块链技术与密码学有着密切的关系,密码学是区块链技术的基础之一。以下是......