首页 > 编程语言 >基于python的豆瓣电影数据的可视化与分析

基于python的豆瓣电影数据的可视化与分析

时间:2024-04-04 14:31:08浏览次数:35  
标签:年份 收入 python 电影 豆瓣 可视化 print 预算 数据

1 项目背景意义介绍

       电影是一种具有极高娱乐性和文化价值的艺术形式,自从电影产业诞生以来,已经成为了人们生活中的重要组成部分。电影产业在全球范围内都有着广泛的影响力,对经济、文化、社会等多个方面都起到了积极的作用。因此,对电影产业进行数据分析和可视化,可以帮助我们更好地了解电影市场的发展状况和趋势,有助于制定更加科学合理的电影投资、制作和营销策略。

       对于给定的这份电影数据,其中包含了一些关键的信息,比如电影的年份、名称、预算、收入、类型和评分等,这些数据可以帮助我们分析电影市场的发展情况和趋势,以及各个类型电影的表现和受欢迎程度。通过对这些数据进行分析和可视化,可以看出各个类型的电影在市场中的占比、哪种类型的电影最受欢迎

       预算和收入之间是否存在某种关系、高预算的电影是否总是表现更好、评分和收入之间是否有一定的相关性高评分的电影是否总是收入更高

       通过对这些问题进行数据分析和可视化,可以帮助电影从业者更好地了解市场形势、洞察观众需求,从而制定更加科学合理的策略,提高电影制作、投资和营销的成功率。同时,对于观众来说,这些数据和分析结果也可以帮助他们更好地了解电影市场和各种类型电影的特点,从而做出更加明智的选择。

        

2 数据介绍

2.1数据字段介绍

        这份电影数据集包含了一些重要的字段,下面是对每个字段的详细介绍:

        年份:指电影的发行年份,它可以帮助我们追踪电影市场的发展历程,探究不同时期电影市场的特点和趋势。

        电影名称:指电影的具体名称,它可以帮助我们识别不同的电影作品,并进行更加精细的分析。

        预算(亿元):指电影制作过程中的预算成本,它可以反映出电影制作的规模和质量水平,以及各种成本因素对电影市场表现的影响。

        收入(亿元):指电影在票房、DVD销售、版权收益等方面所获得的收益总额,它是衡量电影市场表现的重要指标之一。

       类型:指电影的类别或类型,如动作片、恐怖片、喜剧片等,它可以帮助我们分析不同类型的电影在市场中的表现和受欢迎程度。

       评分:指电影在影评网站或观众评价平台上的得分,它可以帮助我们评估电影的质量和口碑,并探究评分与收入之间的相关性。

        通过对这些数据字段的分析和可视化,我们可以了解电影市场的发展情况和趋势,了解不同类型的电影在市场中的占比以及受欢迎程度,探究预算和收入之间的关系,评估电影的质量和口碑,并为制定更加科学合理的电影投资、制作和营销策略提供参考依据。

2.2 数据展示

如图所示是文件的数据,存在excel文件中,具体如下图所示:

3.数据处理

3.1查看数据类型

       这行代码将会返回数据框中每个列的数据类型。通过这个操作,您可以了解每个字段的数据类型是什么,比如整数(int)、浮点数(float)、字符串(object)等。

   # 查看数据类型

    data_types = df.dtypes

    print("数据类型:\n", data_types)

效果图如下所示:

3.2 数据描述性统计

       这行代码将会生成关于数据的描述性统计信息,包括计数(count)、均值(mean)、标准差(std)、最小值(min)、25%分位数(25%)、中位数(50%)、75%分位数(75%)和最大值(max)等。这些统计信息能够帮助您了解数据的分布情况和异常值等。

 # 数据描述性统计

data_description = df.describe()

print("\n数据描述性统计:\n", data_description)

效果图如下所示:

3.4 数据清洗

        数据分析和清洗在数据科学和业务决策中起着至关重要的作用,发现模式和趋势:通过数据分析和清洗,可以揭示数据中的模式和趋势,帮助我们理解数据背后的故事。这有助于发现隐藏的关联性和规律,提供对业务环境的深入洞察,并支持战略决策。

       检测异常值和错误:数据中常常存在异常值、离群点和错误数据,这可能会对分析结果产生严重影响。通过数据清洗,可以识别和处理这些异常情况,提高数据的准确性和可靠性。

       数据预处理:原始数据通常是杂乱无章的,可能包含缺失值、重复值、格式不一致等问题。数据清洗的过程可以对数据进行预处理,包括填补缺失值、去除重复值、统一数据格式等,为后续分析提供干净、一致的数据。

(1)重复值

由结果可知,没有重复值的情况

 # 1. 查看重复值的情况,以及打印重复的数据

duplicate_rows = df[df.duplicated()]

print("重复值情况:")

print(duplicate_rows)

(2)缺失值

由结果可知,没有缺失值的情况

 #  2. 查看缺失值的情况,以及打印缺失值的数据

missing_values = df.isnull().sum()

print("\n缺失值情况:")

print(missing_values)

(3)删除空行数据

   #3. 删除空行

    df.dropna(axis=0, how='any', inplace=True)

    # 输出处理后的数据

    print(df)

4.可视化展示

4.1 电影收入和预算变化情况

        思路是首先从数据框中提取了年份、收入和预算三列的数据,然后使用matplotlib库绘制了折线图来展示电影收入和预算随着年份变化的情况。

        通过提取数据框中的年份、收入和预算列,将它们分别存储在了year、revenue和budget这三个变量中。

        接下来使用plot函数,分别以年份为横坐标,收入和预算为纵坐标,绘制了两条折线,分别代表收入和预算随着年份的变化情况。添加了标题('电影收入和预算变化情况')和坐标轴标签('年份'、'金额')。调用legend函数添加了图例,用来区分收入和预算两条曲线。最后调用show函数展示了绘制好的折线图。

        通过这张折线图,可以直观地看到电影收入和预算随着年份的变化趋势,从而更好地了解电影市场的发展情况和财务状况。

4.2 不同类型电影的收入情况

(还有很多图省略..... 太多了不想复制了需要的可以评论区+三连哈)

4.3 评分 vs. 收入(亿元)

4.4 相同年份的电影数量统计

4.5 收入前6的电影

4.6 预算前6的电影

4.7 评分前6的电影

5.总结

        根据以上的分析,我总结了以下几个点:

        电影收入和预算变化情况:可以看出每年每个电影的收入都超出了实际的预算的价格。这可能是因为电影制作方在预算上保守估计,或者是电影在市场上获得了意外的成功,从而带来更高的收入。建议电影制作方在预算上加强估算,同时也要注意市场风险的影响,以避免因为资金问题导致电影制作的问题。

        不同类型电影的收入情况:奇幻类型的是最多的,最少的是儿童的。这可能是因为奇幻类型的电影有着更广泛的受众群体,同时也具有更大的视觉效果和特效,吸引了更多的观众。而儿童类型的电影则需要更加注重教育性和亲和力,从而吸引到更多的儿童观众。建议电影制作方在选择电影类型时要综合考虑市场需求和观众喜好,同时也要注意电影内容的质量和特色。(省略.....)

标签:年份,收入,python,电影,豆瓣,可视化,print,预算,数据
From: https://blog.csdn.net/cowwwwwboyyyy/article/details/137374287

相关文章

  • 利用python 实现微信自动回复
    全是干货,上代码#!/usr/bin/python3#-*-coding:utf-8-*-importpandasaspdimportnumpyasnpfromuiautomationimportWindowControl,MenuControl#绑定微信主窗口wx=WindowControl(Name='微信',#searchDepth=1)#切换窗口wx.SwitchToThi......
  • (某网站)评论爬虫+wordcloud可视化
    目录一、序二、没变化的三、没怎么变的四、全牛魔变了的五、全代码六、后记,但没完全后记七,词云图一、序打正大杯的时候,需要面向女性群体的信息收集,当时想到爬xhs相关笔记评论的数据本着面向csdn编程的心态,蒟蒻在csdn上狂搜各类“某网站爬虫”,什么“某网站 爬虫”,......
  • 探索Anaconda:创建Python虚拟环境
    目录 1.创建虚拟环境2.激活虚拟环境3.退出虚拟环境:4.常用命令4.1安装(使用pip或者conda都行,下面展示conda)4.2查看已安装的包4.3更新包4.4删除虚拟环境 1.创建虚拟环境打开AnacondaPrompt(或者终端),使用以下命令创建一个名为myenv的Python虚拟环境:conda......
  • django基于python的学生选课成绩信息管理系统7s7c8
    随着国内外教育事业的不断发展,加快教育信息化建设已成为我国教育事业改革与发展的必然选择。我国高校招生规模不断扩大,大量的学生信息管理就成了一个非常棘手的问题。依靠传统模式的利用人工进行学生的信息管理,费时费力,严重影响了教师的工作效率。而基于网络化的学生信息管理平......
  • python中小学教学一体化管理系统django-pycharm毕业设计
    根据近年来学校的发展情况,结合文献资料,对槐荫中学教学管理的信息化;至此,开发具有一定的技术可行性和安全性。该系统的核心内容是对首页、个人中心、学生管理、教师管理、教学计划管理、授课信息管理、培养计划管理、学生评价管理、在线考试管理、试题内容管理、系统管理、考试......
  • 【python学习过程--day1】认识python及其开发工具:VScode和pycharm的安装和激活
    认识python        Python是一种高级、通用、解释型编程语言,由GuidovanRossum在1980年代末和1990年代初设计开发的。它具有简洁清晰的语法和强大的标准库,因此被广泛用于Web开发、科学计算、人工智能、数据分析、系统自动化等领域。Python的设计哲学强调代码的可读性......
  • Python爬虫如何快速入门
    写了几篇网络爬虫的博文后,有网友留言问Python爬虫如何入门?今天就来了解一下什么是爬虫,如何快速的上手Python爬虫。一、什么是网络爬虫网络爬虫,英文名称为WebCrawler或Spider,是一种通过程序在互联网上自动获取信息的技术。它根据指定的规则,从互联网上下载网页、图片、视......
  • 每日面经分享(python进阶 part2)
    Python中的装饰器和上下文管理器区别是什么?它们分别适用于哪些场景?a.装饰器用于在函数或类的外部添加额外功能,而上下文管理器用于管理资源的获取和释放。b.装饰器是一种用于修改函数或类行为的技术。适用于需要在函数或类的外部添加额外功能的场景,比如日志记录、性能监......
  • 量化交易入门(四十一)ASI指标Python实现和回测
    老规矩先上图,看看ASI指标使用苹果数据回测后的结果如何。一、策略运行结果执行的结果:StartingPortfolioValue:100000.00FinalPortfolioValue:92514.82AnnualizedReturn:-1.93%SharpeRatio:-0.27MaxDrawdown:25.34%MaxDrawdownPeriod:441唉,好像亏钱了......
  • Python常用算法思想--总概篇
    算法的起源:欧几里德的《几何原本》中阐述的求两个数的最大公约数的过程。算法的定义:解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表用系统的方法描述解决问题的策略机制。算法的本质:算法是程序的灵魂,也是衡量一位程序员水平高低的最好参照物。算法的表示方......