首页 > 其他分享 >数据分析——近年倒闭公司数据分析

数据分析——近年倒闭公司数据分析

时间:2022-12-23 21:23:46浏览次数:63  
标签:数据分析 plt 近年 title death import 倒闭 data opts

一、选题背景

原因:应届毕业生毕业找工作就是一个很大的选择。在即将找工作的这个时间段,就业公司的前景也很重要。所以将分析倒闭公司的情况作为选题。

目标:分析每年倒闭公公司以及新生公司的数量,观察观察企业生存趋势,按照月份查看近几年的企业倒闭情况,具体分析。查看不同地区的企业倒闭情况以及各行业整体的倒闭情况。查看不同地区的企业倒闭情况以及各行业整体的倒闭情况

二、设计方案

1.数据集的内容与数据特征分析

数据集中包含了 公司名称,关闭时间,成立时间,公司简介,行业,地点,获投状态,存活天数,logo,行业标签,关闭原因。通过绘制可视化图形,来直观了解近年破产公司的情况。

2.方案概述

本项目主要分为三部分进行:1.理解和清洗数据集;2.进行分析,可视化;3.得出结论

三、数据分析步骤

数据源:本次课程设计的数据来源于csdn

https://blog.csdn.net/zhuxiao5/article/details/103268297

数据清洗

导入需要的库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

#加载数据集,了解数据集相关信息
# 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

data = pd.read_csv("C:/Users/ol/Downloads/final/dead.csv")
data.head(2)

运行结果:


data.info()

运行结果:


#可以发现data中最后5列为空,将其删去
data.drop(data.columns[-5:],axis = 1,inplace = True)
data.describe()
#查看公司存活时间以及总资产相关数据,可以发现数据集中有错误(即存活时间为负数的数据)


#去除存活时间为负数的数据
data = data[data['live_days']>0]
#查看列
data.columns


查看数据集形状和空值情况



由于要分析倒闭原因,对于倒闭原因为空的地方我们选择填充‘未知’


#增加年,月数据,方便接下来的操作
import datetime
data['death_year'] = pd.to_datetime(data['death_data']).dt.year
data['death_month'] = pd.to_datetime(data['death_data']).dt.month
数据可视化
每年倒闭公司的数量
from pyecharts import options as opts
from pyecharts.charts import Map
from pyecharts.charts import Bar

data['born_year'] = data['born_data'].apply(lambda x: x[:4])
data['death_year'] = data['death_data'].apply(lambda x: x[:4])
s1 = data.groupby('born_year').size()
s2 = data.groupby('death_year').size()
s1 = pd.DataFrame({'year': s1.index, 'born': s1.values})
s2 = pd.DataFrame({'year': s2.index, 'death': s2.values})
s = pd.merge(s1,s2, on='year', suffixes=['born', 'death'])
s = s[s['year'] > '2008']

c = (
    Bar()
    .add_xaxis( s['year'].to_list())
    .add_yaxis("新生企业数量", s['born'].to_list())
    .add_yaxis("死亡企业数量", s['death'].to_list())
    .set_global_opts(title_opts=opts.TitleOpts(title="年份分布"))
)
c.render_notebook()


通过上图,可以发现公司倒闭数量最多的为2017年,在2014年之前,公司新生数量逐年升高,倒闭数量也呈小幅度增长,而在2014-2017这几年中淘汰数量增长较快,新生数量却在不断下降,2017之后倒闭数量骤然下降,此时新生数量仍在小幅度下降,推测在2017年之后可能出现了政策改变或是经济状况变动

2015-2019年间各月份倒闭企业的数量
#由于在2015-2019这几年中,倒闭数量起伏较大,为更加直观了解相关原因,对2015-2019之间的各月份的倒闭数量进行分析
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
data_m = data[data['death_year'].isin(['2015','2016','2017','2018','2019'])]
plt.figure(1,figsize=(16,8))
sns.countplot(x='death_month',hue='death_year',data=data_m)
plt.title('2015-2019年间各月份倒闭企业的数量',fontsize=20)
plt.xlabel=('month')
plt.ylabel=('amount')


分析:观察上图,发现2015-2019这几年中公司倒闭主要集中在7,8,12这三个月中其中15年,16年倒闭的高峰分别为7月和8月,而2017年是倒闭最为严重的一年,其中主要高峰为12月,小高峰为7,8月,而18,19年只出现了一个高峰分别为12月和6月

分析倒闭公司的寿命
#分析倒闭公司的寿命
data['live_years'] = data['live_days']/365
data['生存年限'] =  pd.cut(x=data['live_years'],bins=[0,1,3,5,10,25])

sns.set_context("notebook",font_scale=1.3)
sns.catplot(x='death_year',y='live_days',hue='生存年限',kind='swarm',data=data,height=8,aspect=2,palette='Set2')
plt.title("倒闭公司的寿命")
plt.xticks(rotation=45)


2020年电商和其他行业

关闭行业统计

# 选取2020年的数据
df20 = df[df['关闭年份']==2020]
# 选取电商行业数据
edf = df[df['行业']=='电子商务']
# 2020年关闭公司统计
df['关闭年份'].value_counts()
plt.figure(figsize=(16,8))
sns.countplot(x='行业',order = df20['行业'].value_counts().index,data=df20,palette='GnBu_r')
plt.title("2020年各行业的公司总数排名",loc='left',size=22)
plt.xticks(rotation=45)
plt.ylabel(" ")
plt.xlabel(" ")

con = list(df20['行业'].value_counts().values)
for y,x in enumerate(con):
    plt.text(y-0.2,x+1,'%s' %x,size=14)
    
plt.yticks([])
plt.show()



plt.figure(figsize=(8,6))
sizes = [880,125]
labels = '非电商','电商'
plt.pie(sizes,explode = [0.1,0],labels = labels,autopct='%1.1f%%',shadow=True,
        startangle=90,colors=['#3E86AC','#6BB2C0'])
plt.show()


mdf20 = df20.groupby('关闭月份').公司名称.count().reset_index(name='counts')
cdf20 = df20.groupby('关闭季度').公司名称.count().reset_index(name='counts')

mdfe = edf.groupby('关闭月份').公司名称.count().reset_index(name='counts')
cdfe = edf.groupby('关闭季度').公司名称.count().reset_index(name='counts')

plt.figure(figsize=(14,14))

plt.subplot(2,2,1)
sns.barplot(x=mdf20['关闭月份'],y=mdf20['counts'],data=mdf20,palette='GnBu_r')
plt.title("整体",loc='left',size=18)
plt.ylabel(" ")
plt.xlabel("月份")
plt.yticks([])
con = list(mdf20['counts'])
for y,x in enumerate(con):
    plt.text(y-0.2,x+1,'%s' %x,size=12)    

plt.subplot(2,2,2)
sns.barplot(x=mdfe['关闭月份'],y=mdfe['counts'],data=mdfe,palette='GnBu_r')
plt.title("电商行业",loc='left',size=18)
plt.ylabel(" ")
plt.xlabel("月份")
plt.yticks([])
con = list(mdfe['counts'])
for y,x in enumerate(con):
    plt.text(y-0.2,x,'%s' %x,size=12)     

    
plt.subplot(2,2,3)
sizes = cdf20['counts']
labels = '一季度','二季度','三季度','四季度'
plt.pie(sizes,explode = [0,0,0.1,0.1],labels = labels,autopct='%1.1f%%',
        shadow=True,pctdistance=0.8)


plt.subplot(2,2,4)
sizes = cdfe['counts']
labels = '一季度','二季度','三季度','四季度'
plt.pie(sizes,explode = [0,0,0.1,0.1],labels = labels,autopct='%1.1f%%',
        shadow=True,pctdistance=0.8)

plt.show()


整体看,2020年关闭的公司中有90%以上的公司集中在1、2季度;

而电商行业关闭的公司中有85%以上的公司集中在1、2季度,3季度仍有10%以上的公司倒闭;

不管是整体还是电商行业以4月份尤为严重其次是1月、3月;而下半年有所好转

查看倒闭原因词云
#查看倒闭原因
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType
death_reason = {}
for row in data['death_reason'].values:
    if not pd.isnull(row):
        for name in row.split(' '):
            death_reason[name] = death_reason.get(name, 0) + 1
c = (
    WordCloud()
    .add("", [*death_reason.items()], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="倒闭原因词云"))
)
c.render_notebook()


从图中可以看出,较多公司的倒闭原因不明,同时商业模式匮乏,行业竞争,市场伪需求,业务调整等因素是造成较多公司倒闭的原因

查看不同地区的公司倒闭情况
from pyecharts import options as opts
from pyecharts.charts import Map

data['com_addr'] = data['com_addr'].apply(lambda x: x.strip())
s = data.groupby('com_addr').size()

c = (
Map()
    .add("死亡企业数量", [*s.items()], "china")
    .set_global_opts(
        title_opts=opts.TitleOpts(title="地区分布"),
        visualmap_opts=opts.VisualMapOpts(max_=200),
    )
)
c.render_notebook()


从图中可以发现,北京,上海,广东这些较为发达的地区倒闭数量遥遥领先,可以看出经济发达的地区竞争相当激烈

查看倒闭公司的行业分布
#倒闭行业分布
from pyecharts import options as opts
from pyecharts.charts import Bar


s = data.groupby('cat').size().sort_values(ascending=False)[:10].to_dict()

c = (
    Bar()
    .add_xaxis(list(s.keys()))
    .add_yaxis("死亡企业数量", list(s.values()))
    .set_global_opts(title_opts=opts.TitleOpts(title="行业排行TOP10"))
)
c.render_notebook()


倒闭公司的行业分布前top5为电子商务,企业服务,本地生活,金融,社交网络

分别查看电子商务,企业服务,本地生活公司的倒闭情况,

import os
from pyecharts.charts import Page
data1 = data[data['death_year'].isin(['2014','2015','2016','2017'])]
page = Page()
for x in ['电子商务']:
    data2 = data1[data1['cat']==x]
    s = data2.groupby('se_cat').size().sort_values(ascending=False)[:10].sort_values(ascending=True).to_dict()
    c = (
    Bar()
    .add_xaxis(list(s.keys()))
    .add_yaxis("死亡企业数量", list(s.values()))
    .reversal_axis()
    .set_series_opts(label_opts=opts.LabelOpts(position="right"))
    .set_global_opts(title_opts=opts.TitleOpts(title="2014-2017年细分领域倒闭情况"))
    )
    page.add(c)
page.render_notebook()


import os
from pyecharts.charts import Page
data1 = data[data['death_year'].isin(['2014','2015','2016','2017'])]
page = Page()
for x in ['企业服务']:
    data2 = data1[data1['cat']==x]
    s = data2.groupby('se_cat').size().sort_values(ascending=False)[:10].sort_values(ascending=True).to_dict()
    c = (
    Bar()
    .add_xaxis(list(s.keys()))
    .add_yaxis("死亡企业数量", list(s.values()))
    .reversal_axis()
    .set_series_opts(label_opts=opts.LabelOpts(position="right"))
    .set_global_opts(title_opts=opts.TitleOpts(title="2014-2017年细分领域倒闭情况"))
    )
    page.add(c)
page.render_notebook()


import os
from pyecharts.charts import Page
data1 = data[data['death_year'].isin(['2014','2015','2016','2017'])]
page = Page()
for x in ['本地生活']:
    data2 = data1[data1['cat']==x]
    s = data2.groupby('se_cat').size().sort_values(ascending=False)[:10].sort_values(ascending=True).to_dict()
    c = (
    Bar()
    .add_xaxis(list(s.keys()))
    .add_yaxis("死亡企业数量", list(s.values()))
    .reversal_axis()
    .set_series_opts(label_opts=opts.LabelOpts(position="right"))
    .set_global_opts(title_opts=opts.TitleOpts(title="2014-2017年细分领域倒闭情况"))
    )
    page.add(c)
page.render_notebook()


查看融资情况
financing = {}
for row in data['financing'].values:
    if not pd.isnull(row):
        for name in row.split(' '):
            financing[name] = financing.get(name, 0) + 1
c = (
    WordCloud()
    .add("", [*financing.items()], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="融资情况词云"))
)
c.render_notebook()


查看投资方
from pyecharts import options as opts
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType

invest = {}
for row in data['invest_name'].values:
    if not pd.isnull(row):
        for name in row.split('&'):
            invest[name] = invest.get(name, 0) + 1
invest = [*invest.items()]
invest.sort(key=lambda x: x[1], reverse=True)
c = (
    WordCloud()
    .add("", invest[:150], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="投资人词云"))
)
c.render_notebook()


结论

经济发达地区的竞争极为激烈,虽然经济领先机遇较多,但是其中的挑战也是巨大的,创业公司需谨慎选择;近年来,电子商务行业的兴起引发了一波企业进军互联网的浪潮,从而也造就了一个遍地竞争的环境; 倒闭企业大多都是未获得投资的企业,一个企业的繁荣兴起是需要强大的金钱资本的,对于那些活跃在发达地区,新兴产业的公司更是;

源码
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

#加载数据集,了解数据集相关信息
# 解决中文显示问题
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

data = pd.read_csv("C:/Users/ol/Downloads/final/dead.csv")
data.head(2)

data.info()

#可以发现data中最后5列为空,将其删去
data.drop(data.columns[-5:],axis = 1,inplace = True)
data.describe()
#查看公司存活时间以及总资产相关数据,可以发现数据集中有错误(即存活时间为负数的数据)
#去除存活时间为负数的数据
data = data[data['live_days']>0]

#查看列
data.columns

#增加年,月数据,方便接下来的操作
import datetime
data['death_year'] = pd.to_datetime(data['death_data']).dt.year
data['death_month'] = pd.to_datetime(data['death_data']).dt.month
from pyecharts import options as opts
from pyecharts.charts import Map
from pyecharts.charts import Bar

data['born_year'] = data['born_data'].apply(lambda x: x[:4])
data['death_year'] = data['death_data'].apply(lambda x: x[:4])
s1 = data.groupby('born_year').size()
s2 = data.groupby('death_year').size()
s1 = pd.DataFrame({'year': s1.index, 'born': s1.values})
s2 = pd.DataFrame({'year': s2.index, 'death': s2.values})
s = pd.merge(s1,s2, on='year', suffixes=['born', 'death'])
s = s[s['year'] > '2008']

c = (
    Bar()
    .add_xaxis( s['year'].to_list())
    .add_yaxis("新生企业数量", s['born'].to_list())
    .add_yaxis("死亡企业数量", s['death'].to_list())
    .set_global_opts(title_opts=opts.TitleOpts(title="年份分布"))
)
c.render_notebook()
#由于在2015-2019这几年中,倒闭数量起伏较大,为更加直观了解相关原因,对2015-2019之间的各月份的倒闭数量进行分析
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
data_m = data[data['death_year'].isin(['2015','2016','2017','2018','2019'])]
plt.figure(1,figsize=(16,8))
sns.countplot(x='death_month',hue='death_year',data=data_m)
plt.title('2015-2019年间各月份倒闭企业的数量',fontsize=20)
plt.xlabel=('month')
plt.ylabel=('amount')
#分析倒闭公司的寿命
data['live_years'] = data['live_days']/365
data['生存年限'] =  pd.cut(x=data['live_years'],bins=[0,1,3,5,10,25])

sns.set_context("notebook",font_scale=1.3)
sns.catplot(x='death_year',y='live_days',hue='生存年限',kind='swarm',data=data,height=8,aspect=2,palette='Set2')
plt.title("倒闭公司的寿命")
plt.xticks(rotation=45)

# 选取2020年的数据
df20 = df[df['关闭年份']==2020]
# 选取电商行业数据
edf = df[df['行业']=='电子商务']
# 2020年关闭公司统计
df['关闭年份'].value_counts()
plt.figure(figsize=(16,8))
sns.countplot(x='行业',order = df20['行业'].value_counts().index,data=df20,palette='GnBu_r')
plt.title("2020年各行业的公司总数排名",loc='left',size=22)
plt.xticks(rotation=45)
plt.ylabel(" ")
plt.xlabel(" ")

con = list(df20['行业'].value_counts().values)
for y,x in enumerate(con):
    plt.text(y-0.2,x+1,'%s' %x,size=14)
    
plt.yticks([])
plt.show()

plt.figure(figsize=(8,6))
sizes = [880,125]
labels = '非电商','电商'
plt.pie(sizes,explode = [0.1,0],labels = labels,autopct='%1.1f%%',shadow=True,
        startangle=90,colors=['#3E86AC','#6BB2C0'])
plt.show()

#整体和电商对比
mdf20 = df20.groupby('关闭月份').公司名称.count().reset_index(name='counts')
cdf20 = df20.groupby('关闭季度').公司名称.count().reset_index(name='counts')

mdfe = edf.groupby('关闭月份').公司名称.count().reset_index(name='counts')
cdfe = edf.groupby('关闭季度').公司名称.count().reset_index(name='counts')

plt.figure(figsize=(14,14))

plt.subplot(2,2,1)
sns.barplot(x=mdf20['关闭月份'],y=mdf20['counts'],data=mdf20,palette='GnBu_r')
plt.title("整体",loc='left',size=18)
plt.ylabel(" ")
plt.xlabel("月份")
plt.yticks([])
con = list(mdf20['counts'])
for y,x in enumerate(con):
    plt.text(y-0.2,x+1,'%s' %x,size=12)    

plt.subplot(2,2,2)
sns.barplot(x=mdfe['关闭月份'],y=mdfe['counts'],data=mdfe,palette='GnBu_r')
plt.title("电商行业",loc='left',size=18)
plt.ylabel(" ")
plt.xlabel("月份")
plt.yticks([])
con = list(mdfe['counts'])
for y,x in enumerate(con):
    plt.text(y-0.2,x,'%s' %x,size=12)     

    
plt.subplot(2,2,3)
sizes = cdf20['counts']
labels = '一季度','二季度','三季度','四季度'
plt.pie(sizes,explode = [0,0,0.1,0.1],labels = labels,autopct='%1.1f%%',
        shadow=True,pctdistance=0.8)


plt.subplot(2,2,4)
sizes = cdfe['counts']
labels = '一季度','二季度','三季度','四季度'
plt.pie(sizes,explode = [0,0,0.1,0.1],labels = labels,autopct='%1.1f%%',
        shadow=True,pctdistance=0.8)

plt.show()
#查看倒闭原因
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType
death_reason = {}
for row in data['death_reason'].values:
    if not pd.isnull(row):
        for name in row.split(' '):
            death_reason[name] = death_reason.get(name, 0) + 1
c = (
    WordCloud()
    .add("", [*death_reason.items()], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="倒闭原因词云"))
)
c.render_notebook()
from pyecharts import options as opts
from pyecharts.charts import Map

data['com_addr'] = data['com_addr'].apply(lambda x: x.strip())
s = data.groupby('com_addr').size()

c = (
Map()
    .add("死亡企业数量", [*s.items()], "china")
    .set_global_opts(
        title_opts=opts.TitleOpts(title="地区分布"),
        visualmap_opts=opts.VisualMapOpts(max_=200),
    )
)
c.render_notebook()
#倒闭行业分布
from pyecharts import options as opts
from pyecharts.charts import Bar


s = data.groupby('cat').size().sort_values(ascending=False)[:10].to_dict()

c = (
    Bar()
    .add_xaxis(list(s.keys()))
    .add_yaxis("死亡企业数量", list(s.values()))
    .set_global_opts(title_opts=opts.TitleOpts(title="行业排行TOP10"))
)
c.render_notebook()

#电子商务
import os
from pyecharts.charts import Page
data1 = data[data['death_year'].isin(['2014','2015','2016','2017'])]
page = Page()
for x in ['电子商务']:
    data2 = data1[data1['cat']==x]
    s = data2.groupby('se_cat').size().sort_values(ascending=False)[:10].sort_values(ascending=True).to_dict()
    c = (
    Bar()
    .add_xaxis(list(s.keys()))
    .add_yaxis("死亡企业数量", list(s.values()))
    .reversal_axis()
    .set_series_opts(label_opts=opts.LabelOpts(position="right"))
    .set_global_opts(title_opts=opts.TitleOpts(title="2014-2017年细分领域倒闭情况"))
    )
    page.add(c)
page.render_notebook()

#企业服务
import os
from pyecharts.charts import Page
data1 = data[data['death_year'].isin(['2014','2015','2016','2017'])]
page = Page()
for x in ['企业服务']:
    data2 = data1[data1['cat']==x]
    s = data2.groupby('se_cat').size().sort_values(ascending=False)[:10].sort_values(ascending=True).to_dict()
    c = (
    Bar()
    .add_xaxis(list(s.keys()))
    .add_yaxis("死亡企业数量", list(s.values()))
    .reversal_axis()
    .set_series_opts(label_opts=opts.LabelOpts(position="right"))
    .set_global_opts(title_opts=opts.TitleOpts(title="2014-2017年细分领域倒闭情况"))
    )
    page.add(c)
page.render_notebook()
import os
from pyecharts.charts import Page
data1 = data[data['death_year'].isin(['2014','2015','2016','2017'])]
page = Page()
for x in ['本地生活']:
    data2 = data1[data1['cat']==x]
    s = data2.groupby('se_cat').size().sort_values(ascending=False)[:10].sort_values(ascending=True).to_dict()
    c = (
    Bar()
    .add_xaxis(list(s.keys()))
    .add_yaxis("死亡企业数量", list(s.values()))
    .reversal_axis()
    .set_series_opts(label_opts=opts.LabelOpts(position="right"))
    .set_global_opts(title_opts=opts.TitleOpts(title="2014-2017年细分领域倒闭情况"))
    )
    page.add(c)
page.render_notebook()
financing = {}
for row in data['financing'].values:
    if not pd.isnull(row):
        for name in row.split(' '):
            financing[name] = financing.get(name, 0) + 1
c = (
    WordCloud()
    .add("", [*financing.items()], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="融资情况词云"))
)
c.render_notebook()
from pyecharts import options as opts
from pyecharts.charts import WordCloud
from pyecharts.globals import SymbolType

invest = {}
for row in data['invest_name'].values:
    if not pd.isnull(row):
        for name in row.split('&'):
            invest[name] = invest.get(name, 0) + 1
invest = [*invest.items()]
invest.sort(key=lambda x: x[1], reverse=True)
c = (
    WordCloud()
    .add("", invest[:150], word_size_range=[20, 100], shape=SymbolType.DIAMOND)
    .set_global_opts(title_opts=opts.TitleOpts(title="投资人词云"))
)
c.render_notebook()

四、总结

1.通过对这次的数据分析设计,逐渐了解一些数据分析处理的方法,把数据通过日期和行业进行可视化,直观地体现数据,让人一目了然。

2.在这次的项目中,自己遇到了不少问题,最初是一些库的版本不匹配,以及方法,参数的使用不正确。在通过百度和csdn等方法后解决了。有许多地方还需要加强。

标签:数据分析,plt,近年,title,death,import,倒闭,data,opts
From: https://www.cnblogs.com/wofole/p/17001651.html

相关文章

  • 淘宝双12购物数据分析
    一、选题的背景随着社会的发展,数据化时代,线上购物比例增幅巨大,各种的线上购物节,6.18、双十一、双十二等等。因此分析双十二活动日时段各行为数量的走势和对比,以及活动......
  • Python网络爬虫——福州小区信息的抓取和数据分析
    一、选题的背景为了能够充分了解福州当地小区的房价信息,并能够充分了解小区的位置,为每个人不同的需求,选择不同价位的房源,并通过其成交量进行参考和选择,以及剩余量爬取的信......
  • 大数据分析——我国近十年的人口比率分析
    选题背景近年来,我国人口总量惯性增长,人口增速有所放缓。与之前相比,人口老龄化加速,人口数量红利进入尾声。当前我国人口的特征是高龄少子,适龄人口生育意愿显著下降,人口老龄......
  • python数据分析练习
    第一部分:数据类型处理数据加载字段含义:user_id:用户IDorder_dt:购买日期order_product:购买产品的数量order_amount:购买金额df=pd.read_csv('../data/CDN......
  • 关于Gmail电子邮件使用情况数据分析
    关于Gmail电子邮件使用数据分析一、选题背景    随着时代的快速发展,互联网越来越发达,越来越多的人们开始抛弃传统的书信邮件,改用了电子邮件。电子邮件有很多的优......
  • 对美国心脏病数据集进行大数据分析
    一、选题背景    本数据来源于美国2020年40万成年人与其健康状况相关的CDC年度调查数据。心脏病是美国大多数种族(非洲裔美国人、美洲印第安人和阿拉斯加原住......
  • 数据分析-银行营销大数据分析
    银行营销大数据分析一、选题背景在互联网、云计算和物联网的高速发展下,大数据走入了人们的视野。银行业作为数据集中管理型行业,在大数据背景下如何进行数据挖掘、分析、......
  • 机械学习--大数据分析
    本次实验报告的主要任务是实现对员工的辞职进行预测,具体将从简介、数据预处理、随机森林的使用和实现以及结论等方面完成实验报告的撰写和相关工作汇报。一:简介1.1:数据......
  • 数据分析 - 酒店预订需求分析
    1.背景介绍在高节奏生活的今天,人们整天在各个城巿穿梭忙碌着,在过去跑到哪个城巿后才能进行预订客房,现在看来是否显得太麻烦,目前很多酒店都已经开始使用通过互联网进行客......
  • 网易云热门音乐评论爬取+大数据分析+数据可视化
    一、选题的背景声乐艺术的情感,是歌唱者在自己内心唤起曾经的体验的情感,是一首歌曲的灵魂,抒发情感,给人带来幸福感满足感是音乐的魅力所在。只有加入情感的表现才能使演......