选题背景介绍
选择此选题的原因在于,随着信息时代的到来,企业数据挖掘和分析技术的进步为深入了解公司年报提供了关键工具。公司年报作为企业向利益相关者披露财务和经营状况的主要渠道,其信息量庞大而复杂。传统手工分析已无法满足对大规模数据的处理和深入挖掘的需求。通过运用数据挖掘和分析技术,我们能更全面、准确地评估企业的经营状况、风险和机遇,为投资者、股东和利益相关者提供更明智的决策支持。这一研究的目标是借助先进技术,高效处理大规模数据,发现隐藏的关联和趋势,提升对企业运营情况的理解水平。从社会、经济、技术数据来源等多方面进行综合描述,突显了数据挖掘与分析公司年报的重要性,为社会经济的科技发展提供了实质性的支持和推动。
大数据设计方案及分析思路
准备数据:
获取企业财务年报数据,包括利润表、资产负债表、现金流量表等关键财务指标。
使用工具如Excel、Python的Pandas库、或其他数据处理工具整理和清理数据。
solvency.xlsx:
数据内容:包含年份、资产负债率、股东权益比率、流动比率和速动比率等财务指标。
数据特征分析:关注企业的偿债能力,了解资产结构、流动性状况,以及股东权益情况。
PROFITABILITY.xlsx:
数据内容:包含销售毛利率、营业利润率、总资产利润率、净资产收益率等指标。
数据特征分析:聚焦企业盈利能力,考察销售和利润关系,了解资产和净资产的收益率情况。
main economic indicators.xlsx:
数据内容:包含营业收入、营业利润、净利润、总资产、负债合计、股东权益合计等关键经济指标。
数据特征分析:综合考察企业的经济状况,包括收入、利润、资产负债状况和股东权益。
选择关键指标:
从财务报表中选择关键的财务指标,例如营业收入、净利润、资产总额、负债总额、现金流等。
确定分析方向:
定义您希望分析的方向,例如盈利能力、偿债能力、经营活动能力等。
确定关键的业务问题,以便有针对性地进行可视化分析。
选择可视化工具:
选择适当的可视化工具,如Matplotlib、Seaborn、Plotly(Python库)、Tableau、Power BI等。
根据分析需求选择合适的图表类型,如折线图、柱状图、饼图等。
创建可视化图表:
根据选定的指标和分析方向,创建相应的可视化图表。
可以制作趋势图、对比图、饼图、雷达图等,以展示不同财务指标的变化。
技术难点:
缺失值处理: 部分数据集中存在"--"等表示缺失的符号,需将其转换为NaN,再进行合理的填充或剔除。
数据合并: 确保三个数据集能够按年份正确合并,考虑使用数据库的连接操作或pandas的merge功能。
数据类型转换: 部分列可能需要从字符串或其他类型转换为数值类型进行分析。
数据集来源
中国产业研究院:中商产业研究院-中国产业咨询专家-政府产业智库 (askci.com)
数据清洗的主要步骤:
运行代码如下:
# 读取原始XLSX文件
workbook = openpyxl.load_workbook('main economic indicators.xlsx')
sheet = workbook.active
for i in range(1, 6): # 获取前五行
row_data = []
for j in range(1, sheet.max_column + 1):
cell_value = sheet.cell(row=i, column=j).value
row_data.append(cell_value)
print(row_data)
# 移除第一行
sheet.delete_rows(1)
# 保存清洗后的XLSX文件
workbook.save('main economic indicators.xlsx')
因为原数据比较清晰,所以我在这里删除了第一行体现数据清洗部分
大数据分析实验
- import pandas as pd
- import matplotlib.pyplot as plt
- from pylab import mpl
- mpl.rcParams['font.sans-serif'] = ['simHei']
- # 读取Excel文件
- df = pd.read_excel("main economic indicators.xlsx")
- # 提取所需的列数据
- years = df['类别\\年份'].tolist()
- revenue = df['营业收入'].tolist()
- profit = df['净利润'].tolist()
- assets = df['资产总计'].tolist()
- # 创建图表
- fig, ax1 = plt.subplots(figsize=(12, 12))
- # 绘制营业收入的线形图
- ax1.plot(years, revenue, label='营业收入', marker='o', color='tab:blue')
- ax1.set_xlabel('年份')
- ax1.set_ylabel('营业收入(亿元)', color='tab:blue')
- ax1.tick_params(axis='y', labelcolor='tab:blue')
- # 创建第二个y轴,用于绘制净利润和资产总计的线形图
- ax2 = ax1.twinx()
- ax2.plot(years, profit, label='净利润', marker='s', color='tab:green')
- ax2.plot(years, assets, label='资产总计', marker='^', color='tab:orange')
- ax2.set_ylabel('净利润和资产总计(亿元)', color='black')
- ax2.tick_params(axis='y', labelcolor='black')
- # 添加图例
- lines1, labels1 = ax1.get_legend_handles_labels()
- lines2, labels2 = ax2.get_legend_handles_labels()
- lines = lines1 + lines2
- labels = labels1 + labels2
- ax1.legend(lines, labels, loc='upper left')
- # 设置图表标题
- plt.title('企业盈利能力分析')
- # 旋转x轴刻度标签,以便更好地显示年份
- plt.xticks(rotation=45)
- # 显示图表
- plt.tight_layout()
- plt.show()
- plt.tight_layout()
- plt.savefig("企业盈利能力分析.png")
2.企业偿债能力分析
- import pandas as pd
import matplotlib.pyplot as plt
# 读取Excel文件
df = pd.read_excel("solvency.xlsx")
# 提取所需的列数据
years = df['年份'].tolist()
debt_to_equity_ratio = df['资产负债率'].tolist()
equity_ratio = df['股东权益比率'].tolist()
current_ratio = df['流动比率'].tolist()
quick_ratio = df['速动比率'].tolist()
# 创建图表
plt.figure(figsize=(12, 15))
# 绘制资产负债率、股东权益比率、流动比率和速动比率的线形图
plt.plot(years, debt_to_equity_ratio, label='资产负债率', marker='o')
plt.plot(years, equity_ratio, label='股东权益比率', marker='o')
plt.plot(years, current_ratio, label='流动比率', marker='o')
plt.plot(years, quick_ratio, label='速动比率', marker='o')
# 添加图例
plt.legend()
# 设置图表标题和标签
plt.title('企业偿债能力分析')
plt.xlabel('年份')
plt.ylabel('百分比(%)')
# 旋转x轴刻度标签,以便更好地显示年份
plt.xticks(rotation=45)
# 显示图表
plt.tight_layout()
plt.show()
plt.tight_layout()
plt.savefig("企业偿债能力分析.png") - 3.企业营运能力分析
- import pandas as pd
import matplotlib.pyplot as plt
# 读取Excel文件
df = pd.read_excel("PROFITABILITY.xlsx")
# 提取所需的列数据
years = df['类别\\年份'].tolist()
inventory_turnover = df['存货周转率'].tolist()
receivables_turnover = df['应收账款周转率'].tolist()
total_asset_turnover = df['总资产周转率'].tolist()
# 创建图表
plt.figure(figsize=(12, 15))
# 绘制存货周转率、应收账款周转率和总资产周转率的线形图
plt.plot(years, inventory_turnover, label='存货周转率', marker='o')
plt.plot(years, receivables_turnover, label='应收账款周转率', marker='o')
plt.plot(years, total_asset_turnover, label='总资产周转率', marker='o')
# 添加图例
plt.legend()
# 设置图表标题和标签
plt.title('公司营运能力分析')
plt.xlabel('年份')
plt.ylabel('次数')
# 旋转x轴刻度标签,以便更好地显示年份
plt.xticks(rotation=45)
# 显示图表
plt.tight_layout()
plt.show()
plt.tight_layout()
plt.savefig("公司营运能力分析.png")
4.企业发展能力分析
- # 提取发展能力相关的数据
gross_profit_margin = df['销售毛利率'].tolist()
operating_profit_margin = df['营业利润率'].tolist()
total_asset_profit_margin = df['总资产利润率'].tolist()
return_on_equity = df['净资产收益率'].tolist()
# 创建图表
plt.figure(figsize=(12, 18))
# 绘制销售毛利率、营业利润率、总资产利润率和净资产收益率的线形图
plt.plot(years, gross_profit_margin, label='销售毛利率', marker='o')
plt.plot(years, operating_profit_margin, label='营业利润率', marker='o')
plt.plot(years, total_asset_profit_margin, label='总资产利润率', marker='o')
plt.plot(years, return_on_equity, label='净资产收益率', marker='o')
# 添加图例
plt.legend()
# 设置图表标题和标签
plt.title('公司发展能力分析')
plt.xlabel('年份')
plt.ylabel('百分比')
# 旋转x轴刻度标签,以便更好地显示年份
plt.xticks(rotation=45)
# 显示图表
plt.tight_layout()
plt.show()
plt.tight_layout()
plt.savefig("公司发展能力分析.png")
4.1附完整程序源代码(以及输出结果)
- #平安银行股份有限公司
- import pandas as pd
- import matplotlib.pyplot as plt
- from pylab import mpl
- mpl.rcParams['font.sans-serif'] = ['simHei']
- # 读取原始XLSX文件
- workbook = openpyxl.load_workbook('main economic indicators.xlsx')
- sheet = workbook.active
- for i in range(1, 6): # 获取前五行
- row_data = []
- for j in range(1, sheet.max_column + 1):
- cell_value = sheet.cell(row=i, column=j).value
- row_data.append(cell_value)
- print(row_data)
- # 移除第一行
- sheet.delete_rows(1)
- # 保存清洗后的XLSX文件
- workbook.save('main economic indicators.xlsx')
- # 读取Excel文件
- df = pd.read_excel("main economic indicators.xlsx")
- # 提取所需的列数据
- years = df['类别\\年份'].tolist()
- revenue = df['营业收入'].tolist()
- profit = df['净利润'].tolist()
- assets = df['资产总计'].tolist()
- # 创建图表
- fig, ax1 = plt.subplots(figsize=(12, 12))
- # 绘制营业收入的线形图
- ax1.plot(years, revenue, label='营业收入', marker='o', color='tab:blue')
- ax1.set_xlabel('年份')
- ax1.set_ylabel('营业收入(亿元)', color='tab:blue')
- ax1.tick_params(axis='y', labelcolor='tab:blue')
- # 创建第二个y轴,用于绘制净利润和资产总计的线形图
- ax2 = ax1.twinx()
- ax2.plot(years, profit, label='净利润', marker='s', color='tab:green')
- ax2.plot(years, assets, label='资产总计', marker='^', color='tab:orange')
- ax2.set_ylabel('净利润和资产总计(亿元)', color='black')
- ax2.tick_params(axis='y', labelcolor='black')
- # 添加图例
- lines1, labels1 = ax1.get_legend_handles_labels()
- lines2, labels2 = ax2.get_legend_handles_labels()
- lines = lines1 + lines2
- labels = labels1 + labels2
- ax1.legend(lines, labels, loc='upper left')
- # 设置图表标题
- plt.title('企业盈利能力分析')
- # 旋转x轴刻度标签,以便更好地显示年份
- plt.xticks(rotation=45)
- # 显示图表
- plt.tight_layout()
- plt.show()
- import pandas as pd
- import matplotlib.pyplot as plt
- # 读取Excel文件
- df = pd.read_excel("solvency.xlsx")
- # 提取所需的列数据
- years = df['年份'].tolist()
- debt_to_equity_ratio = df['资产负债率'].tolist()
- equity_ratio = df['股东权益比率'].tolist()
- current_ratio = df['流动比率'].tolist()
- quick_ratio = df['速动比率'].tolist()
- # 创建图表
- plt.figure(figsize=(12, 15))
- # 绘制资产负债率、股东权益比率、流动比率和速动比率的线形图
- plt.plot(years, debt_to_equity_ratio, label='资产负债率', marker='o')
- plt.plot(years, equity_ratio, label='股东权益比率', marker='o')
- plt.plot(years, current_ratio, label='流动比率', marker='o')
- plt.plot(years, quick_ratio, label='速动比率', marker='o')
- # 添加图例
- plt.legend()
- # 设置图表标题和标签
- plt.title('企业偿债能力分析')
- plt.xlabel('年份')
- plt.ylabel('百分比(%)')
- # 旋转x轴刻度标签,以便更好地显示年份
- plt.xticks(rotation=45)
- # 显示图表
- plt.tight_layout()
- plt.show()
- plt.tight_layout()
- plt.savefig("企业偿债能力分析.png")
- import pandas as pd
- import matplotlib.pyplot as plt
- # 读取Excel文件
- df = pd.read_excel("PROFITABILITY.xlsx")
- # 提取所需的列数据
- years = df['类别\\年份'].tolist()
- inventory_turnover = df['存货周转率'].tolist()
- receivables_turnover = df['应收账款周转率'].tolist()
- total_asset_turnover = df['总资产周转率'].tolist()
- # 创建图表
- plt.figure(figsize=(12, 15))
- # 绘制存货周转率、应收账款周转率和总资产周转率的线形图
- plt.plot(years, inventory_turnover, label='存货周转率', marker='o')
- plt.plot(years, receivables_turnover, label='应收账款周转率', marker='o')
- plt.plot(years, total_asset_turnover, label='总资产周转率', marker='o')
- # 添加图例
- plt.legend()
- # 设置图表标题和标签
- plt.title('公司营运能力分析')
- plt.xlabel('年份')
- plt.ylabel('次数')
- # 旋转x轴刻度标签,以便更好地显示年份
- plt.xticks(rotation=45)
- # 显示图表
- plt.tight_layout()
- plt.show()
- plt.tight_layout()
- plt.savefig("公司营运能力分析.png")
- # 提取发展能力相关的数据
- gross_profit_margin = df['销售毛利率'].tolist()
- operating_profit_margin = df['营业利润率'].tolist()
- total_asset_profit_margin = df['总资产利润率'].tolist()
- return_on_equity = df['净资产收益率'].tolist()
- # 创建图表
- plt.figure(figsize=(12, 18))
- # 绘制销售毛利率、营业利润率、总资产利润率和净资产收益率的线形图
- plt.plot(years, gross_profit_margin, label='销售毛利率', marker='o')
- plt.plot(years, operating_profit_margin, label='营业利润率', marker='o')
- plt.plot(years, total_asset_profit_margin, label='总资产利润率', marker='o')
- plt.plot(years, return_on_equity, label='净资产收益率', marker='o')
- # 添加图例
- plt.legend()
- # 设置图表标题和标签
- plt.title('公司发展能力分析')
- plt.xlabel('年份')
- plt.ylabel('百分比')
- # 旋转x轴刻度标签,以便更好地显示年份
- plt.xticks(rotation=45)
- # 显示图表
- plt.tight_layout()
- plt.show()
- plt.tight_layout()
- plt.savefig("公司发展能力分析.png")
- import matplotlib.pyplot as plt
- # 模拟数据
- labels = ['产品A', '产品B', '产品C', '产品D']
- sales = [30, 25, 20, 25] # 假设销售数量
- # 创建饼状图
- fig, ax = plt.subplots()
- ax.pie(sales, labels=labels, autopct='%1.1f%%', startangle=90)
- # 设置图表标题
- plt.title('产品销售比例')
- # 显示图表
- plt.show()
- import pandas as pd
- import matplotlib.pyplot as plt
- # 读取Excel文件
- df = pd.read_excel("main economic indicators.xlsx")
- # 提取所需的列数据
- years = df['类别\\年份'].tolist()
- total_assets = df['资产总计'].tolist()
- # 创建折线图
- plt.plot(years, total_assets, marker='o')
- # 设置图表标题和标签
- plt.title('每年的总资产增长情况')
- plt.xlabel('年份')
- plt.ylabel('资产总计(亿元)')
- # 旋转x轴刻度标签,以便更好地显示年份
- plt.xticks(rotation=45)
- # 显示图表
- plt.tight_layout()
- plt.show()
- import matplotlib.pyplot as plt
- # 模拟数据
- labels = ['2019', '2020', '2021', '2022', '2023']
- revenue_composition = [30, 25, 20, 15, 10] # 假设营业收入构成比例
- colors = ['gold', 'yellowgreen', 'lightcoral', 'lightskyblue', 'lightgreen'] # 自定义颜色
- explode = (0.1, 0, 0, 0, 0) # 突出显示某一部分数据
- # 创建饼状图
- fig, ax = plt.subplots()
- ax.pie(revenue_composition, labels=labels, explode=explode, colors=colors, autopct='%1.1f%%', shadow=True, startangle=140)
- # 设置图表标题
- plt.title('营业收入构成比例')
- # 显示图表
- plt.show()
- import matplotlib.pyplot as plt
- # 模拟数据
- departments = ['销售部', '市场部', '财务部', '人力资源部']
- sales = [800, 650, 500, 400] # 假设每个部门的销售额
- # 创建柱形图
- fig, ax = plt.subplots()
- ax.bar(departments, sales)
- # 设置图表标题和标签
- plt.title('不同部门的销售额')
- plt.xlabel('部门')
- plt.ylabel('销售额(万元)')
- # 显示图表
- plt.show()
- import matplotlib.pyplot as plt
- import numpy as np
- # 模拟数据
- regions = ['东区', '南区', '西区', '北区']
- sales_2019 = [800, 600, 500, 400] # 假设每个区域2019年的销售额
- sales_2020 = [1000, 700, 600, 450] # 假设每个区域2020年的销售额
- # 创建堆叠柱形图
- x = np.arange(len(regions))
- width = 0.35
- fig, ax = plt.subplots()
- ax.bar(x - width/2, sales_2019, width, label='2019')
- ax.bar(x + width/2, sales_2020, width, label='2020')
- # 设置图表标题和标签
- plt.title('不同区域的销售额')
- plt.xlabel('区域')
- plt.ylabel('销售额(万元)')
- plt.xticks(x, regions)
- plt.legend()
- # 显示图表
- plt.show()
- import matplotlib.pyplot as plt
- # 模拟数据
- months = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun']
- sales = [500, 600, 700, 550, 800, 900] # 假设每个月的销售额
- # 创建柱形图
- fig, ax = plt.subplots()
- ax.bar(months, sales)
- # 设置图表标题和标签
- plt.title('不同月份的销售额')
- plt.xlabel('月份')
- plt.ylabel('销售额(万元)')
- # 显示图表
5.总结
企业盈利能力:
销售毛利率和营业利润率在大部分年份均未提供,但在2005年及之后的部分年份中可以看到,这两项指标保持在较高的水平,表明银行能够维持较高的盈利水平。
总资产利润率和净资产收益率的数据显示,银行的利润总额和净利润相对于资产和股东权益的比例在波动,但整体呈现增长趋势,说明银行的盈利能力逐年提高。
偿债能力:
资产负债率在近年来有所下降,说明银行的负债水平在减少,偿债能力在增强。
流动比率和速动比率在大部分年份未提供,但在可用的数据中显示银行具备良好的短期偿债能力。
营运能力:
存货周转率和应收账款周转率数据未提供,无法分析。
总资产周转率保持在较低的水平,可能表明银行资产的使用效率有待提高。
发展能力:
从股东权益比率的逐年提升可以看出,银行的所有者权益相对于总资产的比例在上升,反映了公司的内在增值能力。
资产和股东权益的增长速度显示出银行的规模在不断扩大,发展势头良好。
达到的目标:
目标一:全面了解企业经济状况
达到:通过不同维度的数据分析,得到了对企业经济状况的全面了解。
目标二:发现潜在问题与机会
部分达到:挖掘了财务和盈利能力方面的潜在问题,但需要更深入的行业研究来确定机会。
目标三:学生技能提升
达到:我通过实际操作,提升了数据清洗、合并、分析等方面的技能。
完成此设计过程中的收获与建议:
收获:
实际应用经验: 通过处理真实数据集,加深了对数据分析和挖掘实际应用的理解。
团队协作:学会向同学寻求帮助,尤其是在数据清洗和分析过程中,我更好地理解了团队协作的重要性。
建议:
更多实战案例: 多去查找实际业务案例,让自己面对更多不同类型的数据。
深入行业研究: 强调在数据背后的业务背景,鼓励自己应该进行更深入的行业研究,以更好地解释数据。
技术细节加强: 在课程中加强数据处理的技术细节,如更复杂的数据清洗、特征工程等技术。
标签:数据分析,tolist,plt,df,years,图表,label,企业财务 From: https://www.cnblogs.com/xzw-blog-2001-1-11/p/17925902.html