首页 > 其他分享 >泰迪杯数据分析省赛A题——自动化生产线数据分析

泰迪杯数据分析省赛A题——自动化生产线数据分析

时间:2024-11-27 23:58:34浏览次数:7  
标签:数据分析 小问 泰迪杯 合格 故障 生产线 产品 类别 省赛

自动化生产线数据分析

项目背景:

随着信息技术的飞速跃进,工业自动化范畴内的智能控制系统正迈向更高层次的成熟与完备。自动化生产线现已能够自主执行从物料的高效传输、元件的精确拾取,直至产品的精细装配与严格质量检测的整个生产流程,这一转变不仅极大地促进了生产效率与产品质量的双重飞跃,还有效地削减了生产成本,为企业带来了显著的效益增长。

本文基于某企业生产线产生的庞大数据集,对生产线运行情况、生产线影响因素等进行了统计分析与可视化展示。旨在帮助企业的稳健发展与市场竞争力的持续增强提供有力支撑,具体做法如下:

**针对问题一,数据整理与统计。**本文首先统计出各生产线每天的产品总数、合格产品数、不合格产品数与合格率再进行全年汇总。其次,本文统计出M101、M102生产线的每次故障的相关信息,最后得出各生产线每种故障一年中第 25 次发生的相关信息。接着统计各生产线各类故障每天发生的总次数和平均持续时长,进而得出各生产线各类故障发生的总次数、平均持续时长、故障发生频率及汇总。同时,统计两条生产线每天的有效工作时长,最终求得出各生产线每种故障一年中第 25 次发生的相关信息。最后,。

**针对问题二,生产线运行情况的可视化分析。**本文根据给出的生产线运行数据,绘制出多幅数据可视图,分别为每个月两条不同生产线生产产品总数(包含不合格产品)的堆叠柱状图、每天两条生产线生产不合格产品数(取值范围为[0,35])和不合格率(取值范围为[0,0.9%])的双 Y 轴折线图、两条生产线各故障类别的占全年各故障类别发生总次数的双层环形图、两条生产线全年故障发生持续时长的叠加直方图和生产线 M101 包含 4 个工序的甘特图。

**针对问题三,生产线影响因素分析。**我们经过分析得到以下可能存在的因素:故障类别;推出状态、抓取状态、安装状态、检测状态;推出累计数、抓取累计数、安装累计数、检测累计数;合格产品累计数、不合格产品累计数;影响生产线产量的因素;时间、日期、月份。

关键词:自动化生产线,数据分析,数据可视化,生产线影响因素分

目录

一、问题简介… 3

1.1问题背景… 3

1.2 问题重述… 3

二、任务一:数据整理与统计… 6

2.1 问题分析… 6

2.2 第一小问求解… 6

2.3 第二小问求解… 7

2.4 第三小问求解… 9

2.5 第四小问求解… 10

三、任务二:数据分析与可视化… 12

3.1 第一小问求解… 12

3.2 第二小问求解… 12

3.3 第三小问求解… 14

3.4 第四小问求解… 15

四、任务三:数据分析与可视化… 18

4.1影响产品合格率的因素… 18

五、数据说明… 19

5.1附录-相关代码… 19

一、问题简介

1.1问题背景

在信息科技日新月异的今天,工业自动化领域内的智能控制系统正迈向更高层次的成熟与完善。自动化生产线凭借其强大的自主能力,无缝衔接了从物料输送、元件精准抓取到产品组装及质量检验的每一步流程,这一转变不仅大幅度提升了生产效率和产品质量,更实现了生产成本的显著降低。

为确保企业管理高层与工程技术精英能够迅速捕捉生产线的实时动态与潜在瓶颈,对生产线数据实施深度剖析与挖掘成为了不可或缺的一环。这一战略行动的核心目标,在于不断优化生产线的运作效能,同时严格把控次品率,推动产品质量迈向新高度。

1.2 问题重述

(一)预期目标

对生产线数据进行全面监测与分析,并进行直观的可视化呈现,以便企业管理层与技术人员实时掌握生产流程的动态变化。具体目标设定如下:

\1. 数据整理与统计。

\2. 生产线运行情况的可视化分析。

\3. 生产线影响因素分析。

(二)附件内容

表 1-data.xlsx

表 2-result1_1.xlsx

表 3-result1_2.xlsx

表 4-result1_3.xlsx

表 5-result1_4.xlsx

表 6-result1_5.xlsx

表 7-result3.xlsx

(三)任务要求

基于上述问题背景与提供的附件数据,本文需要研究完成以下任务:

任务一:数据预处理与统计

a)统计每天两条生产线的产品总数(包含不合格产品)、合格产品数、不合格产品数与合格率,以表 1 的格式将汇总结果保存到文件“result1_1.xlsx”的 M101 和 M102 工作表中,同时以表 2 的格式在报告中给出各生产线全年的产品总数、合格产品数、不合格产品数与合格率结果。

注:报告表中产品总数(包含不合格产品)、合格产品数、不合格产品数为整数,合格率保留4位小数。

b)分别列出两条生产线每次故障的相关信息,按照月份、日期和开始时间升序排列,以表 3 的格式将结果分别存放到 result1_2.xlsx 的 M101 和 M102 工作表中,同时以表 4 的格式在报告中给出各生产线每种故障一年中第 25 次发生的相关信息结果。

c)根据任务 1.2 的结果,统计两条生产线各类故障每天发生的总次数和平均持续时长,按照生产线、月份、日期、故障类别升序排列,以表 5 的格式将结果存放到 result1_3.xlsx 中,同时以表 6 的格式在报告中分别给出两条生产线各类故障发生的总次数、平均持续时长、故障发生频率,并进行汇总结果。

注:如果某天没有指定类别的故障,则该天该故障的总次数为 0,平均持续时长为 Null。

d) 统计两条生产线每天的有效工作时长,按照月份、日期升序排列,以表 7 的格式将结果存放到 result1_4.xlsx 中,以表 8 的格式在报告中给出各生产线的日平均有效工作时长。

注:有效工作时长是当天开机时长减去因故障停机的时长。

e) 对生产线 M101 每天推出的电路板数量、抓取的元件数量与抓取的故障次数做相关性分析,并结合问题背景解释所得到的结果。

任务二:数据分析与可视化

a)计算并绘制每个月两条不同生产线生产产品总数(包含不合格产品)的堆叠柱状图:x 轴表示月份,y 轴表示产品总数(包含不合格产品),用不同颜色标记两条不同生产线。

b)计算并绘制每天两条生产线生产不合格产品数(取值范围为[0,35])和不合格率(取值范围为[0,0.9%])的双 Y 轴折线图:x 轴表示时间,左侧 y 轴表示不合格产品数(取值范围为[0,35]),右侧 y 轴表示不合格率(取值范围为[0,0.9%]),用不同颜色标记两条不同生产线。

c)绘制两条生产线各故障类别的占全年各故障类别发生总次数的双层环形图:x 轴表示时间,y 轴表示百分比,用不同颜色标记两条不同生产线。

d)基于不同故障类别,分别绘制两条生产线全年故障发生持续时长的叠加直方图:x 轴表示故障发生持续时长(单位:秒),y 轴表示不同故障类别,用不同颜色标记两条不同生产线。

e)基于 4 月 26 日前 100 秒生产线数据,以时间(单位:秒)为横坐标,电路板推出次序为纵坐标,绘制生产线 M101 包含 4 个工序的甘特图。

任务三:领取提交模式分析

根据生产线数据,应用数据分析方法分析影响产品合格率和生产线产量的可能因素。

生产线运行流程

img

二、任务一:数据整理与统计

2.1 问题分析

通过观察题目给出的附件数据与任务要求,本文分析得出任务一存在以下两 大难点:

难点一:数据繁杂且分散于不同文件,整合难度大。格式多样需转换清洗,如文本转数值、处理异常值等。同时,计算多种统计指标时逻辑复杂,涉及大量数据筛选计算,任何环节出错都影响结果,对精度和逻辑严谨性要求高。

难点二:选择合适图表呈现数据关系不易,如依据不同数据选堆叠柱状图或双 Y 轴折线图等。制作图表时,细节和布局设计需精心,保证清晰美观。而对可视化结果解读更关键,需挖掘深层规律趋势,为生产线运行提供有价值分析,要求较强数据分析和解读能力。

2.2 第一小问求解

根据任务一的要求,针对第一小问:

首先,导入并处理数据

img

其次,用groupby函数对数据进行分组,agg()函数进行,找到每个日期下的合格/不合格产品累计数的最大值,就是该月的合格产品数(件)。

产品总数 = 合格产品数 + 不合格产品数

最后导入到到result1_1.xlsx中的M101/M102工作表中

img

针对分别统计两条生产线每天的产品总数(包含不合格产品)、合格产品数、不合格产品数与合格率,本文进行如下处理,具体见表 1、表 2。

根据上述解题思路,本文最终求得出各生产线全年的产品总数、合格产品数、不合格产品数与合格率如表 3 所示。

表 1 M101生产线的产品总数、合格产品数、不合格产品数和合格率

月份日期产品总数(件)合格产品数(件)不合格产品数(件)合格率(%
113462345390.9974
123252324570.9978

表 2 M102生产线的产品总数、合格产品数、不合格产品数和合格率

月份日期产品总数(件)合格产品数(件)不合格产品数(件)合格率(%
113519351810.9974
123319331810.9978

表 3 各生产线全年的产品总数、合格产品数、不合格产品数与合格率

生产线产品总数(件)合格产品数(件)不合格产品数(件)合格率(%
M1011183016118091021060.9982
M1021186838118446123770.9980

2.3 第二小问求解

根据任务一的要求,针对第二小问:

题目需要获取两条生产线每次故障的相关信息。由于数据是连续的时间序列,需要对数据进行故障次数判别。考虑原始数据“故障类别”字段为空白,则表示没有故障,以该字段连续出现非空值的所有记录定义为一次“故障”。要求结果中的“月份”、“日期”、“时间”、“故障类别”等字段,均可直接取连续故障记录的第一条记录中对应的值。按照月份、日期和开始时间升序排列,由于按顺序取数,数据结果自动排好序。比较难得到的是“持续时长”,“持续时长”记录的是本次故障持续的时间,考虑采用连续故障记录后下一条正常记录的时刻减去本次故障第一条记录的时刻计算生成。综上,总结各个字段的计算方式如下:

结果字段的获取:

月份:连续故障记录的第一条记录的“月份”字段;

日期:连续故障记录的第一条记录所的“日期”字段;

开始时间:连续故障记录的第一条记录的“时间”字段;

故障类别:连续故障记录的第一条记录的“故障类别”字段;

持续时长:连续故障记录后下一条正常记录的”时间“-连续故障记录第一条记录的“时间”

首先,采用一个while循环嵌套一个for循环的方式,通过设置i、j 两个变量来控制循环。在找到连续故障记录后第一条正常记录后,通过break语句跳出循环,节省开销,再对i变量增加j +1个单单位,精确每次遍历初始位置。相关代码实现如下:

img

最后,数据结果见result1_2,其中持续的时间有少量出现负数,考虑故障出现跨天的情况,对于这种情况,对负数值加28800后为实际的故障持续时长(86060,8个工作时长,每小时3600秒计算,不考虑停工的时间间隔),result1_2中为调整后的数据。

针对分别统计两条生产线每次故障的相关信息,本文进行如下 处理,具体见表 4、表 5。

根据上述解题思路,本文最终求得出各生产线每种故障一年中第 25 次发生的相关信息如表 6 所示。

表 4 M101生产线的每次故障的相关信息

月份日期开始时间故障类别持续时长(秒)
114549A2683
117668A2527

表 5 M102生产线的每次故障的相关信息

月份日期开始时间故障类别持续时长(秒)
111627A4752
117744A2462

表 6 各生产线每种故障一年中第 25 次发生的相关信息

生产线故障类别月份日期开始时间持续时长(秒)
M101A121428553248
M101A21419819672
M101A31303717865
M101A411322814887
M102A13225982581
M102A2157842384
M102A321212307737
M102A411428122625

2.4 第三小问求解

根据任务一的要求,针对第三小问:

首先,根据任务1.2得出的结果,我们用分组汇总的方法,按照生产线、月份、日期、故障类别升序排列,统计两条生产线各类故障每天发生的总次数和平均持续时长。

然后,合并图表

最后,导出excel文件’result1_3.xlsx’

根据上述解题思路,本文最终求得出各生产线每种故障一年中第 25 次发生的相关信息如表 8 所示。

表 7 各生产线各类故障每天发生的总次数和平均持续时长

生产线月份日期故障类别总次数平均持续时长(秒)
M10111A11527
M10111A27573.14
M10111A30Null
M10111A40Null
M10112A19501.22
………………………………
M1011231A40Null
M10211A10Null
………………………………

表 8 各生产线各类故障发生的总次数、平均持续时长、故障发生频率及汇总

生产线 M101故障类别 A1故障类别 A2故障类别 A****3故障类别 A****4汇总
总次数24023353198263720
平均持续时长(秒/次)474.05541.34728.65738.852482.89
发生频率(次/天)0.666.400.872.2610.19
生产线 M10****2故障类别 A1故障类别 A2故障类别 A****3故障类别 A****4汇总
总次数21722633188523650
平均持续时长(秒/次)468.88541.54727.36745.432483.21
发生频率(次/天)0.596.20.872.339.99

2.5 第四小问求解

根据任务一的要求,针对第四小问:

首先,有效工作时长是当天开机时长减去因故障停机的时长。那么只要算出当天正常运行的时间就行了。空白表示没有故障,空格一个一秒(即算出来故障类别这一列,为空值的总值既可以了),该总值就是当天的有效工作时长。

img

最后,导出数据到result1_4.xlsx中。

针对分别统计两条生产线每天的有效工作时长,本文进行如下处理,具体见表 9。

根据上述解题思路,本文最终求得出各生产线每种故障一年中第 25 次发生的相关信息如表 10 所示。

表 9 各生产线每天的有效工作时长

月份日期M101**(小时)**M102**(小时)**
112426024664
122279023264

表 10 各生产线的日平均有效工作时长

生产线日平均有效工作时长(小时/天)
M10122715.61096
M10222789.2

三、任务二:数据分析与可视化

3.1 第一小问求解

堆叠柱状图堆叠柱状图根据任务二的要求,针对第一小问,结合各月的产品总数(包含不合格产品),本文得到的两条生产线的堆叠柱状图如图 1 所示,具体数值如表11 所示。

表 11 两条生产线的产品总数数据

产品总数 月份M101产品总数M102产品总数
1月105137106186
2月9248797129
3月9904997603
4月9577294236
5月9905297526
6月9313391032
7月9610095893
8月9503595868
9月9932799810
10月102104103993
11月9937399207
12月106447108355

图 1 两条生产线的产品总数堆叠柱状图

7b0a202020202263686172745265734964223a20223230343736363538220a7d0a

3.2 第二小问求解

根据任务二的要求,针对第二小问,根据生产线每天的不合格产品数(取值范围为[0,35])和不合格率(取值范围为[0,0.9%]),分别绘制两条生产线的双 Y 轴折线图如图 2 、图 3 所示,具体数值如表12、表 13 所示。

表 12 M101 每月不合格产品总数(件)和不合格率数据

不合格产品总数 (件)和不合格 率数据 月份不合格产品总数(件)不合格率
1月780.10%
2月930.10%
3月2570.30%
4月2440.30%
5月2030.20%
6月2760.30%
7月3450.40%
8月3530.40%
9月1530.20%
10月1260.10%
11月1510.20%
12月980.10%

表 13 M102 每月不合格产品总数(件)和不合格率数据

不合格产品总数 (件)和不合格 率数据 月份不合格产品总数(件)不合格率
1月780.10%
2月930.10%
3月2570.30%
4月2440.30%
5月2030.20%
6月2760.30%
7月3450.40%
8月3530.40%
9月1530.20%
10月1260.10%
11月1510.20%
12月980.10%

图 2 M101生产线双Y轴折线

7b0a202020202263686172745265734964223a20223230343736343331220a7d0a

图 3 M102生产线双Y轴折线

7b0a202020202263686172745265734964223a20223230343639313132220a7d0a

3.3 第三小问求解

根据任务二的要求,针对第四小问,根据不同故障类别的全年发生总次数,绘制两条生产线各故障类别的占比双层环形图如图 4所示。

图 4 两条生产线各故障类别的占比双层环形图

img

3.4 第四小问求解

根据任务二的要求,针对第四小问,根据不同故障类别,以持续时长(单位:秒)为横坐标,分别绘制两条生产线全年故障发生持续时长的叠加直方图如图 5、图 6 、图7、图8 所示。

图 5 M101生产线全年故障发生持续时长的叠加直方图(1)

无标题_00

图 6 M101生产线全年故障发生持续时长的叠加直方图(2)

img

图 7 M102 生产线全年故障发生持续时长的叠加直方图(1)

img

图 8 M102 生产线全年故障发生持续时长的叠加直方图(2)

无标题_00(1)

四、任务三:数据分析与可视化

4.1影响产品合格率的因素

(一)故障类别:

分析是否存在某种故障类型与产品合格率下降之间存在关联。

统计各类故障发生频率,以及故障发生时段内的产品合格率。

不同故障对生产时间的影响可能不同,需评估故障类型和频率对产量的直接影响。

评估故障恢复时间,及其对后续生产计划的影响。

(二)推出状态、抓取状态、安装状态、检测状态:

检查设备状态为“运行中”时的产品合格率,与设备“静止”或“故障”时的合格率进行比较。

长时间运行状态可能导致设备性能下降,从而影响产品合格率。

统计设备故障恢复后的产品合格率,评估故障对合格率的长期影响。

(三)推出累计数、抓取累计数、安装累计数、检测累计数:

分析这些累计数与产品合格率的关系,是否随着累计数的增加,合格率呈下降趋势。

这可能反映出设备磨损、维护需求增加等潜在问题。

(四)合格产品累计数、不合格产品累计数:

直接比较合格与不合格产品的比例,随时间的变化趋势。

查找不合格产品增加的趋势,是否与某些设备状态或累计数增加有关。

(五)影响生产线产量的因素

推出状态、抓取状态、安装状态、检测状态:

长时间处于“静止”或“故障”状态将直接减少生产线产量。

分析各设备状态的变化,评估对生产时间的影响。

(六)时间、日期、月份:

分析产量随时间的变化趋势,如是否存在季节性变化、节假日影响等。

检查生产计划安排是否与产量波动有关。

五、数据说明

5.1附录-相关代码

img

img

img

imgimg

标签:数据分析,小问,泰迪杯,合格,故障,生产线,产品,类别,省赛
From: https://blog.csdn.net/m0_74024118/article/details/144097346

相关文章

  • 爱尔兰杀菌剂数据分析_1
    前言提醒:文章内容为方便作者自己后日复习与查阅而进行的书写与发布,其中引用内容都会使用链接表明出处(如有侵权问题,请及时联系)。其中内容多为一次书写,缺少检查与订正,如有问题或其他拓展及意见建议,欢迎评论区讨论交流。文章目录前言数据初步认识读取***“Arable_cro......
  • 【大数据分析&深度学习】在Hadoop上实现分布式深度学习
    【作者主页】FrancekChen【专栏介绍】⌈⌈⌈智能大数据分析⌋......
  • 英超联赛数据分析方法:人工智能准确预测球赛进球
    一、引言近期万众瞩目的英超联赛再度开始了,许多球迷也逐渐投身于分析英超数据的行动之中,那么有没有一种方法能够事半功倍的预测分析英超联赛呢?答案或许大家已不再陌生,那就是人工智能技术,本文将探讨人工智能技术能否准确预测英超等联赛,探究人工智能预测分析的准确率。二、算......
  • springboot毕设 食物营养数据分析系统 程序+论文
    本系统(程序+源码)带文档lw万字以上文末可获取一份本项目的java源码和数据库参考。系统程序文件列表开题报告内容研究背景随着人们生活水平的日益提高,健康饮食已成为现代人关注的焦点。食物营养数据分析作为健康饮食的重要组成部分,其准确性和便捷性直接关系到人们的健康管......
  • 卫浴售后工单管理:如何通过数据分析提升服务效率
    随着市场竞争的加剧,企业售后服务质量成为影响客户满意度和品牌口碑的重要因素。卫浴行业也不例外,通过数据分析优化售后服务管理,可以显著提升服务效率和客户体验。1.数据驱动的决策支持实时进度查询:通过微售后平台提供的实时进度查询功能,客服人员可以随时了解每个工单的处......
  • Python毕业设计选题:基于python的豆瓣电影数据分析可视化系统-flask+spider
    开发语言:Python框架:flaskPython版本:python3.7.7数据库:mysql5.7数据库工具:Navicat11开发软件:PyCharm系统展示系统首页个人中心管理员登录界面管理员功能界面电影管理用户管理系统管理摘要近些年来,随着科技的飞速发展,互联网的普及逐渐延伸到各行各业中,给人们生......
  • 代谢组数据分析(二十二):Zscore标准化后主成分分析(PCA)及热图展示
    禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者!文章目录介绍Z-score标准化主成分分析(PrincipalComponentAnalysis,PCA)加载R包数据下载导入数据数据预处理填补缺失值Zscore标准化PCA分析热图展示代谢物聚类簇小提琴图聚类......
  • 计算机毕业设计Hadoop+大模型在线教育大数据分析可视化 学情分析 课程推荐系统 机器学
    一、研究背景和意义“互联网+”和大数据带来了网络教育的蓬勃发展,学习分析技术和自适应学习也在近年内得到了重大突破。在线教育是互联网技术与传统教育的结合,是当前中国教育信息化发展最快的领域,而当下最迫切的是有效整合教育资源和互联网技术,推出高互动性与个性化学习的在线......
  • flask影响电影票房因素的数据分析及可视化系统 毕业设计程序源码19201
    摘 要现在电影行业飞速发展,传统影响电影票房因素的数据分析及可视化方式己经逐渐跟不上时代变化的速度。在计算机行业发达的今天,希望利用现代爬虫技术的优势,提高数据分析及可视化效率及效果。本系统采用的是 Python 语言,使用 PyCharm 这一款开发工具,综合运用了 Tkinte......
  • 探索性数据分析 (EDA) 简介
    文章目录一、介绍二、探索性数据分析(EDA)三、探索性数据分析的类型3.1单变量分析3.2双变量分析3.3多元分析四、理解EDA五、结论一、介绍探索性数据分析是研究或理解数据并提取洞察数据集以识别数据模式或主要特征的过程。EDA通常分为两种方法,即图形分析和非......