?p=31930

原文出处：拓端数据部落公众号

分析师：Xiang Li

本项目目标为水泥生产关键生产数据的回归及预测（某一关键温度点的预测）。面临挑战如下所述：1.水泥行业属于流程工业，流程工业由于其自身具有化学反应较多，前后流程耦合，控制变量多，生产波动等特点，使得数据来源、数据治理及特征提取等步骤执行较为困难，因此大数据及人工智能相关背景的从业人员无法直接按照离散工业中的数据分析流程进行智能化相关应用的项目实施；2.另一方面，流程工业的从业人员本身熟稔生产工艺，但对于智能化相关技术也缺乏了解，无法将丰富的一线经验和生产数据独立转化成在线化智能化的应用。

解决方案

任务/目标

由水泥烧成系统的历史生产数据，对其中某标志性测量指标（C1旋风筒出口烟气温度）进行预测，从而能够指导一线操作人员对水泥熟料的烧成系统进行煤量和风量的合理调节。

备注：该关键测量指标仅仅为众多标志性测量指标之一，因此实际的智能生产控制其实是针对多目标的预测及结合模型的控制与优化，进行该项目是在水泥生产中开展数据分析及后续机器学习技术应用的先导任务。

数据源准备

本项目的数据来源为生产所用的DCS系统的数据。

在线DCS系统导出数据源：本项目组与某水泥厂进行了长期的合作，我根据相对应工艺，筛选出了目标温度参数对应的所有相关测量点位，在DCS系统中采集了目标点位和相关点位的2个月的生产数据，并导出到了CSV文件中以进行数据治理和特征转换；

特征转换及数据治理

采集到的生产数据不能直接用于数据分析，我结合计量点位的情况及该批数据的特性，做出了以下转换步骤（还有些预处理内容未列出）：

1.剔除非数字内容对应列：DCS数据中有一些测量点位对应的测量仪表存在故障，显示内容为非数字格式，此类数据均被剔除；

2.剔除恒定不变数据对应列：一些仪表点位的测量值早已超过量程（未及时更换新表），因此显示数据为同一值（最大示数），该类所有数据均被剔除；

3.转换时间戳数据格式：将原来CSV文件中的时间戳格式转换为python中更易处理的datetime格式；

4.删除停产对应的时间段的数据行。

数据构造

在进行了数据治理后，我整理出了如下表所示的原始数据列表（涉及点位较多，仅显示部分内容）。

图1原始数据局部内容

图2数据集概览

划分训练集和测试集

针对该月份的数据划分出前面21天的日期对应数据作为训练数据集，后10天对应数据为测试数据集。

建模

针对这一典型的单目标多输入变量的回归问题，采用了最基本的scikit-learn中的linear regression(线性回归)的方法进行模型建模。

模型训练及精度指标

采用训练集针对模型进行了训练，采用测试集进行了模型的精度验证，通过比较预测结果，得到模型的预测的标准差为0.010775，预测的平均误差为0.005065，可以认为此回归模型符合生产的需求。

采用第三组数据（来自于DCS的相邻月份的数据）进行模型的预测，最终得到的预测值和真实值的可视化结果如下图所示：

图片1.png

由上图可知，根据线性回归模型预测得到的目标温度的数值与真实值在大多数情况非常接近，在所采集的1.5个月的范围内，考虑到工况运行较为平稳，应该可以满足预测的实际需求。

应清醒的认识到，由于水泥烧成系统的生产包含的关键参数较多，且原燃料不可能一成不变，更常见的情况是原料和燃料均存在一定的波动，而反映两者的质量分析数据并未包含在本项目的数据集中，因此该项目仅仅能够作为流程工业单一参数预测的参考流程，并不能够作为普遍适用的数据模型加以推广。此外，神经网络、SVM等模型也可以作为模型预测的建模方法，非线性回归模型更适合波动工况及多变量输入的目标值预测的项目（在2019年-2020年的水泥质量预测的项目中，采用了机器学习中的多个模型进行了建模工作）。