使用 PMML 实现模型融合及优化技巧

时间：2024-03-12 18:22:05浏览次数：33

在机器学习的生产环境中，我们经常需要将多个模型的预测结果进行融合，以便提高预测的准确性。这个过程通常涉及到多个模型子分的简单逻辑回归融合。虽然离线训练时我们可以直接使用sklearn的逻辑回归进行训练和调参，但在生产环境中，模型的上线往往需要使用PMML（Predictive Model Markup Language）格式。PMML不仅能够在一个文件中完成多个模型的融合，还可以输出融合后的Sigmoid打分，极大地方便了生产环境中的模型管理和使用。

使用PMML的Segmentation功能进行模型融合

通过阅读PMML文档，我们发现可以利用其Segmentation功能来实现模型的融合。在PMML文件的最外层使用Segmentation并指定multipleModelMethod为"SelectAll"，这样就可以在最终输出中包含所有内层Segment的输出。这一功能为模型融合提供了便利。

处理单模型分数缺失问题

在实际应用中，我们可能会遇到单个模型分数缺失或等于某个固定常数（例如-999，代表缺失）的情况。这时，我们希望将其视为融合失败，即不进行融合处理，直接返回一个特定的融合失败值（如-999）。为了实现这一逻辑，我们可以使用Segmentation来包裹整个回归过程，设置multipleModelMethod为selectFirst。这样，当内部的第一个Segment检测到某个模型子分等于-999时，就会选择这条路径，并最终输出-999作为融合失败的标志。

<Segmentation multipleModelMethod="selectFirst">
  <Segment id="model1SegmentInvalidInput">
    <CompoundPredicate booleanOperator="or">
      <SimplePredicate field="field1" operator="equal" value="-999"/>
      <SimplePredicate field="field2" operator="equal" value="-999"/>
    </CompoundPredicate>
    <RegressionModel modelName="InvalidInputModelmodel1" functionName="regression" targetFieldName="result">
      <MiningSchema>
        <MiningField name="field1" usageType="active"/>
        <MiningField name="field2" usageType="active"/>
        <MiningField name="result" usageType="predicted"/>
      </MiningSchema>
      <RegressionTable intercept="-999"/>
    </RegressionModel>
  </Segment>
  ...
</Segmentation>

将最终分数转换为概率值

为了将回归后的预测值通过Sigmoid函数转换为概率值，从而和线上使用的分数保持一致的量纲，我们可以在有效的回归Segment中使用normalizationMethod='logit'。这样，输出的分数就会经过Sigmoid转换，转化为概率值。

<RegressionModel functionName="regression" modelName="ValidInputModelmodel2" algorithmName="regression" normalizationMethod="logit" targetFieldName="result">
  ...
</RegressionModel>

为最终输出重新命名

为了方便调用和解析PMML文件，我们需要在文件的最后为输出统一命名。通过指定OutputField的name和对应的segmentId，我们可以清晰地标识每个输出值的来源，使得输出结果更加直观易懂。

<Output>
  <OutputField name="NewScore1" feature="predictedValue" segmentId="model1Segment"/>
  <OutputField name="NewScore2" feature="predictedValue" segmentId="model2Segment"/>
</Output>

通过以上步骤和优化技巧，我们可以高效地使用PMML实现多个模型的融合，处理单模型分数缺失问题，并将最终分数转换为概率值，同时为输出结果重新命名，以便于调用和解析。这样不仅提升了模型融合的准确性，也增强了生产环境中模型管理的便利性。

参考资料

标签：分数,输出,技巧,PMML,模型,融合,使用
From： https://www.cnblogs.com/aka-chestnut/p/18068964

TSINGSEE青犀煤矿矿井视频监控与汇聚融合管理视频监管平台建设方案
一、背景需求随着我国经济的飞速发展，煤炭作为我国的主要能源之一，其开采和利用的重要性不言而喻。然而，煤矿事故频发，不仅造成了巨大的人员伤亡和财产损失，也对社会产生了深远的负面影响。视频监控系统作为实现煤矿智能化无人开采的关键系统与煤矿安全生产的多系统协同分析预处理的关......
视频监控/云存储EasyCVR视频融合平台设备增删改操作不生效是什么原因？
国标GB28181协议EasyCVR安防平台可以提供实时远程视频监控、视频录像、录像回放与存储、告警、语音对讲、云台控制、平台级联、磁盘阵列存储、视频集中存储、云存储等丰富的视频能力，平台支持7*24小时实时高清视频监控，能同时播放多路监控视频流，视频画面1、4、9、16个可选，支持自定义......
JavaScript 高阶技巧
0x01深浅拷贝开发中经常需要拷贝（复制）一个对象，如果直接赋值，则对拷贝对象的修改会影响到源对象consto1={a:1,b:2}consto2=o1console.log(o2)//{a:1,b:2}o2.a=3console.log(o1)//{a:3,b:2}console.log(o2)//{a:3,b:2}原因在于，直......
轻松驾驭Python格式化：5个F-String实用技巧分享
F-String（格式化字符串字面值）是在Python3.6中引入的，它是一种非常强大且灵活的字符串格式化方法。它允许你在字符串中嵌入表达式，这些表达式在运行时会被求值并转换为字符串，这种特性使得F-String在编写Python代码时能够更简洁、更直观地处理字符串。本文总结了5个实用的F-String技......
Java HashMap 和 HashSet 的高效使用技巧
JavaHashMapHashMap是一种哈希表，它存储键值对。键用于查找值，就像数组中的索引一样。HashMap的优势在于它可以使用任何类型作为键，并且查找速度很快。创建HashMap//导入HashMap类importjava.util.HashMap;publicclassMain{publicstaticvoidmain(String[]a......
VBA调试技巧
我们写VBA代码的时候，很少会一次性就能通过，往往执行报错，然后找BUG这里我们就说说一些常用的VBA代码调试技巧一，代码书写上的误区1，喜欢嵌套写代码因为公式写的比较多，我们往往喜欢嵌套来书写代码比如，下面案例Subtest()Dimarrarr=Range("a1:b"&Cells(Rows.Count,1).......
9个提高代码运行效率的小技巧你知道几个？
我们写程序的目的就是使它在任何情况下都可以稳定工作。一个运行的很快但是结果错误的程序并没有任何用处。在程序开发和优化的过程中，我们必须考虑代码使用的方式，以及影响它的关键因素。通常，我们必须在程序的简洁性与它的运行速度之间做出权衡。今天我们就来聊一聊如何优化程序的......
LLM 加速技巧：Muti Query Attention
前言 MQA是19年提出的一种新的Attention机制，其能够在保证模型效果的同时加快decoder生成token的速度。在大语言模型时代被广泛使用，很多LLM都采用了MQA，如Falcon、PaLM、StarCoder等。本文转载自DeephubImba作者：FlorianJune仅用于学术分享，若侵权请联系删除欢迎关注......
Python魔法：20个让你编程事半功倍的奇淫技巧（建议收藏）
Python作为一门灵活、充满技巧的语言，有着很多奇技淫巧，今天小编就跟大家分享一下在平时工作中所积累的技巧，这里面既有语法上的技巧，也有库函数的应用，可以帮助大家在平时的工作中提升效率，规避某些错误，一起来看看吧。列表推导式字典推导式使用zip进行并行迭代使用enumerate获......
Java 日期和时间 API：实用技巧与示例 - 轻松处理日期和时间
Java用户输入（Scanner）简介Scanner类用于获取用户输入，它位于java.util包中。使用Scanner类要使用Scanner类，请执行以下步骤：导入java.util.Scanner包。创建一个Scanner对象，并将其初始化为System.in。使用Scanner对象的方法读取用户输入。示例importjava.ut......