浅谈机器学习中的数据漂移问题

时间：2022-08-28 21:44:43浏览次数：67

也即在训练的时候的数据和在使用模型进行推断的时候的数据分布式不一样的，二者不是同分布的。

因为很多模型都是在线下训练好的，使用的是线下的参数和损失函数，线上abtest的时候就会发现，在production traffic上的话效果就没那么好了。于是模型在被revert的同时，还会有很多工程师开始熬夜debug;

另外一个是数据变化会使得模型性能上产生变化，性能变化就意味着赚的钱更少了，一个典型表现就是话费了很多人力物力开发的模型，上线后逐渐就不好用了，适应不了新的数据。我们可以使用简单的概率公式解释为何在没有任何的系统bug的情况下，也可能会出现数据漂移的问题。

大家在训练的时候都假设每个样本都是独立同分布，但是在实际运用的时候，往往会出现样本既不独立也不同分布的情况，不独立意味着我们采样本身就有偏差，而不同分布也意味着样本本身的分布也是在不断的变化的，总结一句话就是模型在训练时看到的，Psrc(x,y) != Ptgt(x,y)，

P(x,y)可以分解成P(x,y)=P(y|x)P(x)=P(y)P(x|y)

基本上所有的p(x,y)的变动都叫做data shift,但是依据不同的概率分布的变动呢，我们可以进一步的把data shift分成三种，第一种叫做特征漂移或者协变量漂移，他指的是Psrc(y|x)=Ptgt(x|y)不变的情况下，Psrc(x) != Ptgt(x)。

比如在训练模型时，主要用的是中年人的数据，但是在线上主要服务的用户却是青少年居多。

标签：机器,浅谈,训练,模型,Ptgt,Psrc,数据,漂移
From： https://www.cnblogs.com/Li-JT/p/16633730.html

流行的机器学习优化算法
流行的机器学习优化算法Photoby康尼施耐德on不飞溅机器学习中的优化是在给定一组输入的情况下找到正确预测的迭代过程。在每次迭代中，目标是减少预测值与实际值之......
《机器人SLAM导航核心技术与实战》第1季：第2章_C++编程范式
《机器人SLAM导航核心技术与实战》第1季：第2章_C++编程范式视频讲解【第1季】2.第2章_C++编程范式-视频讲解【第1季】2.1.第2章_C++编程范式-C++工程的组织结构-视频......
机器学习：概率图模型
1、基本概念概率图模型（probabilisticgraphicalmodel）是一类用图结构来表达各属性之间相关关系的概率模型，一般而言：图中的一个结点表示一个或一组随机变量，结点之间的边则......
《零起点Python机器学习快速入门》PDF高清版下载
《零起点Python机器学习快速入门》PDF高清版下载地址内容简介 · · · · · ·《零起点Python机器学习快速入门》采用独创的黑箱模式，MBA案例教学机......
如何通过机器学习生成游戏地形？
一、介绍我叫FranciscoMúrias，最近，我一直在探索Houdini以及机器学习在内容生成中的潜力。我在波尔图大学（葡萄牙）攻读计算机科学学士学位，在那里我学习了编程。然后，在Teessid......
浅谈数位DP
动态规划，是OI中极其重要的一环。由于它的重要性，解决问题的广泛性，它衍生出了多种多样的DP。其中，有一种特别搞人的叫做数位DP思想数位DP是通过每一位数字去递推，来统计从......
钉钉群机器人群发[ PHP ]
//secret机器人设置-加签秘钥//access_token机器人设置-Webhook带此参数//message机器人设置-关键词设置的内容需要和message一致publicfunctionuse......
机器学习1
常见的几种假设检验的实例以及对应python代码实现（包括基于图的效果展示Z检验t检验χ2检验F检验熟悉scikit-learn及其相关应用NumpyNumpy优势1.定义开源的pytho......
浅谈Python中的in，可能有你不知道的
Python中的in，没那么简单，虽然也不难https://docs.python.org/zh-cn/3.9/reference/expressions.html#membership-test-operations6.10.2成员检测运算运算符in和no......
浅谈嵌入式系统的持续集成
持续集成（ContinuousIntegration(CI)）和持续交付（ContinuousDelivery(CD)）是现代软件开发中两个非常重要的概念。集成是完成交付和部署的前置条件，实现持续交付最大的难点是如......

浅谈机器学习中的数据漂移问题

相关文章

赞助商

阅读排行