Box-cox Transformation
背景
有很多时候我们需要把右偏(长尾)分布的数据进行数值变换,将其变为接近正态分布的形式,好使用统计工具。Box-cox的原理其实就是用一系列f(y;lambda)对y做变换尝试,看看哪一个变换f(lambda)能够使得Y'=f(Y)变成正态分布,越正态越好。要注意,这里的transformation是指特定的函数,要求函数是单调的,不能改变原有函数的顺序。因此,对数据也有要求,即不能是负数的,否则偶次方的变换就不能用了。
方法
白色框框里的变换才是关键,除以lambda和减1都只是简单的平移和放缩,不能改变分布的形状。图片来源
求解
百度百科里面有详细的求解过程。核心思想就是,将变换后的数据代入正态分布的公式,然后求最大似然;然后比较不同lambda的最大似然值,用最高的作为lambda的解。固定后对所有数值做统一变换。虽然最大似然的值和lambda的取值不是线性关系,但是可以采样一系列lambda,通过蒙特卡洛的方法来求解最好的lambda。
标签:Box,求解,变换,cox,正态分布,lambda From: https://www.cnblogs.com/kunrenzhilu/p/18082730