步骤:
1.确认改动点(只能是单一因素)
2.设计核心指标(点击率/转化率,一般分为直接值和比率值)
3.计算实验所需最少样本流量(防止影响过大)
基于大数定律(次数多了,频率就等于概率)和中心极限定律(抽样的均值和方差服从整体),前提是样本量足够大, 这个足够大是多少,公式如下:
(组间指的是预期组和对照实验组),α为犯第一类错误的概率,B为犯第二类错误的概率,其中方差计算方式为:
如果是绝对值指标:
如果是比率指标:
4.结合日活量计算实验持续周期
5.流量分层(作用是防止辛普森悖论,即分客群的表现都是a组好,但合计是b组好,这个原因是分配不均匀)(层与层之间要正交,即功能之间不能有影响,比如有些做推荐策略层,有些搞UI)
6.灰度实验(小流量,验证没有极端影响)
7.检验(显著性检验)
即分析有多大概率是由于随机因素导致这样的差异。假设改动没有效果,即B的效果不会比A好,然后通过样本测试结果推翻这个假设,。由于样本量较大(大于30),故使用Z检验,样本量小则用T检验。Z值得计算公式如下:
当其为绝对值类指标
当其为比率类指标时
加入计算出来Z=1.22,小于95%置信水平对应理论Z值1.96,则上述样本不足以得出B比A好的结论,此时应该继续实验,当样本量增大时,Z会变大,成功!
面试考点:
1、第一类错误vs第二类错误:
前者是指一个改动本来不能带来收益,但我们认为它能带来收益,后者指好产品由于统计误差导致我们误认为不能带来收益,前者更不能接受
2.统计显著=实际显著?
可能是我们选用的样本量太大导致,实际案例中会不显著
3.AB测试统计上不显著,如何判断实验收益
byday去拆指标变化情况,如果一直高于原曲线,则能上线
4、实验组高于对照组就一定能上线吗?
不一定,比如想优化页面美观度,这可能是以内容展现等待时间为代价的,因此要对所有方面综合评估才可
5.AB测试是必须的吗?因为成本很高
如果是小改动,可以设置开关来让用户选
6.隐含着的题:如果面试官问你如何衡量成效,都可以用
标签:改动,知识,abtest,检验,显著,指标,概率,样本量,相关 From: https://blog.csdn.net/m0_60792028/article/details/140681841