首页 > 其他分享 >AB测试案例

AB测试案例

时间:2023-04-10 21:22:21浏览次数:47  
标签:AB df 假设 案例 转化率 实验 测试

A/B测试案例

Data Source: https://www.kaggle.com/datasets/wangabby/ab-test-data

参考视频link: https://www.bilibili.com/video/BV1XM411x7Ha/?p=1&vd_source=8182a5a873e34eef26f6efc04f235dd5

PS:数据并非一致,且采取的所有数据而非抽样

1. 背景

​ 公司期待通过推出新页面来提升整体的转化率,希望转化率能够提高,理想为提升2%。过去的转化率估计在12%。在正式上线新页面到所有用户之前,希望通过小规模A/B用户测试,确保新页面能够达到预期效果。

2.A/B测试流程

  了解了基本的背景之后,就可以进入AB测试了。在进行AB测试之前,需要梳理一下AB测试的基本流程,以确保实验的顺利进行。AB测试的基本流程包括以下几个步骤:

  • 确定实验目标及衡量指标

    在本案例中实验目标是通过AB测试确定新落地页是否可以提升2%的转化率。衡量指标即为页面转化率

  • 设计实验方案

    设计实验的具体方案,包括实验变量(即页面的具体改动点)、实验时间、实验样本量、划分实验组和对照组等。还需要确定实验数据的收集方法和分析方式。

    【注】一般分析方式包括描述性统计、假设检验、置信区间估计、回归分析等等。在进行AB测试的时候,需要分析师根据实验的目标和具体情况选择合适的分析方法,并结合实际情况进行解读,提出合理的建议和决策。

  • 执行实验并收集数据

    按照实验方案进行实验执行,同事记录实验数据。

  • 数据分析和结果评估

    对实验数据进行分析和评估,包括对实验结果的显著性检验、效果评估等。最后给出结论和建议。

3. 设计A/B 测试实验

在A/B测试实验设计这一步,通常需要完成以下6个步骤:

  • 1、提出假设
  • 2、确定实验分组
  • 3、计算实验样本量及试验周期
  • 4、上线AB测试并收集数据
  • 5、数据分析及假设检验
  • 6、得出结论及建议

Step1:提出假设

  设计AB test实验的第一步通常是提出假设。假设是对于某个特定变化我们所期望的结果,也是后续实验的基础,我们需要在后续实验中通过数据验证这个假设是否成立。如果验证成立,我们可以将这个变化推广到全部用户。如果验证不成立,则需要继续优化这个假设或者放弃这个修改方案,以寻找更好的变化。

  在这个实验中,我们希望新页面可以提升2%的转化率,原则上我们应选择单尾检验,准确的说,应该选择右侧单尾检验,因为我们的假设是新页面的转化率要大于旧页面的转化率。但是,在本案例中,我们并不能确定新页面的性能一定比当前的页面更好。所以,这里选择双尾检验。

简单来说,可以这样辨别单尾/双尾检验:

  • 如果备择假设H1中是“≠”,则是双尾检验;
  • 如果备择假设H1中是“>”或者“≥”,则是右侧单尾检验;
  • 如果备泽假设H1中是“<”或者“≤”,则是左侧单尾检验。

此外,需要特别注意的是:想支持的结论通常放在备择假设上。所以在本案例中,原假设和备择假设分别是:

  • 原假设H0:P=P0
  • 备择假设H1:P≠P0
  • 其中,$P0$ 代表的是旧版落地页的转化率,P 代表的是新版落地页的转化率。

【补充说明】
单尾检验和双尾检验是假设检验中的两种常见常见形式。它们的区别在于对假设的方向性不同:

  • 在单尾检验中,研究者针对假设提出了明确的方向性,例如“新设计的落地页转化率比原设计高”、“将按钮颜色从灰色改为红色将导致更多的点击”……因此只检验这个方向是否具有统计显著性,被称为单侧检验。
  • 而在双尾检验中,研究者不确定假设所在的方向,例如“新设计的落地页转化率与原设计是否存在差异”、“改变页面布局会影响用户的满意度”……需要同时检验两个方向的统计显著性,被称为双侧检验。
  • 在AB测试中,一般应根据实验目的、数据分布情况和统计分析方法等因素来确定单尾检验或双尾检验。例如,如果实验的目的是验证新设计的落地页转化率是否明显高于旧设计,就可以选择单尾检验。但如果不确定两种设计是否存在差异,则应选择双尾检验。

Step2:确定实验分组

在此次AB测试中,我们分为实验组和对照组两组:

- 对照组(control组):这一组用户将看到旧版落地页

- 实验组(treatment组):这一组用户将看到新版落地页

为了后续计算每一组的转化效率,需要记录每一位参与实验的用户的购买行为,也就是说无论用户看到的是新版落地页还是旧版落地页,都需要记录这位用户最终是否购买了产品。这可以通过在网站上添加相应的追踪代码来实现:

0:代表用户在测试期间没有购买产品

1:代表用户在测试期间购买了产品

这样,后续就可以很容易地计算出每个组的均值,从而得到新旧两版落地页的转化率。

Step3:计算实验样本量、试验周期

实验样本量的确定

​ 根据大数定律和中心极限定理,样本量越大我们的估计就会越精确,但同时也意味着成本越高,所以需要知道实验所需的最小样本量是多少,在成本可控范围里,选择合适的样本量即可。

计算公式如下:
$$
N = \frac{\sigma2}{\delta2}(Z_{1-\frac{\alpha}{2}}+Z_{1-\beta})^2
$$

在这个公式当中,α 为犯第一类错误的概率,β为犯第二类错误的概率,σ代表的是样本数据的标准差,δ代表的是预期实验组和对照组两组数据的差值。一般情况下,我们会设置:

- 显著性水平:α=0.05,即在拒绝原假设之前,我们有95%的把握新版落地页的转化率比旧版落地页要高

- 统计功效:1-β,β=0.2,即表示测试检测特定效果的能力,如果该特定效果存在的话。在此案例中就是,如果新版落地页真的比旧版转换率要高,该测试有80%的概率能检测出这个状况。

import numpy as np
import pandas as pd
import scipy.stats as stats
import statsmodels.stats.api as sms
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
effect_size = sms.proportion_effectsize(0.12,0.14)
required_n = sms.NormalIndPower().solve_power(
    effect_size = effect_size,
    power = 0.8,
    alpha = 0.05
)

effect_size效果量:-0.059511

最小样本量:4433(向上取整)

试验周期

取决于日访问量,最小样本量为单一组,需要✖️2(包含对照组和实验组)

Step4:上线AB测试并收集数据

目前市面上大家熟知的大公司基本上都在做AB测试,比如:百度、阿里、腾讯、字节跳动、京东、滴滴、携程、美团等:

Step5: 对数据集处理进行假设检验

df = pd.read_csv('ab_data.csv')
# 此处略去数据探索,进行数据清洗
df.loc[df.user_id.duplicated(keep=False)].sort_values(by='user_id')
"""
查看重复的user_id的所有值
发现时间不同 切group和landing——page 不匹配
因此先筛选group和landing——page匹配的两数据集
"""
df_new=df[(df['landing_page'] == 'new_page')&(df['group'] == 'treatment')]
df_old=df[(df['landing_page'] == 'old_page')&(df['group'] == 'control')]
df = pd.concat([df_new,df_old])

检验处理后还有无重复值

df['user_id'].duplicated().sum()

结果输出1,说明还有一个重复值

df[df['user_id'].duplicated(keep=False)]

查询得到了重复user_id的行

处理方法保留最新的一条记录

df.drop(df[df.user_id.duplicated(keep='first')].index,inplace=True)

检验两个分组的样本数量

df.group.value_counts()
pd.crosstab(df['group'], df['landing_page'])

此处二组比例基本一致,差距不超过10%,暂时不需要进行比例调整,如果需要可以进行随机抽取超过最小样本量的分组

计算两个分组转化率

conversion_rates = df.groupby('group')['converted'].agg([np.mean,np.std])
conversion_rates

可以看出此时新方案的平均转换率甚至低于原有页面,但是这并不代表结果显著变小,因此我们采用的是,我们仍然需要提出假设。

在此问题中,样本数量众多,因此采用Z检验,且双尾检验。

假设检验

from statsmodels.stats.proportion import proportions_ztest, proportion_confint
control_results = df[df['group'] == 'control']['converted']
treatment_results = df[df['group'] == 'treatment']['converted']

n_con = control_results.count()
n_treat = treatment_results.count()
successes = [control_results.sum(), treatment_results.sum()]
nobs = [n_con, n_treat]
# 计算z-stat和p-value
z_stat, pval = proportions_ztest(successes, nobs=nobs)

置信区间

(lower_con, lower_treat), (upper_con, upper_treat) = proportion_confint(successes, nobs=nobs, alpha=0.05)
print(f'z statistic: {z_stat:.2f}')
print(f'p-value: {pval:.3f}')
print(f'ci 95% for control group: [{lower_con:.3f}, {upper_con:.3f}]')
print(f'ci 95% for treatment group: [{lower_treat:.3f}, {upper_treat:.3f}]')

p-val大于0.05 所以接受原假设,新旧页面对于转化率的影响并不显著。

标签:AB,df,假设,案例,转化率,实验,测试
From: https://www.cnblogs.com/shineyun/p/17304332.html

相关文章

  • 课上测试-科技政策查询系统(实现分页显示和模糊查询)
    今天的软工课上,老师给我们布置了课堂小测试,要求我们做一个简单的科技政策查询系统,具体要能实现模糊查询和分页显示。老师没有要求我们完成数据结构和树形结构分类,总体还是比较容易的。 代码请见我下一篇博客:https://www.cnblogs.com/rsy-bxf150/p/17304267.html题目要......
  • 课上测试-实现分页显示和模糊查询(代码部分)
    今天的软工课上,老师给我们布置了课堂小测试,要求我们做一个简单的科技政策查询系统,具体要能实现模糊查询和分页显示。这里展示我实现的代码。目前实现了基本功能,还有点小不完善,之后再改一改吧。Query.javapackagemain;importdao.Bean;importdatas.DB;importj......
  • 基于深度学习网络的5G通信链路信道估计算法matlab仿真
    1.算法描述        深度学习(英语:deeplearning),是一个多层神经网络是一种机器学习方法。在深度学习出现之前,由于诸如局部最优解和梯度消失之类的技术问题,没有对具有四层或更多层的深度神经网络进行充分的训练,并且其性能也不佳。但是,近年来,Hinton等人通过研究多层神经网络,......
  • m基于形态学处理和SVM的视频行人密集度分析matlab仿真
    1.算法描述       行人检测技术已经成为计算机视觉领域的关键研究方向。行人检测的最重要的任务就是对行人目标进行准确定位。行人检测技术有很强的使用价值,可以与多人跟踪、行人重识别等技术结合,应用于汽车无人驾驶系统、智能机器人、智能视频监控、人体行为分析、人流量......
  • m基于shepp-Logan模型和滤波反投影的医学图像多尺度全局重建和局部重建matlab仿真
    1.算法描述        从投影重建物体的截面图像是图像处理中非常重要的技术此技术在物体的无损伤性检测其内部缺陷的应用中能起很大作用从投影重建图像的技术早在20世纪中期就已经制成常规医疗诊断设备的商品1917年奥地利数学家J.Radon发表的论文证明了二维物体或三维物体......
  • swagger测试的使用
    pom文件的配置<!--swagger依赖--><dependency><groupId>io.springfox</groupId><artifactId>springfox-swagger2</artifactId><version>2.9.2</version></dependency><dependency><groupId......
  • MATLAB代码:综合能源系统优化模型概述及其鲁棒优化
    MATLAB代码:综合能源系统优化模型概述及其鲁棒优化主要内容:本文在分析典型冷热电联供(combinedcooling,heatandpower,CCHP)系统的基础上,并结合其他优秀lunwen加以补充模型中的不足处,并围绕该系统结构设计了微网调度优化模型构架.在该结构中,选取电气、烟气、蒸汽、......
  • labview和三菱全系列通讯方法 labview和三菱全系列通讯办法
    labview和三菱全系列通讯方法labview和三菱全系列通讯办法,和上位机读取方法。YID:9950635460966976......
  • python可视化工具——seaborn模块
    python可视化工具——seaborn模块参考Python数据可视化的完整版操作指南(建议收藏)导入模块importseabornassnssns.set()#初始化图形样式,若没有该命令,图形将具有与matplotlib相同的样式读取数据df=pd.read_csv('D:\Graduate\python_studying\datasets-master\\t......
  • 天坑,os root密码过期,导致主机crontab自动任务罢工
    告警clickhouse日志报错 访问的表不存在!明明我们设定crontab定时任务了啊,怎么没有建表呢?查看crontab定时任务及其进程运行情况crond为 active且启动在7months9daysago,但是有信息显示expiredpasswordforuserroot,任务没有如期执行原因指向root密码过期。先登......