ab测试是什么,ab测试原理

ab测试是什么,ab测试原理 写在前面作为一只老产品猫,对于业务理解、用户调研、流程梳理、交互设计等,不能算得心应手,也已经形成自己的工作方法,但对于A/B测试功能设计,懂得这些远远不够。A/B测试作为一个决策工具,

A/B测试,那些查了很多资料才弄懂的问题(一)

写在前面

作为一只老产品猫,对于业务理解、用户调研、流程梳理、交互设计等,不能算得心应手,也已经形成自己的工作方法,但对于A/B测试功能设计,懂得这些远远不够。

A/B测试作为一个决策工具,知道如何科学地进行实验很重要。假设检验是用样本去推断总体,并不能保证结论的正确性,我们要知道这个工具/模型的边界在哪里,知道它的约束条件和可能存在的陷阱,在产品和数据模型设计中充分考虑这些因素,才能搭建出真正有价值的工具。

所以我记录了产品研究过程中发现的,那些对于产品经理来说晦涩难懂但又很重要的问题,作为学习总结分享。

01

什么是A/B测试

A/B测试是指把平台的流量进行均匀分组,每组投放不同方案,然后根据数据指标判断方案间是否存在显著性差异,最终进行方案决策,比如从广告图的不同配色方案中决定哪个更能吸引用户。

主要包括以下步骤:

定义问题——分析现状,提出假设。

实验设计——设计实验方案、定义评估指标、估算样本量、确定分流策略、设置投放时长。

实验投放——抽样投放,收集实验数据。

分析决策——分析效果数据,决定发布版本或调整后继续迭代测试。

02

评估指标设计

AB测试评估指标,一般会包括两类:

原则上应该保持稳定的的指标。对比实验应该在保持其它因素相同的情况下,观察某一变量对目标的影响。因此,我们要求实验组和对照组的稳定性指标不应存在显著性差异,以防止其它因素误导实验的最终决策。比如不同的广告图设计应该不影响广告栏位的曝光量。

方案效果评估指标。这是衡量方案效果提升的指标,比如广告点击率。评估指标可以有好几个,设计时要注意覆盖用户体验指标、业务转化指标等。

记住,指标的设计是主观的,因此一切数据都带有个人主观偏见,设计指标时应时刻注意指标与业务的关联,避免错误的指标导致的错误结论。

另外,统计上有显著性差异,并不能代表优化方案带来的效果提升有业务价值。

统计学家Gene V. Glass说:“统计显著性(statistical significance)是有关于结果最无聊的事情,你应该根据量化来描述结果。

不光只是指出某种治疗对人会有影响,还应当告诉人们这种影响究竟有多大。”

因此,我们可以在实验前根据业务经验确定每个效果评估指标的效应值(effect size),然后在假设检验满足显著性水平要求的情况下,进一步计算方案的效应值,判断是否在业务上有显著影响。

常用科恩公式衡量效应大小:

A/B测试,那些查了很多资料才弄懂的问题(一)

分子为分组样本均数差,分母为合并标准差。比如,对于广告效果实验,我们想观察的是用户有没有点击这个广告图片,属于两点分布,取值是0或者1,所以样本均值=(取值为1的样本数)/样本总数=点击率。

双独立样本合并标准差计算公式如下:

A/B测试,那些查了很多资料才弄懂的问题(一)

一般要求方案在统计意义上有显著性提升,且提升幅度在业务上有现实意义,才认为优化方案有价值。

A/B测试,那些查了很多资料才弄懂的问题(一)

03

样本量估计

假设检验是用样本去推断总体,因此得到的结论也不是绝对正确的,存在两类可能的错误:

弃真错误。零假设实际是成立的,但因为抽取的样本恰好让观察值落入了拒绝域,导致拒绝零假设。在假设检验中,这个概率不大于显著性水平α,所以假设检验已经充分控制了弃真错误的概率。

纳伪错误。零假设实际是不成立的,但因为抽取的样本恰好落入了接受域,导致认为零假设成立。假设检验的α越小,纳伪错误的概率β就越高,因此假设检验并没有对这个错误概率进行控制。

在α确定的情况下,为使β变小,可以增加样本量,但样本量太多又会浪费流量资源,所以我们需要科学地确定最小样本量。

统计学上,在α、β、effect size确定的情况下,可以通过下面公式求出最小样本量:

单尾实验样本量——

A/B测试,那些查了很多资料才弄懂的问题(一)

双尾实验样本量——

A/B测试,那些查了很多资料才弄懂的问题(一)

n——每组所需样本量,因为AB测试一般至少2组,所以实验所需样本量为2n

α——第一类错误概率,一般取0.05

β——第二类错误概率,一般取0.2

z——正态分布的分位数函数

σ——标准差

u1-u2——优化方案对评估指标提升值

上面的都是理论,怎么推导的我也没怎么看懂

实际应用中,不同软件、计算工具用的公式也不一样,没搞明白谁更准确,不过最终算出来的样本量其实差不多。

所以,我觉得产品经理嘛,知道公式怎么用或者用哪些工具预估样本量就可以了。

一般我们处理的都是比例类指标假设检验问题,下面用两个公式举例。假设目前转化率p1=30%,我们希望通过新方案转化率提升0.5%,即(p2-p1)=0.5%.设定α为0.05,β为0.2 。

公式一

A/B测试,那些查了很多资料才弄懂的问题(一)

公式二

A/B测试,那些查了很多资料才弄懂的问题(一)

计算出来的n分别是104355,104357。网上很多文章这里用的都是双尾的样本量,个人觉得这里用单尾就行,如理解有误,欢迎指正

实验前,计算出每个评估指标需要的样本量,取最大值进行测试即可。

工具上有在线计算器、R(power.prop.test)、python(statsmodels.stats.power)等。

A/B测试,那些查了很多资料才弄懂的问题(一)

04

测试执行时长

AB测试的执行时长会影响测试结论的准确性。比如,时间太短的话,可能参与测试的用户主要是产品高频用户,或者进入实验的样本量不足而影响测试结论。另外,新奇效应可能导致优化方案在短期内带来好的效果,但长期影响不大;或者由于学习曲线的存在,当我们进行了一些视觉或者交互调整时,用户短时间内未适应。

AB测试时间长度并没有一个统一的标准,主要看测试的内容和目标用户的使用习惯,要与用户使用周期相匹配,覆盖多个周期才能得到足够数量且有代表性的样本,同时要注意包含工作日和节假日。

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/33482.html

(0)

相关推荐

  • 政府扶持注册公司清晰解读

    政府扶持注册公司清晰解读政府扶持注册公司知识对于投资者非常重要,这篇文章解释有关政府扶持注册公司的事情,如果您需要了解政府扶持注册公司的问题,烦请查看本篇文章。一、登记企业要的资料:登记公司必须的材料包括:1、企业名称。

    测评 2021年11月17日
  • 四种方法帮您提高呼吸道抵抗力(从个人角度如何提高呼吸道抵抗力)

    如何提升免疫力保护呼吸道?每日「345法则」:3分钟正念、4

    电商 2022年4月24日
  • 奇迹贼为什么叫奇迹贼,远古奇迹贼

    奇迹贼为什么叫奇迹贼,远古奇迹贼 在暴风城版本任务术最鼎盛的时期,各个职业都被迫“赛马”,卡组是越来越极端,天梯速度是越来越快,节奏卡组根本没有一丝的生存空间,就连以节奏著称的盗贼,都仅能依靠锁喉贼抢血才能露下脸,和

    攻略 2021年11月6日
  • 智慧校园特征(智慧校园发展趋势)

    校园o2o趋势校园o2o趋势、智慧校园里面数字化是主要趋势吗一、有哪些大学生可以创业的市场空间而且还挺大的?
    现在大学生太多了,想创业那你就要成为毕业生里面出众的那一人群!这不取决于你的学历和学校的名称。你所学习的专业也

    生活 2021年12月14日
  • 校园活动推广营销方案(校园策划活动)

    校园o2o策划目的校园o2o策划目的、如何做校园宣讲会一、如何看待校园O2O市场的前景?
    孙凌,七年校园市场从业者,对校园市场感兴趣的朋友,欢迎关注我。二、校园电商风口再起,创业者如何打开校园市场?
    中国大学生*新数据显

    生活 2021年12月20日
  • 曲意奉迎是什么意思 词语曲意奉迎是什么意思

    曲意奉迎是什么意思 词语曲意奉迎是什么意思2021-11-14 10:54:051、曲意奉迎,汉语成语,拼音是qǔ yì fèng yíng,意思是违背自己的意愿去曲从别人。2、成语出处:清·采蘅子《虫鸣漫录》:“虽曲意

    生活 2021年11月14日