【PokerStars】btest A/B Test(一)

2021年5月9日07:56:52 发表评论
摘要

A/B Test 是一个用于在线测试的常规方法,用于测试新产品或新功能。我们需要设置两组用户,一组设置为对照组,采用已有的产品或功能,另一组为实验组,采用新版产品或功能。然后,找到上述两组用户做出的不同响应,确认哪个版本的功能更好。

PokerStars亚洲版(6UPDH.COM)全球最大德州扑克平台,发牌公正,与世界玩家同台竞技
大发扑克|dafapoker|大发在线德州扑克|大发德州扑克策略网站——大发游戏导航(dfyxdh.com)
迈博myball最新网站|迈博体育官网|最好玩的体育直播观看平台——迈博体育导航(mbo388.com)
SOON88顺博|顺博官网|顺博娱乐场|顺博体育|顺博游戏网址发布页——顺博体育导航(shb388.com)

btest

AB测试介绍

什么是AB测试?

A/B Test 是一个用于在线测试的常规方法,用于测试新产品或新功能。

如何操作

我们需要设置两组用户,一组设置为对照组,采用已有的产品或功能,另一组为实验组,采用新版产品或功能。
然后,找到上述两组用户做出的不同响应,确认哪个版本的功能更好。

A/B Test 适用情况

存在明确的对照组和实验组,能够选择合适的指标评估此类改变,适合使用A/B Test。

  1. 我们可以通过A/B Test 对很大范围的事情进行测试,比如增加一些新功能,或界面中增加的内容,网站的不同外观等。
  2. 我们还可以将A/B Test用于十分复杂的改变,例如排名变动。
  3. 我们也可以针对不确定用户是否会注意到的改变进行测试,例如页面加载时间。

A/B Test 案例如下:

  1. Amazon首次开始做个性化推荐时,他们想看一下用户是否真的会购买更多商品,他们发现,由于个性化推荐,他们的收益有了显著增加。

  2. Linkedin测试了一个改变,尝试确定他们是否应显示新文章还是鼓励大家增加新联系人,这就是排名变动。

  3. 100ms的页面加载时间不是很多,但是 Google 和 Amazon 都运行了测试。Amazon 在2007年证实,每个页面增加 100ms 的延时,会导致收入降低 1%。对于Google,也得到了相似的结果。 你可以发现,平均来看,100ms 看起来并不多,但每增加 100ms 的延迟,人们查询的数量真的降低了。

这就是可以从 A/B Test中学到的东西。

A/B Test 不适用的情况

  1. A/B Test 无法真实的告诉你是否遗漏了什么东西。
    例如:亚马逊想知道页面上是否有用户需要,但是他们还没有提供的商品。这种情况没办法用 A/B Test 来寻找答案。
  2. A/B Test 不适用与测试新的体验。
    例如:某 SaaS 公司已经有了免费服务,例如有待办事项列表。他们想提供带有其他功能的高级服务,如需使用高级服务,用户需要升级,创建登录账户,并探索新的功能。
    这种情况下,也不适合用 A/B Test 来寻找答案。
  3. A/B 不适用与需要很长时间才能验证的测试。
    例如:某租房网站,想测试促进用户推荐页面给好友有没有效果,但是这个效果检验需要很长时间,可能是一周,可能是半年,一年。因为租房并不是经常发生的。这种情况也不适合。

另外,当你测试新的体验时,你当前已有的那些用户,可能会觉得改变了他们的体验,这被称为改变厌恶症;
另一种情况是,他们觉得这些都是新的,然后尝试所有东西,这被称为新奇效应。

对于不适用情况,补充技术

用户在你的网站上进行操作的日志,可以通过检查或观察分析日志,得出结论,是什么原因造成其行为的改变。
然后可能要沿着这个方向努力,然后设计实验,完成随机化和试验,进行前瞻性分析。

可以把两种技术结合来使用:
查看操作日志得出假设,运行A/B Test验证你的理论是否合理。

还有一些其他技术:

  1. 用户体验研究
  2. 焦点小组
  3. 调查
  4. 人为评价

A/B Test 可以给我们大量宽泛的定量数据,而上述技术可以给我们非常深入的定性数据作为A/B Test 的补充。

这些技术可以告诉我们该爬哪座山,也就是得出假设。

设计A/B 测试

在网络世界中,当你做 A/B 测试时,要谨记的一件事是,确定用户是否会喜欢这个新产品或新功能;
所以在进行 A/B 测试时,你的目标是设计一个合理且能够给到你可复验的结果,让你能够很好地决定是否要发布一款产品或功能。

A/B 测试的方法

一般来说,在科学领域,假设检验是确定创新的关键方法。
在A/B测试中,我们最想看到的是对照组和实验组返回一致的响应,让你能真正地决定试验的结构,确定实验组和对照组是否有很明显的行为改变。

选择和测量指标

指标的作用

选择一个或多个指标是因为我们需要,明确如何判断实验组比对照组的好坏。

在决定如何定义指标之前,我们要考虑会用这些指标来做什么。
有两种指标:

  1. 不变指标
  2. 评估指标

不变指标

用于不变量检查:这些指标在实验组和对照组中都不会更改。

例如:

  1. 如果运行一个实验组和一个对照组,对比项目总体是否相同。例如两组中用户数量是否相同;分布是否相同;是否具有可比较的各个国家的用户数量;或各个语言的用户数量;
  2. 目的:需要进行这些完整性检查,确保实验能够顺利实施。
  3. 通过这些不变指标,我们可以看到实验是否受到其他非需要因素的影响,是否会对于我们判断结果造成影响。

评估指标

用来评估实验效果的指标。通过该指标,比较实验组和对照组是否存在显著性差异,从而判断新功能是否最终被采纳。

如何对指标进行定义?

  1. 要为一个指标想出一个高级概念,也就是一句话总结,让每个人都能理解这个指标。例如“活跃用户”或“点击概率”。
  2. 确定各个细节。例如你想测定活跃用户,那你如何定义活跃?哪些事件可以算为活跃?
  3. 进行单独数据测量之后,你需要将它们总结为一个指标,有点像概括或计数,可能是一个平均值,中位数等
  4. 总结后,就得到了一个完整的指标定义,可以进行完整性检验。
  5. 最后使用一个指标时,需要考虑这个指标是否普遍适用
  6. 对于评估指标,可以没有那么完美,但是适用于整套测试,能够用来对比;

困难指标

  1. 不能直接访问他们想要的数据,不知道怎么计算;
  2. 需要太长时间

需要避免。

指标定义

定义 1(Cookie 概率):对于每个 <时间间隔>,点击的 Cookie 数量除以 Cookie 总数
定义 2(网页流量概率):<时间间隔> 内点击的网页浏览量除以网页浏览量总数
定义 3(比例):点击数除以网页浏览量总数

关于数据采集和指标定义:

  1. 在进行差异性计算之前,我们需要先弄清楚,数据采集和指标定义有没有问题;
  2. 需要将定义标准化
  3. 由于收集数据的技术很多,所以要确认使用了什么技术

需要考虑指标的敏感性和稳健性

敏感性和稳健性

  1. 能够捕捉到你所关心的更改的指标,这就是稳健性的概念。当不发生任何有趣的事情时,它不会发生太大改变
  2. 如何测量敏感性和稳健性?
    1. 使用实验或使用你已经有的实验;
      例如,在视频延迟示例中,我们可以实施一些简单的实验,我们可以提高视频的质量,在理论上,我们可以增加用户加载时间,我们可以看看你感兴趣的指标是否对这种情况做出响应
    2. 也可以使用A/A实验,看它们是否太敏感
      1. 在这个实验中,你不需要改变任何指标,只将能看到相同信息的人们进行比较,看看你的指标是否显示两者之间的差别
      2. 通过这个关键元素,你可以确保不会将一些实际上没有任何意义的东西认为是重要的
    3. 对你记录的回顾性分析
      1. 如果你没有数据,或做不了新的实验,回头看看你对你的网站做过的更改,看看你感兴趣的这些指标是否和这些更改一同发生了变化;
      2. 或者你可以只看指标历史,看看你是否能够找出主要更改的原因

如何计算指标差异性

我们需要弄清楚,是客观因素导致指标有了变化,还是改变以后让指标有了变化。例如,学习平台节假日流量会增加。

为了更严谨,我们需要为指标计算置信区间。

  1. 需要了解其分布情况
  2. 需要了解指标的方差和标准偏差

对于二项分布

  1. 标准偏差SE = sqrt(β(1-β)/ N)
  2. 置信区间宽度(误差范围)m = z*SE
  3. N越大,越趋近于正态分布

案例

对于你选择作为评估指标的每个度量,假设有5000个cookie样本访问课程概述页面的情况下,分析估计一下其标准偏差(保留4位小数)
(注:请确保搞清楚每个对应5000次页面浏览的度量需要多少分析单位。)

基准值如下:

指标 基准值
每天访问课程概述页面的独立cookie 40000
每天点击“开始试用”的独立cookie 3200
报名参加免费试用的用户数量 660
点进概率 0.08
总转化率 0.20625
留存率 0.53
净转化率 0.1093125

从上面的表格可以看出,点进概率为0.08

故5000个样本的中,每天点击“开始试用”的独立cookie为 $50000.08 = 400.0 , 5000660/40000 = 82.5 $

则总转化率的标准偏差为:
$/sqrt{(0.2063*(1-0.2063)/400)} = 0.0202324189112424 $

净转化率的标准偏差为:
$/sqrt{(0.1093*(1-0.1093)/400)} = 0.0156007620006204 $

留存率的标准偏差为:
$/sqrt{(0.53*0.47/82.5)} = 0.0549490121785091 $

计算经验方差

分析变异性和经验变异性匹配的条件是 unit of analysis = unit of diversion。(分析单元 = 转移单元)

例如参照上述数据:

  1. 总转化率的分析单位是cookie,转移单位也是cookie,故总转化率的分析变异性和经验变异性匹配;
  2. 净转化率的分析单位是cookie,转移单位也是cookie,故净转化率的分析变异性和经验变异性也匹配;
  3. 留存率的分析单位是user-id,转移单位是cookie,故留存率的分析变异性和经验变异性不匹配,根据经验计算的变异性可能会远大于分析变异性。在这种情况下,应该为留存率收集变异的经验估计。

如果分析单元和转移单元不相等的情况下,在条件允许的情况下,我们可以为指标收集变异的经验估计。

经验方差的计算方法:

  1. 使用A/A实验
    1. 一个对照组A对比另外一个对照组A,实际上用户看到的东西是没有什么改变的,意味着你观察到的所有差异,都是潜在的差异性
    2. 可以使用A/A实验实际测试指标的敏感性和合理性,如果在A/A实验中,指标的差异性较大,可能在A/B测试时,敏感性太高
    3. 所以可以用A/A实验来测试差异性
    4. 运行更多的A/A测试,会有明显的边际效益递减
    5. 一个关键的经验法则就是:标准偏差与样本量的平方根成正比
  2. 做一个规模很大的A/A实验,在统计学中有种方法叫 bootstrap(自助法),你可以将很多的样本随机地划分为一堆小样本群,然后可以对这些随机地子集进行对比

计算经验分布的好处:

  1. 健全性检查

    1. 如果你已经对置信区间完成的分析计算,你可以检查A/A测试结果是否符合你的预期,这是一种完整性检查功能
    2. 如果你检查出不符合你的预期,表明你的计算出了错,可能你对数据分布的假设是无效的
  2. 计算置信区间

    1. 如果你想要对指标分布进行假设,但是不能分析估计方差,你可以通过实证预计方差,然后用你关于分布的假设,按照之前的方式计算置信区间
    2. 如果你不想对数据做出任何假设,你可以直接从A/A测试的结果中估计置信区间
    3. 假设置信区间为95%,实际有40组值,这去掉最小值和最大值,所得的范围即为置信区间

未完待续,请查看下一篇。

6UP扑克之星官网发布页:www.6updh.com

蜗牛扑克官方网址:www.allnew366.com
天龙扑克官方网址:www.tianlongqipai.com
神扑克(Shenpoker)导航:http://www.spkdh.com

博狗最新官方网址:www.xbgwz.com

以上资讯由扑克之星亚洲版整理提供!

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: