AB test:衡量产品功能或需求收益的有效工具
后台-插件-广告管理-内容页头部广告(手机) |
说起推荐系统,AB测试这玩意儿可是太管用了!不管是头条新闻推送,还是淘宝搜索商品,都离不开这个神器。其实,AB测试就是看看哪个版本更好使。比如我们想试下新的推荐方式,或者改改模型,或者调调某项功能啥的,就得看AB测试能不能帮咱们搞定。
说到AB测试,简单说,它就是看产品好不好。但是,像那种代码重构或者系统升级的,只要大盘数据没变差咱就满足了。毕竟,做饭这事儿,有时候不需要太美味,只希望别因为新锅把饭搞砸了。
试验层的互斥性
懂了?我们做AB测试时,两个实验得处在同一水平,否则它们的内容不能混为一谈!就是说,同样的设置要在同一层操作,这样才不会相互干扰导致结果不准。想象一下,这跟咱们在实验室做实验是一样的,每个人都需要有自己的空间来进行实验,不受他人的气味或物品影响。
统计量的计算与意义
做AB测试之前,要先分析用户数据,找出一个叫统计量的东西,再用这个东西计算P值。就像考试时分数比别人高好多就能说明自己学得好一样,如果置信区间落在了[0.356269%,3.063578%]里,证明实验版本效果更好。这不就相当于告诉我们,这样实验出来的产品就是比原来的好使!
试验数据的观察与计算
实验,基本上都要搞几天才能做完。所以我们不仅要看单日的数据情况,还要关注整个时间段内的数据变化趋势。有时候每天的结果是按某个特定标准算出来的,但多日数据显示可并不是直接相加那么简单。比如,你想了解用户平均用时多久,那就得先去除多日内的重复用户再计算平均值;其他一些指标也是同样道理,需要去重后再求平均。这就跟咱们平时记步数一样,不能光看每天走了多少,还要算算平均每天能走多少。
试验用户量的计算
要是想搞AB测试,咱们得心里有数:得招多少实验用户?比如说我们有100万用户,现在想找10万人来玩这个实验,那么就得用占总流量10%的资源去搞这个事儿。这不就是跟办个大型活动似的吗?得先看看大概会有多少人参加,然后才能做好充分准备!
功能试验的分析
做功能测试时,需要留意那个功能到底有多少人使用成不成功,还有用这个功能的人男女比例之类的小事儿。比如说,假设有1万个人尝试用到这个新功能,结果只有9千个真的用起来了,而且这9千人里面男女比例是1:3。别小瞧这些小数字,它们可是我们后面分析的关键!因为试验数据不变并不能说明功能就不好使呀。其实就像了解新产品用户反馈那样,知道大家怎么看待它,才能让产品做得更好。
试验结论的得出
搞清楚数据就能知道实验啥效果了。有人觉得好用,也有人觉得不行,就像咱平时看病,医生要根据报告给出治疗意见。
这段时间和朋友聊天,他说AB测试对推荐系统很主要!可以提升我们的推荐效果,让你们更好地享受玩耍。我就是想通过这篇文章,让大家都来关注下AB测试这个东西。
本文 融资融券杠杆炒股 原创,转载保留链接!网址:http://www.lf889.com/zmt/172.html
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。
后台-插件-广告管理-内容页尾部广告(手机) |