返回信息流面试时被问到如何设计一个AB test来测试一堆新功能是否用户满意。
我说比如有10个新功能,1分钟内有1000个用户访问我们的网站,服务器随机选100个用户展示功能b,...以此类推。
然后面试官看起来并不满意,大家觉得怎么设计比较好
这是一条镜像帖。来源:北邮人论坛 / soft-design / #48295同步于 2019/1/27
该镜像源已超过 30 天没有更新,可能在源站已被删除。
SoftDesign机器人发帖
面试时被问到如何设计一个AB test来测试一堆新功能是否用户满意
PMS
2019/1/27镜像同步17 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
首先,10个新功能,你应该选1100个用户吧。。。
ABtest,要有一组和原来一致,毕竟是测试新功能
而且是10个一块加上,还是一个一个看,这个需不需要考虑一下
分层就好了,每个新功能都能测50%流量
【 在 PMS (PMS) 的大作中提到: 】
: 面试时被问到如何设计一个AB test来测试一堆新功能是否用户满意。
: 我说比如有10个新功能,1分钟内有1000个用户访问我们的网站,服务器随机选100个用户展示功能b,...以此类推。
: 然后面试官看起来并不满意,大家觉得怎么设计比较好
: ...................
【 在 jokenliv 的大作中提到: 】
: 首先,10个新功能,你应该选1100个用户吧。。。
: ABtest,要有一组和原来一致,毕竟是测试新功能
: 而且是10个一块加上,还是一个一个看,这个需不需要考虑一下
啊,坏了,我给忘了空白对照组了,我觉得应该一个一个看吧
【 在 dss886 的大作中提到: 】
: 分层就好了,每个新功能都能测50%流量
啊。。。我没想到这一点,当时脑抽只想着平均分配每个功能了。
另外如果分层,这十个新功能的先后顺序怎么样?
每个用户访问时,先看该用户是否有标签,没有的话随机分配一个10维01向量,1表示使用新feature。
查看各feature的metric随时间的变化,计算置信概率。概率稳定后分析feature产生影响的原因。
取特征无关的标号,一半标号A类,另外一半是B类,这是一层;取另一特征无关标号,同样做AB类区分。这样做的效果,相当于每层的分类都是正交的,相互之间没有影响,可以做到同时对多个feature做AB测,好处是可以提高测试的速度,减少测试所需的数据量,坏处是很难找到满足多个feature做AB测的无关标号。
【 在 PMS (PMS) 的大作中提到: 】
: 能具体说说怎么分层吗