
自2013年至2023年6月,字节跳动实验平台Libra(对外产品名为火山引擎A/B测试DataTester)已累计执行240万次A/B测试,为公司内500多个业务提供A/B测试评估和智能优化服务。
Libra平台如何一步步成长到足以支撑全公司各项业务完成在线实验、Libra团队是如何管控平台上的各类用户群体的实验行为,本文将从激励与控制两个维度探讨字节跳动Libra对平台用户的治理方法。

文| 戴蕙阳 李惠 王珂 李纪珍 发于《清华管理评论》2023年10月刊
2022年4月,全球知名咨询与研究机构弗雷斯特(Forrester)发布《火山引擎A/B测试总体经济影响白皮书》,在研究字节跳动旗下火山引擎的客户经营生产情况后发现,企业采用A/B测试后综合财务指标方面的投资回报率可达到126%,可见A/B测试对企业的赋能作用显著。
在开放火山引擎A/B测试工具给更多外部企业之前,字节内部使用A/B测试已经有近十年的时间,“抖音”“西瓜视频”等产品名称的确定都离不开A/B测试的结果,正如字节内部流行的一句话所言:“A/B测试是一种信仰。”
为了打造成熟的A/B测试产品,字节跳动成立了专门的数字实验平台Libra提供企业内部的A/B测试评估和智能优化服务,走出了一条独特的平台发展之路。
平台治理是平台创造价值的关键环节,字节跳动A/B测试产品的成功与Libra平台的有效治理息息相关。本文围绕Libra实验平台的例子具体解读数字平台的治理问题。

A/B测试是一种在线实验,指的是将线上流量随机分给原策略A和新策略B,在排除干扰的情况下,结合相关统计方法对策略B进行效果评估。换句话说,A/B测试可以比较同一目标的A、B两种方案哪种更加有效,是一种能够验证因果关系的随机对照实验。
因为结合了数字化技术,A/B测试相较于传统的“随机双盲试验”,具有低成本、大流量、传播快等特点。国外大型互联网公司从21世纪初开始陆续采用A/B测试,例如谷歌(Google)、微软(Microsoft)、脸书(Facebook)、领英(LinkedIn)、亚马逊(Amazon)等,这些公司每年都会针对数百万用户开展超过1万次的在线对照实验。
借鉴国外开展A/B测试的经验,2012年字节跳动在成立之初就引入这种实验方法进行算法迭代。
2014年2月,A/B测试成为公司内的体系化工具,形态上类似于小程序,员工改变配置即可进行实验。2016年,字节将A/B测试相关的工具进行整合并创立名为Libra的平台,取意“天秤座”,用来比喻A、B两种策略在天平两端具有同等分量,充分体现了企业想要传达的“客观”理念。
起初,Libra主要供今日头条使用,支持推荐、广告、推送等业务的迭代。从2015年到2018年,Libra不断拓展服务边界,公司的其他头条系产品如西瓜视频等也接入Libra平台开展A/B测试。
2018年,在综合考量了全公司各项业务产品对A/B测试的需求后,字节跳动加大了对A/B测试产品化的投入,Libra团队成员也开始深入对接字节内的各个业务部门,平台影响力不断扩大。抖音等产品的快速发展使Libra真正成为字节举足轻重的数字平台,甚至“抖音”这一名称也是A/B测试得到的。
公司内部成员为“抖音”原型产品起成不同的名字、使用不同的Logo在应用商店投放,综合考量用户关心度、用户吸引力、下载转化率等指标,“抖音”排名第二,因为更符合产品形态而被采纳。
近年来,字节内部使用A/B测试的频次呈指数级增长。截至2023年6月,Libra已经为公司内500多个业务提供A/B测试评估和智能优化服务,平台累计做实验超240万次,每日新增实验数量可超过4000次。
作为国内最大的以平台形式对A/B测试产品进行支持的数字实验平台,Libra整合了字节中与A/B测试相关的人才与数据资源,汇集了大量测试知识经验,为各业务部门提供数据支持服务,从而帮助字节实现了全员参与低成本试错的目标,为企业的快速迭代和创新发展提供了坚实的保障。
在Libra实验平台的支持下,字节A/B测试系列产品逐渐成熟,其功能与经验也成功输出到To B业务中,孵化出火山引擎A/B测试产品,赋能更多公司实现变革。

建立数字平台不仅需要在硬件方面具备基础的数字技术与底层架构,同时需要一套完善的平台治理体系进行用户管理。Libra作为字节跳动内部的数字实验平台,需要与企业的其他业务部门保持紧密的合作关系,充分发挥平台的支撑作用。为了确保平台发挥对业务创新与试错的促进作用,Libra团队逐渐探索出了一套多元化的数字实验平台治理手段。
● “重激励-轻控制”的企业内数字平台治理
平台是一种介于科层制和市场之间的组织形态,其所有者和使用者之间存在着弱契约化的协同关系——平台上的用户对自身的资源具有所有权,它的行为和目标并不需要完全服从于平台方,和平台方属于合作的关系。
正因为平台是既非科层制也非自由市场的中间特殊形态,平台所有者需要提供特定的治理手段协调自身与用户、用户与用户之间的共同活动,从而确保整个平台能够创造出最大化的协同价值。常见的平台包括交易平台、知识共享平台、社交平台等。
组织治理通常被分为激励和控制两个方面。在平台组织中,激励指的是采取措施鼓励更多使用者参与到平台上正确地运用平台资源,控制指的是使用规则限制平台使用者可能损害合作关系或者平台利益的行为。
常见的激励措施包括为加入平台的用户提供现金奖励、热销产品排行榜等,常见的控制措施包括在用户加入平台之前开展背景调查、设置平台准入端口费用等。

Libra作为企业内的数字平台,与一般意义的平台组织有所差异。
平台组织多指独立的平台型企业,其用户多是其他独立公司或个体,平台与用户之间是商业合作的关系。Libra虽然同样提供数据支持、信息传递等平台性服务,但是其用户和Libra同属于一家企业,有着统一的公司整体目标。
因此在激励上,Libra需要构建共创协同的平台文化氛围,鼓励所有员工积极加入平台参与实验,实现提高全公司决策科学性的平台目标;在控制上,Libra需要采取措施限定和指导用户行为的方向,避免不同用户间产生利益冲突,发挥出用户间“1+1>2”的协同作用。
本文提出Libra的激励治理包括三个方面,分别为平台功能完善、使用信息共享、外部关系打通,控制治理包括两个方面,行为控制和结果控制。因为Libra与其内部用户同属于一个企业,在企业内统一的规章制度管控下Libra无需避免用户的违规操作、处理所有权界定或收益分割等纠纷问题,而是重点鼓励更多部门加入平台开展实验,所以Libra数字实验平台整体呈现出“重激励-轻控制”的治理模式(如上图1)。激励与控制两个维度各有侧重又相辅相成,提高企业的运营效率。
接下来本文对Libra平台治理的激励与控制措施进行具体介绍。

/ 激励一:平台功能完善 /
平台功能完善强调的是不断优化与更新平台的功能,提高数字化工具的服务质量,从而帮助用户提高效率、创造收益。因为提供服务是平台最基础的属性,所以平台功能完善是吸引用户加入平台最重要的激励方式。
Libra的主要产品是A/B测试。如果业务独立开展A/B测试,员工需要学习统计模型、计算指标、手动配置实验,极大地增加了单次实验的成本。Libra搭建了实验基础架构,绘制出可视化界面,实验者只需要在平台上填写个性化信息即可轻松操作。

在Libra上开展A/B测试的流程如图2所示。
在平台上创建实验之前,业务方需要明确此次实验希望解决的问题,设计出实验可供选择的两到多种策略(策略A、策略B……),明确在实验过程中需要观测的指标有哪些、预期这些指标在实验中有怎样的变化。
然后,研发人员和产品经理要在Libra实验平台上按照标准的流程填写实验的基本信息,例如实验流量大小、实验时长、实验对象过滤条件等,配置对照组(策略A)和实验组(策略B)参数,开启同伴评审保证实验的正确配置,随后开启实验。
在实验结束后,数据分析师需要计算与分析各指标变化情况,评估新策略是否达到了预期目标、是否需要采取进一步实验措施,如延长实验时长等,并撰写分析报告以供后续使用。如果实验结果满足预期,实验团队会开启上线评审,由更多专业人士决定业务部门是否可以采纳实验结果。
此外,业务研发人员在实验结束后也可以进一步开启反转实验、父子实验等,长期监测和评估新策略的效果。平台功能也不是一成不变的,组织需要顺应数字技术的发展和市场需求的变化,快速更新平台功能以提供更完善的服务。
正如Libra研发工程师所阐述的:“Libra推出新功能的迭代速度非常快,每个月基本上都会有较大变化。这种功能迭代的来源有两个,其中以用户业务的需求为主,平台自我功能驱动为辅。”
在内部保障机制方面,Libra团队坚持每周一次个人书面汇报、每双周一次团队例行会议、每双月制定一版目标规划,打通团队成员之间的沟通渠道,保证所有人信息一致、目标统一。
在获取外部信息方面,Libra产品经理、研发人员、数据科学人员等多个角色成员均需要与用户直接沟通,定期参与业务方会议,切实了解业务部门开展实验时遇到的难题、对数据服务的新需求等等。
自动调参、配置发布、因果推断是Libra近几年推出的新功能。自动调参是将实验和优化算法结合的产品,主要针对参数较多的探索性实验,通过为用户提供完整的分析套件,帮助用户以更低的成本探索实验配置的最优参数。
配置发布是Libra打造的服务端配置管理和灰度发布平台,支持用户集中管理不同业务线、不同服务的配置参数和开关,将A/B 测试结果参数一键上线。因果推断是Libra团队近两年新推出的功能合集,提供了一系列标准范式下的评估工具,以帮助用户在各种复杂业务场景下开展准实验(quasi-experiment)研究。
/ 激励二:使用经验共享

产品介绍









