

1. 背景介绍
1.1业务场景算法背景
兜底机制的赛马模型,通过强化学习兼顾素材的探索与利用; 利用T+1数据的个性化模型,将用户兴趣捕捉并针对性推荐。
平台每天聚拢大量的数据,依靠推荐系统,将用户感兴趣的素材按得分依次展出,素材匹配合图模板及商品池(若有)返回得分最高者进行展示。 用户对推荐素材产生的点击、互动行为等多种形式的反馈,一方面用于推荐系统的模型训练,另一方面会被各BU的素材创作者感知,影响着创作者的积极性和创作内容的质量。

图1 首焦生态系统
1.2基于深度学习的推荐模型
2. 首焦推荐模型的迭代演进之路
2.1 第一阶段:基于 DCN-mix 的单目标模型
2.1.1 模型介绍

图2 The Deep & Cross Network
模型基本结构分为串行与并行,如图3所示,但结构优异只与数据集有关,就首焦场景而言,串行结构更为优势。模型上线后,收益显著。

图3 Visualization of DCN-V2
2.1.2 优化思路
兼顾转化 光有点击是无法衡量短期价值的,因此提升 uv 价值则是业务在当时提出的需求。由于点击首焦后的落地页为活动会场,而用户在会场对具体商品的兴趣受限于线上框架是感知不到的,因此在初期,实现曝光-点击-转化的多目标模型不在考虑范围内,而是结合现有的框架,采用线上素材的实时销售额作为素材的转化权重平滑后与预估 ctr 相乘,最终作为排序得分。如公式1所示,其中平滑采用log形式,底数1.8是通过分析销售额分布,利用分位线得出,既保证ctr得分的主导,又不至于被销售额得分平滑后过度压缩,导致无法区别素材之间的价值。 (1) 此一举动简单却效果显著,在 ctr 指标上不仅比纯 ctr 模型相对提升4%,在uv价值上也显著提升22.2%。 sample weight 去提升样本权重 感知用户在会场的活动实则是想感知用户对此素材是否真实感兴趣,如果不能直接感知用户在会场的活动,那么是否可以通过一定手段去侧面反映呢?答案是肯定的,用户在落地页的停留时长就可以很好地反映用户对此素材的感兴趣程度。通过分析停留时长的数据分布,进行一定平滑后做 sample weight ,最终在点击率获得2.49%,转化率获得11.11%的相对提升。 sample weight 的思想很简单,在此不再赘述,唯一需要注意的是曝光未点击的样本与曝光点击但停留时长低于阈值的样本的权重应该一致,否则会导致过度拟合。
2.2 第二阶段:接入BST进行动态特征捕获
2.2.1 BST建模行为序列
对于行为序列,工业界通用的做法是 Sum-pooling Mean-pooling,一般来说效果都不错。唯一的问题是,模型对所有的 target item 打分的时候,用户的 Embedding 表示都是一样的,这样只是返回了用户特征表达,没有与 target 形成联系。
BST 全名 Behavior Sequence Transformer[2],是 Transformer 结构在推荐系统的经典应用,通过 Self-attention 结构捕获历史序列 item 与 target item 的关系。由于用户的历史行为序列不尽相同,这样在对所有target item进行打分时,模型表示用户的 Embedding 都是不一样的,结构如图4所示:

2.3 第三阶段:position debias 的优化实践

图5 首焦坑位与点击率的关系
位置偏差【position bias】是推荐系统中普遍存在的问题,如图 5 所示。它是指 target 在展示页面的排序位置,及其相对广告的位置等,这种位置会影响target本身的的点击率,而模型只会认为 target 的点击率是它本身的特征,从而带来预估偏差。也就是说,这种影响跟用户的真实兴趣无关,而是跟用户的注意力、用户对广告的情绪有关。用户更愿意点击排在前面的商品,而这些商品就越容易排在前面,这样就形成了一个正反馈循环,让推荐生态恶化,形成“强者愈强、弱者愈弱”的马太效应。
目前,业界的处理位置偏差的方式主要有以下几种:
美团二跳页CTR预估 (2017)
将位置信息作为特征输入[3]:
在计算广告的历史CTR和历史CVR的时候,首先要计算出每个位置的历史平均点击率ctr_p,和历史平均下单率cvr_p,然后再计算 i 广告的每次点击和下单的时候,都根据这个item被展示的位置,计算为ctr_0/ctr_p及cvr_0/ctr_p。 在产生训练样本的时候,把展示位置作为特征放在样本里面,并且在使用模型的时候,把展示位置特征统一置为0。 缺点:训练与验证都依赖位置信息,但是在线上预测的时候,这个位置信息就没有了,特征线上线下不一致,效果不佳。 华为 PAL(2019)
单独建模 Position Bias,但预测时候还是只用 Ranking model[4]。
将用户点击 item 的概率拆分两部分,用户看到该 item的概率和看到该item后点击的概率,即:
假设用户是否看到 item ,只与 item 的位置有关;用户看到 item 后,是否点击 item,只与 item 本身有关,与位置无关。那么上述式子可以简化为:
损失函数为:
但最终没有选择华为这个模型,原因参考论坛评论整理如下:
PAL的设计和ESMM有异曲同工的地方,都是将事件拆解为两个概率事件的连乘,但是PAL的假设过强,事件的关联性没有ESMM的点击->购买这样的强关联; 第一个假设:广告是否被用户看到只跟广告位置有关,这个假设在广告场景是不合适的。因为他跟广告、以及用户的属性都有关系(广告大图、小图等)。只能说,广告是否被用户看到,广告位置是其中一个因素,打个比方,一个显示页中有大量item,人的习惯可能更会关注头和尾,而快速划过中间的一些位置。因此可以对第一个模型更精细建模解决(论文中这个模型只用了position信息); 第二个假设:用户看到广告后, 是否点击与广告位置无关。这个实际上可能是有关的。比如在一个页面,用户同时看到了位置1的广告和位置3的广告,但用户点击位置1的广告的概率更大。这其实还是position bias本身要解决的问题。 Youtube_net(2019)
与华为PAL理念基本一致,将位置信息作为模块,通过一个shallow tower(可理解为比较轻量的模型)来预测位置偏置信息,输入的特征主要是一些和位置偏置相关的特征(位置特征和上下文特征)[5]。
与PAL的区别:PAL是ctr模型与pos模型各自sigmoid之后相乘;Youtube_net是在sigmoid前,将shallow tower的输出结果加入进去。
与PAL的相同之处:在预测阶段,都不考虑shallow tower的结果。
最终选择实现了此模型,最终曝光点击率提升5.06%,曝光转化与uv价值都有不同程度的提升。

图6 浅层网路表示位置偏差
2.4 第四阶段:考虑点击效率的多目标模型
相信大家在此小节会有一点疑问,在目前多目标技术较为成熟的情况下,为什么不直接一开始就采用多目标模型来提升转化。其实这里有两点原因:
资源位本身的目标还是优化CTR,再加上轮播机制的存在,能否第一时间抓住用户眼球,吸引用户进去浏览才是流量分发的效率核心。 在电商场景,多目标往往考虑转化相关,但在资源位,好的转化素材往往是落地页的属性带来的,而在这其中,抄底促销等会场属性会带来更多转化,模型在学习中会明显占优,而严选着重打造品牌心智,重转化的模型会致使促销素材堆积资源位头部, 不利于品牌心智的传播。
素材侧:获取点击素材背后落地页商品类目特征作为这个素材的表达(直接含义是用户在这个会场都浏览商品以及类目的偏好) 用户侧:用户在每个session通过首焦进入会场后的浏览商品长度(以下称session_len),作为第二个目标优化。基于以上,构建了一个关于点击与浏览长度的多目标模型,这是一个分类与回归问题的结合。模型方面选择了目前多目标框架中比较成熟的MMoE,MMoE的优势不再具体赘述,它可以给予不同任务不同的权重,具体细节可看[6]。
第一版实验中,各项指标都明显弱于原始ctr模型。后续分析会认为是回归任务与分类任务loss量级没有在同一量级上,导致优化失败。
第二版实验中,通过调参,梯度裁剪,DWA控制权重等各种方法,使得回归与分类任务梯度收敛尽量处于同一水平,这时候ctr指标相比对照组仍旧下降,但在会场的人均浏览商品个数出现明显正向收益。但资源位的特性不允许ctr下降幅度明显,仍然想寻求“既要又要”的最佳效果。
第三版实验中,考虑换了一种思路,将session_len回归任务转化为分类任务,具体实现思路是:统计历史N天内每个素材对应落地会场的人均点击商品个数,取百分位p值作为阈值,用户每条点击样本的session_len大于阈值则为1,反之为0。这样做的好处是:
分类+回归问题转化为分类+分类问题,loss量级相近,且第二个分类问题是依赖点击的,可以构建ESMM式的依赖路径与损失函数,且不需要做复杂的权重调整实验。
每个素材的阈值不尽相同,能够很好地区别爆品素材(一般用户进来只看这一个主推品,浏览个数较少)与促销素材(品偏好相对发散,浏览个数较多)的区别。
最终在第三版实验中,取得了ctr持平,会场的人均浏览商品个数出现明显正向收益,使得点击转化率上升,最终曝光转化率上升的良好效果。
不过可惜的是,后续由于业务需求,首焦还需要承担重点商品素材的流量投放,而单品素材落地路径直接到商详页,session_len在这此类素材下值为0,单品素材在排序中处于劣势,因此回退至ctr模型,并进行了阶段五的实验。
2.5 第五阶段:BST+target Attention的 重点商品扶持
这是最近的需求,在编写此部分时实验还在进行,但已有一定收益,因此也一并分享:
业务的需求背景不便透出,但目的是所扶持的重点商品需要在首焦获得更多的曝光流量。这从本质上来说与首焦模块的算法是相矛盾的,原因有三:
单品素材只能覆盖一部分兴趣用户,因此在首焦的赛马机制中往往收益不佳,而这导致个性化模型见到的正样本数据也很少,那么个性化排序就更加往后。
模块中,活动素材的转化归因来自背后对应的整个落地页,但单品素材的归因仅是此商品在此模块的流水。从转化机会来讲,活动素材获得流水的概率远比单品素材大,最终排序也会比单品素材靠前。
扶持的商品大多以新品为主,重流量而不看短期收益,而模块以短期收益作为衡量,会对它认为“没有价值”的素材进行打压。

图7 美团Transformer行为序列建模

图8 TGIN模型
3.小结
在首焦推荐模型的迭代的第一阶段,对点击样本进行时长sample_weight, 并接入实时转化数据对线上得分做加权,有效地提升了点击与转化指标,该方法实现简单,且效果明显,但后续迭代空间不大。 在首焦推荐模型的迭代的第二阶段,引入BST对行为序列建模,第一次构造商品与素材之间的联系,并替代了用户id的表达。最终对点击与转化指标有更进一步的提升,同时由于舍弃了user_id训练Embedding,训练速度得到明显提升。 在首焦推荐模型的迭代的第三阶段,通过position debias, 缓解了推荐生态系统中的马太效应,明显提升了点击率,同时模型更好感知素材本身的潜力(而不是素材+位置),对用户的转化也有一定的提升。 在首焦推荐模型的迭代的第四阶段,考虑到用户体验,在点击模型的基础上建模了以落地页浏览商品个数作为第二个目标,构建多目标模型,并经过多次尝试,最终实现正向收益,但由于业务的变化,最终没有上线,但其中的经验可以复用到其它场景。 在首焦推荐模型的迭代的第五阶段,根据业务的需求,利用BST与 target attention的叠加效果,再次实现关键指标的提升的同时,扶持了重点单品素材的流量,为严选品牌心智的沉淀提供一定支撑。
参考文献
[1] Wang, R., Shivanna, R., Cheng, D., Jain, S., Lin, D., Hong, L., & Chi, E. (2022). DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems.
[2] Chen, Q., Zhao, H., Li, W., Huang, P., & Ou, W. (2022). Behavior Sequence Transformer for E-commerce Recommendation in Alibaba.
[3] https://tech.meituan.com/2017/05/05/mt-dsp.html
[4] (2022). Retrieved 27 July 2022, from https://www.researchgate.net/publication/335771749_PAL_a_position-bias_aware_learning_framework_for_CTR_prediction_in_live_recommender_systems
[5] Zhao Z, Hong L, Wei L, et al. Recommending what video to watch next: a multitask ranking system. RecSys. 2019: 43-51.
[6]Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts | Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. (2022). Retrieved 15 August 2022, from https://dl.acm.org/doi/10.1145/3219819.3220007
[7]Zhou G, Zhu X, Song C, et al. Deep interest network for click-through rate prediction. SIGKDD 2018: 1059-1068.
[8]https://tech.meituan.com/2020/04/16/transformer-in-meituan.html
[9]Jiang, W., Jiao, Y., Wang, Q., Liang, C., Guo, L., & Zhang, Y. et al. (2022). Triangle Graph Interest Network for Click-through Rate Prediction.






