推荐系统（二）

老李说架构之道 2021-09-18

1560

推荐系统数据分类

数据源的特征处理

问题背景：机器学习模型的输入，都需要是数值类型

特征工程：把原始特征经过筛选、转换、映射，得到可以输入给机器学习模型的数值类型；

怎样解决冷启动问题？

物品冷启动：新加入系统的物品，因缺少行为数据而无法被扩散推荐；

在注重时效性的场景是问题，比如新闻类应用

1、基于物品相似算法的U 2 I 2 I，类似功能：看了还看、相关推荐

2、抖音内容推荐算法，多级流量池机制，实质上是基于行为方法的试探

Embedding技术：

Embedding是什么东西？

直观上看，是一个数组，元素是小数数字，比如：[0.3, 0.5]因为有2个元素，也叫2维Embedding；

物理意义上，每个小数代表一个兴趣强度，比如数组第一个元素代表“喜剧”，第二个代表“动作”用户Embedding：[0.8, 0.3]，含义是这个人喜欢0.8强度的喜剧，喜欢0.3强度的动作电影Embedding：[0.4, 0.6]，含义是：这个电影0.4的强度是喜剧片，0.6的强度是动作片余弦函数([0.8, 0.3], [0.4, 0.6])就能算出来这个人喜欢这个电影的程度这是可解释的embedding但一般情况下，是用机器学习得到用户/物品的Embedding这时候每个数值没法解释代表什么“兴趣”虽然没法解释，这样的“兴趣向量”却可以大量使用也叫作latent factor、隐因子、隐含兴趣向量。

怎样使用Embedding?