百家号：fm的球队UID 推荐系统方向常见算法面试题6道含解析

小编 2024年12月27日 12:04 46 0

1、什么是协同过滤，优缺点。

协同过滤即是通过（不同用户/物品）合作，实现信息的过滤（即筛选），是一个简单且可解释性强的方案。最常见的协同过滤的方法有UserCF和ItemCF，可以发现早期协同过滤的方法使热门的物品（或用户）具备很强的头部效应，使所有物品都与它有较大的相似度。这揭示了这一方法的天然缺陷，即对于稀疏的数据处理能力弱。

2、UserCF、ItemCF，应用场景。

UserCF：得到共现矩阵，根据共现矩阵得到所有用户两两之间的相似度，对User i取TopN个相似用户，对这TopN个用户的项目评分取加权平均，作为该用户预测评分结果。

优点：简单易用，复合直觉“兴趣相似的人喜欢的东西相似”。

缺点：用户的历史数据稀疏，找到相似用户的准确度并不是很高。UserCF不适用于正反馈较难获取的应用场景。另一方面，用户的增长是远大于Item的增长的，从这个角度来看，UserCF带来的存储压力更大。

ItemCF：得到共现矩阵，根据共现矩阵得到所有物品两两之间的相似度，对User i取正反馈物品列表，根据相似度计算出相似的TopK个物品作为推荐列表。

优点：物品相似度存储压力远小于用户相似度。复合直觉“用户喜欢某物品，应推荐相似物品”。

缺点：头部效应严重，同样不适用于处理稀疏数据。

应用场景：UserCF更适用于新闻推荐，用户能快速得知与自己兴趣相似的人最近喜欢什么，从而更趋向于新闻的及时性、热点性。ItemCF更适用于兴趣在短时间内变化较为稳定的场景，如电商推荐，用户倾向于在短时间内寻找一类商品，此时利用物品相似度时更符合用户动机的。由于UserCF与ItemCF这两种不同的特性，可以作为多路召回策略。

3、user/item冷启动怎么解决？

user冷启动：基于规则的冷启动（如热度、最高评分）；基于模型的冷启动（收集必要的用户属性信息进行建模）；主动学习方案的冷启动（用户自由选择/反馈）；基于迁移学习的冷启动（合理利用其它领域/来源的信息）。

item冷启动：采用随机分发资源获取用户反馈信息；基于重要属性的冷启动（如同一作者/系列等）；设置“最新”排序列表获取用户反馈信息。

4、推荐系统中常见的Embedding方法有哪些？

word2vec是最经典的词向量embedding方式，基于word2vec思想，item2vec使用item向量代替词向量。这类方法无法处理网络化的数据，于是出现了大量Graph Embedding技术。

DeepWalk使用用户行为序列构建物品关系图，然后通过随机游走生成新的序列数据，继而通过word2vec训练。DeepWalk可以看做序列embedding到Graph embedding的过度方法。

Node2vec核心思想在于同质性与结构性的权衡。同质性指的图中距离近的节点应该尽量相似（倾向于DFS），结构性指图中节点所处结构位置相似的应该尽量相似（倾向于BFS）。Node2vec设置了跳转概率，使当前游走过程可能朝着更深的方向（同质性），或是返回之前的方向（结构性）。

EGES（基于边信息的增强图Embedding）引入边信息作为物品embedding的补充信息，边信息可以是基于知识图谱获得的信息（这类信息包括特征信息）。EGES的方法是对Item及其特征一起进行embedding建模，最终得到的单个Item的embedding向量是该item及其特征的加权平均。EGES对缺少历史数据的Item更为亲切。