百家号:fm的球队UID 推荐系统方向常见算法面试题6道含解析

小编 46 0

推荐系统方向常见算法面试题6道含解析

9本电子书在文末自取

1、什么是协同过滤,优缺点。

协同过滤即是通过(不同用户/物品)合作,实现信息的过滤(即筛选),是一个简单且可解释性强的方案。最常见的协同过滤的方法有UserCF和ItemCF,可以发现早期协同过滤的方法使热门的物品(或用户)具备很强的头部效应,使所有物品都与它有较大的相似度。这揭示了这一方法的天然缺陷,即对于稀疏的数据处理能力弱。

2、UserCF、ItemCF,应用场景。

UserCF:得到共现矩阵,根据共现矩阵得到所有用户两两之间的相似度,对User i取TopN个相似用户,对这TopN个用户的项目评分取加权平均,作为该用户预测评分结果。

优点:简单易用,复合直觉“兴趣相似的人喜欢的东西相似”。

缺点:用户的历史数据稀疏,找到相似用户的准确度并不是很高。UserCF不适用于正反馈较难获取的应用场景。另一方面,用户的增长是远大于Item的增长的,从这个角度来看,UserCF带来的存储压力更大。

ItemCF:得到共现矩阵,根据共现矩阵得到所有物品两两之间的相似度,对User i取正反馈物品列表,根据相似度计算出相似的TopK个物品作为推荐列表。

优点:物品相似度存储压力远小于用户相似度。复合直觉“用户喜欢某物品,应推荐相似物品”。

缺点:头部效应严重,同样不适用于处理稀疏数据。

应用场景:UserCF更适用于新闻推荐,用户能快速得知与自己兴趣相似的人最近喜欢什么,从而更趋向于新闻的及时性、热点性。ItemCF更适用于兴趣在短时间内变化较为稳定的场景,如电商推荐,用户倾向于在短时间内寻找一类商品,此时利用物品相似度时更符合用户动机的。由于UserCF与ItemCF这两种不同的特性,可以作为多路召回策略。

3、user/item冷启动怎么解决?

user冷启动:基于规则的冷启动(如热度、最高评分);基于模型的冷启动(收集必要的用户属性信息进行建模);主动学习方案的冷启动(用户自由选择/反馈);基于迁移学习的冷启动(合理利用其它领域/来源的信息)。

item冷启动:采用随机分发资源获取用户反馈信息;基于重要属性的冷启动(如同一作者/系列等);设置“最新”排序列表获取用户反馈信息。

4、推荐系统中常见的Embedding方法有哪些?

word2vec是最经典的词向量embedding方式,基于word2vec思想,item2vec使用item向量代替词向量。这类方法无法处理网络化的数据,于是出现了大量Graph Embedding技术。

DeepWalk使用用户行为序列构建物品关系图,然后通过随机游走生成新的序列数据,继而通过word2vec训练。DeepWalk可以看做序列embedding到Graph embedding的过度方法。

Node2vec核心思想在于同质性与结构性的权衡。同质性指的图中距离近的节点应该尽量相似(倾向于DFS),结构性指图中节点所处结构位置相似的应该尽量相似(倾向于BFS)。Node2vec设置了跳转概率,使当前游走过程可能朝着更深的方向(同质性),或是返回之前的方向(结构性)。

EGES(基于边信息的增强图Embedding)引入边信息作为物品embedding的补充信息,边信息可以是基于知识图谱获得的信息(这类信息包括特征信息)。EGES的方法是对Item及其特征一起进行embedding建模,最终得到的单个Item的embedding向量是该item及其特征的加权平均。EGES对缺少历史数据的Item更为亲切。

5、fm和矩阵分解模型思想上的的异同点。

MF 是用use和item 的特征隐向量表示user 和 item 的特征,进而做相似度计算,用于item召回。

FM 是用因子分解机来做特征的二阶交叉,进而预测user 和 item 的ctr概率,可用于召回或者排序阶段。

相同点:MF可以理解为一种特殊的FM,即只有 uid 和 iid 的 FM模型,MF将这两类特征通过矩阵分解来达到 embedding 的目的。

区别:FM使用了id 之外的特征,同时FM还做了矩阵积的优化,复杂度大幅降低。

6、LR中连续特征为什么要做离散化?

1、数据角度:离散化的特征对异常数据有很强的鲁棒性;离散化特征利于进行特征交叉。

2、模型角度:当数据增加/减少时,利于模型快速迭代;离散化相当于为模型引入非线性表达;离散化特征简化了模型输入,降低过拟合风险;LR中离散化特征很容易根据权重找出bad case。

3、计算角度:稀疏向量内积计算速度快。(在计算稀疏矩阵内积时,可以根据当前值是否为0来直接输出0值,这相对于乘法计算是快很多的。)

而离散化连续值特征后同样会带来一些缺点,如下:

1、不合理的区间划分容易降低模型表达能力,构造合理的区间划分同样比较困难(需要从区间数、区间分段大小、区间内样本分布进行权衡)。

2、如果连续特征x对y有着很强的先验知识(如强线性关系),离散化后会使x的信息表达能力损失。

↓ ↓ ↓以下9本书电子版免费领,直接送 ,想要哪本评论区说声,我小窗给你↓ ↓ ↓

百家号:fm的球队UID 推荐系统方向常见算法面试题6道含解析百家号:fm的球队UID 推荐系统方向常见算法面试题6道含解析

《2022年Q3最新大厂面试题》电子书,部分截图如下:

百家号:fm的球队UID 推荐系统方向常见算法面试题6道含解析

周杰伦暗黑三部曲之一,难得传唱至今的快歌

听jay听得久的大都知道,他有三首歌常被归类到一起去,就是《夜曲》、《以父之名》、《夜的第七章》。这三首歌在整体的词曲创作,mv拍摄,产品制作上体现出了超高于同期作品的艺术性,独特性。百家号:fm的球队UID 推荐系统方向常见算法面试题6道含解析

这其中出自于2005年专辑《十一月的萧邦》中的主打歌《夜曲》更是以流畅的旋律,华丽奇诡的歌词随着一代人的长大而传唱至今。百家号:fm的球队UID 推荐系统方向常见算法面试题6道含解析

百家号:fm的球队UID 推荐系统方向常见算法面试题6道含解析

蒸鱼叔叔作为jay的歌迷,在刚使用某款音乐软件时就发表了《夜曲》翻唱版本,虽然一年多过去,蒸鱼叔叔从小鲜肉变成了胡茬叔,音频音质也差了很多,但相信仍然值得一听。

欢迎大家发表评论批评交流,日后会有更多好音乐,美食送给大家。

这里是音频http://kg4.qq.com/node/play?s=h2X9CRhFMnx8nhAZ&shareuid=6594998526283e8b&topsource=a0_pn201001006_z11_u79403590_l0_t1506926667__