【推荐系统】章2 利用用户行为数据#
1.用户行为数据#
用户行为数据在网页上的主要存在形式就是日志,可能包含的字段有
- uid
- itemid
- 行为类型(点击、浏览、购买)
- context(产生行为的时间、地点等)
- 行为权重(比如看视频行为的时长、打分行为的分数)
- 行为内容(比如评论行为的评论内容)
另外,这些数据大致上可以分为显性反馈行为和隐性反馈行为。显性行为就是可以明确用户是喜好的,比如购买。而多数的数据都是隐性的,比如浏览了某个网页、听了某个歌,这些行为无法判断出用户的喜好。
物品流行度的幂率分布
算法#
一般把仅仅基于用户行为数据设计的推荐算法叫做协同过滤算法。主要包括:
- 基于邻域的方法
- 基于用户的
- 基于物品的
- 隐语义模型LFM
- 基于图的随机游走算法
1.userCF#
基本想法:对于一个用户A的推荐,可以先找到与这个人相似的那些人,然后看那些人中喜欢的,而用户A没有听过的物品推荐给A。
step1: 找到相似用户,即需要定义相似度。