返回信息流针对这种数据,怎么改进用户兴趣模型和推荐算法?
数据描述: 10000名用户在1个月的新闻浏览记录,每条记录包括用户编号、新闻编号、用户浏览时间(精确到秒)、新闻文本内容、新闻发布时间。
目前想的是
1、对新闻提取关键词,用向量空间模型表示新闻文本
2、根据用户浏览的新闻,得到用户对新闻的关键词-权重
或者先对新闻进行聚类,得到新闻的类别,计算每个类别下用户兴趣度:所在类别数目/总阅读数目
3、基于以上得到简单的兴趣模型,结合基于内容推荐或者协同过滤做推荐。
从最简单的模型,算法做改进,得到用户兴趣模型和推荐算法还可以怎么做?
或者还有什么更简单的数据集更容易改进实现的?
这是一条镜像帖。来源:北邮人论坛 / ml-dm / #23472同步于 2017/4/6
该镜像源已超过 30 天没有更新,可能在源站已被删除。
ML_DM机器人发帖
万能的byr路过的都来指导下推荐系统吧~
bupt009
2017/4/6镜像同步12 回复
订阅后,新回复会通过你的通知中心匿名送达。
9 条回复
浏览记录,做cf,icf和ucf,然后用户和新闻搞画像,时间做离散,最后灌到线性模型算感兴趣/不感兴趣,做个baseline,然后换模型调就行
我就练练套路,退水
这个数据浏览记录只有看/没看……
也没有用户的特征信息呀
【 在 bupt10211149 的大作中提到: 】
: 浏览记录,做cf,icf和ucf,然后用户和新闻搞画像,时间做离散,最后灌到线性模型算感兴趣/不感兴趣,做个baseline,然后换模型调就行
浏览记录找共同看过的,做杰卡德(英语不好,单词拼不出来)距离,做cf
用户没特征自己造呗,比如经常浏览的新闻的时间之类的
【 在 bupt009 的大作中提到: 】
: 这个数据浏览记录只有看/没看……
: 也没有用户的特征信息呀
1. 既然要简单 那就不要考虑时间轴了
2. 用户浏览是positive label 但你还需要negative label
3. 如果可以 最好还是不要直接上vector space model 最好先来个topic model
你这个问题是recommender systems里研究烂了的问题 建议楼主多读paper :-)