我目前在做一些时间的分析,有一些很有趣的现象,和大家share一下。 我一直比较关心一个推荐系统的问题,就是不同系统的用户行为究竟有什么区别,而如何根据这些区别来选择合适的推荐算法来预测用户的行为 在互联网里面,有着各种各样的资源,新闻,电影,音乐,百科,博客,论坛,开源工程(sourceforge)。对于不同的资源,用户行为会因为资源的属性而发生很大的改变,而正是因为用户行为的改变,使得推荐算法很难做到通用,而是需要我们为不同的系统开发不同的推荐算法。 那么我的想法是,找到每个系统不同的参数,然后根据看这些参数来了解这个系统需要什么样的算法。 目前我想到的第一个参数是时效性。这些系统具有不同的时效性。如果我们定义一个item的生命周期为这个item在系统中存在的天数(一个item在某一天存在,是指这个item在这一天至少被1个人关注过)我画出了一个item的popularity(多少人关注过)和生命周期之间的关系曲线。 从这条曲线可以看出,一个系统的时效性和这条曲线的斜率是很相关的。 nytimes的时效性很短,他的大部分item都是在第一天被很多人关注,而后面就没有人关注了,所以即使很popular的item,他的生命周期比不popular的item也长不了太久。其次是blogspot,然后是youtube。 wiki和lastfm的斜率很接近最大理论斜率(0.5)。这说明,他们上面的popular的东西完全是因为生命周期长所以才热门。而不是因为在某天特别的火过。 在算法方面,我的发现是,itemcf特别适合于wiki和lastfm这种斜率很大的,而usercf比较适合nytimes,youtube,和blogspot 我认为这是两种不同兴趣在不同系统中起不同作用的一种表现。 如果我们要预测一个人在t时候要干什么,我们一般从两条线索来调查 1)用户在t时刻还干了什么(itemcf就是基于这个假设) 2)其他用户在t时刻干了什么(usercf就是基于这个假设) 对于新闻来说,用户自己没有太多的习惯,他们其实看的都是其他用户也看的(这一点从我们觉得google reader很好用,就可以体现出来)而对音乐来说,每个人都有自己的喜好,不太会因为别人在听什么,他就也要听什么。 当然,从上面的分析可以知道,这两条线索都是不完整的,完整的应该是综合考虑两条线索。
这是香港的chen li老师在group里面贴的一个帖子,他要我们多宣传,所以我就转载到blog里面来了。 http://groups.google.com/group/resys/browse_thread/thread/c238fb019206ae34?hl=zh-CN 这是由瑞士联邦理工大学(洛桑分校)与香港浸会大学的人机交互组合作设计的一个网络用户调查。 主要目的是研究用户对当前推荐系统的使用体验,比如推荐 产品的质量,多样性和解释能力对用户行为的影响。这项研究的成果会对推荐系统就算法开发,用户界面设计和可用性等方面作出贡献,从而提高网络用户对推荐 网站的认可度。 我们有五份丰厚的奖品,会从中国(包括香港地区)的所有参与者中随机选出。 这个调查由一组英文问题组成。根据您自身使用推荐网站的经验,您只需要10到15分钟时间回答这些问题,就有机会获奖。 我们衷心的感谢您对我们的研究 所将投入的宝贵时间和意见,并谢谢如果能将这个调查链接转发给您的朋友和同事。 以下是这个调查的链接和英文介绍。 链接是:http://grpupc1.epfl.ch/~hu/survey/survey.php?sid=2 Have you used a recommender system in the past 6 months? Will you tell us your experience with that system? By participating, you help our research group understand user experience offered by various online recommender systems. A recommender system proposes items that [...]
In recent years, many researches focus on increasing recommendation serendiptiy – how to make surprise recommendation. In my research, I find surprise recommendation is not enough, we must give reasonable explanations. This is because users need explanation to make sure your recommendation is relavant to them. In real life, we always give detail explaination when [...]
Although my interest is not only on temporal recommender system, all my published papers are about temporal recommendation. All other papers about other research areas of recommendation is rejected by reviewers. After Koren’s greate temporal recsys paper in KDD09, their are many paper about temporal recommendation in recent two years. The first researcher who is [...]
In last week, hulu put personal recommendation on homepage. The recommender system team of hulu is in Beijing. I am familiar with them and they are full of passion. In hulu, their are two types of recommendation: recommending related show and personal recommendation. Recommendation is a good way to find shows. In hulu, their are [...]
An Energy-Efficient Mobile recommender system Yong Ge*, Rutgers University; Hui Xiong, Rutgers University; Alexander Tuzhilin, Stern School of Business, New York University; Keli Xiao, Rutgers University; Marco Gruteser, Rutgers University Combining Predictions for Accurate Recommender Systems Michael Jahrer*, Commendo research & consulting; Andreas Töscher, Commendo research & consulting; Robert Legenstein, Graz University of Technology Training [...]
This paper “Anatomy of the Long Tail: Ordinary People with Extraordinary Tastes“ proves that every user has extraordinary tastes. Except for extraordinary tastes, users will also have social preferences. For example, I am a researcher on dataming, thus I will have extraordinary preference on dataming and read many article which is unknown by most of [...]
The long tail exists in all on-line systems, however long tails in different systems have difference concentration. In some systems, 50% of transactions are made on top 10% popular products while in other systems, 50% of transactions are made by top 1% popular products. We can say, firstly type of systems are less concentrated than [...]
http://glinden.blogspot.com/2006/03/early-amazon-similarities.html http://nkparimi.blogspot.com/2010/01/harry-potter-problem.html “Harry Potter”问题在2006年已经被Greg Linden提出来了,不过因为我做推荐还比较短,居然刚听说这个问题。今天Daniel Haran推荐我看了Greg Linden最新的关于google news的blog,里面提到了这个问题,我才发现这个问题对我以前发现的很多现象是一个很好的总结。 这个问题的意思是,在我们做item相似度计算以及相关item的推荐时,会出现一类非常popular的item,如果你用Collaborative Filtering,也就是共同购买行为来做推荐,会发现任何买了别的商品的人都会买这个商品。比如Harry Potter这本书很火,买了任何书的人都会买这本书,那么所有的书和这本书都会很相关,从而使得相似度的结果不够reasonable。 Greg Linden说他很好的解决了这个问题,不过没有提到他是怎么解决的,不过那篇blog的评论里有一些别的研究人员的解决方案,可以参考。
ItemCF和UserCF是推荐的两个基本算法。UserCF是很早就提出来了,ItemCF是从2001年左右开始流行,从amazon的文章开始,大家都觉得ItemCF好。但是,所有的文章说ItemCF好,都是从复杂度的角度说的,主要是user数大大超过item数,所以算item的相似度比较快速。(比如Netflix数据有40W用户,但只有1.7W电影,计算用户相似度代价是很大的)。不过这个原因始终不能让我觉得信服,因为在有些推荐中,比如文章,新闻的推荐,item数也是很多的,所以单从复杂度的角度,这两个算法在不同的系统中各有优势。 不过最近意识到,ItemCF的优点有两个。在一个非SNS的网站,相关Item本身是很重要的推荐,甚至比对user的推荐更重要。比如在youtube,但你看一个视频的时候,他会告诉你相关的视频。这个推荐的重要性远远超过了youtube首页对用户的综合推荐。在这里,itemCF的相似度成为了用户浏览的重要手段。另一个优点是ItemCF便于做推荐解释,在一个非SNS的网站中,我给你推荐一本书,如果给你的解释是某某和你有相似兴趣的人也看了这本书,你可能不相信因为你不认识那个人。但如果我说是因为这本书和你以前看的某本书相似,你可能就觉得合理了。 当然UserCF也不是一无是处,特别是现在SNS网站的流行,然UserCF又重要了起来,UserCF加上社会网络信息,可以增加用户对推荐解释的信服程度。