Resys China 创刊号 (beyond search)

beyond search忙活了好几个月的东西,希望大家关注。

《Resys China》,是依托于 Resys Group 并专注于推荐系统领域的一份电子杂志。
下面是创刊号的内容目录。

1. 业界新闻
2. 学术动态
* Workshop on Social Recommender Systems
* Collaborative Filtering Over Time
3. 精品推荐
* YouTube’s Quest to Suggest More
* Recommendation Systems: Increasing Profit by Long Tail
* 推荐系统五大问题
4. 系列连载
* Greg Linden,Early Amazon:The First Week
5. 精彩应用
* 开源推荐框架 DUINE 概览
6. Resys 精华帖
* 大家觉得推荐系统和长尾的关系是什么
* 基于 SNS/Lifestream 的推荐
7. 轻松一下

从这里下载:Resys China 创刊号

Post to Twitter Tweet This Post

近期推荐系统方面文章总结(非具体技术文章)

1. Recommendation Evaluation Framework, Version 1

2. Recommendation algorithm wants to show you something new

3. New Model Captures Spread of Personal Information through Social Networks
我会不断更新这个帖子,并加入评论。

Post to Twitter Tweet This Post

Random Decision Tree

自从来到IBM CRL,Random Decision Tree (RDT)这个词几乎是我听到的频率最高的一个词。一直都没有机会来好好了解一下这个模型,这次借着参加Yahoo! LTR 比赛的机会,研究了一下这个模型,不禁感觉这个模型确实非常好。他有几个优点:
1. 参数非常少
2. 非常容易进行并行化
3. 可以实现的非常快

RDT模型是ibm watson的Wei Fan提出的,这个模型可以用来做分类,回归。不过本质上,他是一个高维空间的密度估计函数。可传统的DT不同,RDT不需要找出最好的特征,最好的分割方法,相反,它随机的找出一些特征和分割数,来生成一些随机的树,然后通过多次实验平均的方法来给出最后的预测。因为生成随机树的过程是独立的,所以并行非常容易。

目前我用这个算法来解决Yahoo! LTR的问题,效果还是很不错的。

Post to Twitter Tweet This Post

提交了第一个Yahoo! Learning to Rank Challenge 的结果

主要是测试一下提交文件的格式对不对,目前就两个人提交了,所以一不小心的排在第一名。没用复杂的算法,就是随机的算了算。

Post to Twitter Tweet This Post

Computational Advertising

感谢hongliangjie同学提供的相关信息,前面我说的多赢的推荐系统和广告投放的问题非常相似,有一个专门的关键词描述这方面的问题:Computational Advertising

下面的是hongliangjie提供的一些和Computational Advertising相关的资源

http://www.stanford.edu/class/msande239/

Post to Twitter Tweet This Post

多赢的推荐系统

作为一个推荐系统,一般是一个三方博弈的系统,这三方是:用户,item的所有者,推荐系统本身。一个好的推荐系统不仅要满足用户的需要,也有满足商家的需要,而同时也要使得用户使用推荐系统后所产生的新数据有利于推荐系统本身的良性发展。所以一个好的推荐系统应该是一个多赢的系统。

Post to Twitter Tweet This Post

[Book] Monte Carlo Statistical Methods

购买地址 http://product.dangdang.com/product.aspx?product_id=20723620

这本书对蒙特卡洛方法进行了非常全面的阐述。Monte Carlo方法是现在很多方法的一个基础,比如MCMC,Gibbs Sampling等等。本人过去只对矩阵的方法比较了解,对统计概率方面的方法不是很了解,所以买了这本书补充一下自己的缺陷。

Post to Twitter Tweet This Post

用户忽视了什么?What are ignored by users?

当用户浏览一个网页的时候,他将面对很多信息,有些他选择点击观看了,有些则被他忽视了。传统的日志系统只会记录他点击了什么,而不会记录他忽视了什么。但忽视也是一种信息,而对这种信息的利用无疑可以改善推荐的性能。

当然有人会争辩,忽视的原因是多样的,不一定代表用户不感兴趣。比如用户可能真的就没看见。确实这是个问题,不过通过日志系统,我们可以拿到整个网站的click graph,那么如果从页面A到B有很多人都点击了,而user u没有点击,也就是说在页面A上,u忽视了B页面的链接,那这就说明u很可能是不感兴趣,而不是没有见到B。

当然,上面提到的方法还很粗糙,如果深入的做一下,还是可以获得不少启发。

When a user view a web page, she will see many links, and choose some to view while ignore others. Traditional log system will only record which links she clicks and will not record which links she ignores. However, ignore behavior is also a type of information and it can be used to boost recommendation quality.

Someone may argue that there are many reason of ignore. For example, the use may not see the link, so she ignore the link do not mean she dislike the link. However, there is a simple method to solve this problem. For example, if manys user visit page B when they visit page A, this means link of page B is easy to find in page A. In this situation, if a user ignore link of page B in page A, she may not interest in page B.

Post to Twitter Tweet This Post

Strings.com [Recommender System Product]

一个叫Strings.com的推荐系统,相关的介绍可以看这里
http://digital.venturebeat.com/2010/02/23/strings/

Post to Twitter Tweet This Post

Matrix Completion

最近和一个大学同学聊到矩阵方面的问题,想了解一下矩阵方面的算法这两年的发展,他向我推荐了matrix completion方面的研究。我google了一下,发现这方面的研究这几年还是很火爆。

matrix completion的问题很简单,就是如何还原一个矩阵的问题,这个在推荐系统中是个基本问题,因为推荐的研究重点就是如何还原UI矩阵。

这个问题的研究目前还在进行,个人感觉他的主要问题还是规模问题,我看到的已有的文章解决的最大规模的问题是2000维的,而且用到了10G多的内存。所以,如何将matrix completion推广到高维稀疏矩阵上是个值得研究的问题。

下面的是相关的论文

Exact Matrix Completion via Convex Optimization
Matrix Completion with Noise
Matrix Completion from Fewer Entries

还有很多大家可以到google上搜索

Post to Twitter Tweet This Post