自从来到IBM CRL,Random Decision Tree (RDT)这个词几乎是我听到的频率最高的一个词。一直都没有机会来好好了解一下这个模型,这次借着参加Yahoo! LTR 比赛的机会,研究了一下这个模型,不禁感觉这个模型确实非常好。他有几个优点: 1. 参数非常少 2. 非常容易进行并行化 3. 可以实现的非常快 RDT模型是ibm watson的Wei Fan提出的,这个模型可以用来做分类,回归。不过本质上,他是一个高维空间的密度估计函数。可传统的DT不同,RDT不需要找出最好的特征,最好的分割方法,相反,它随机的找出一些特征和分割数,来生成一些随机的树,然后通过多次实验平均的方法来给出最后的预测。因为生成随机树的过程是独立的,所以并行非常容易。 目前我用这个算法来解决Yahoo! LTR的问题,效果还是很不错的。
Follow Me
Tag Cloud
accuracy algorithms blending collaborative filtering conference contest crawler data mining dataset diversity douban firefox github contest google google reader graph html IBM ideas item-based KDD2010 knn linux long tail netflixprize netflixprize2 pagerank parser personal RBM recommender system resource resys svd temporal recsys time model twithunter twitter user-based web graph yahoo youtube 推荐 生活 闲话友情链接
博客搜索
-
最近文章
功能
文章归档
- 2010 年 九月 (2)
- 2010 年 八月 (6)
- 2010 年 七月 (9)
- 2010 年 六月 (3)
- 2010 年 五月 (8)
- 2010 年 四月 (11)
- 2010 年 三月 (15)
- 2010 年 二月 (7)
- 2010 年 一月 (15)
- 2009 年 十二月 (13)
- 2009 年 十一月 (8)
- 2009 年 十月 (15)
- 2009 年 九月 (24)
- 2009 年 八月 (14)
- 2009 年 七月 (6)
- 2009 年 五月 (2)
- 2009 年 四月 (13)
- 2009 年 三月 (13)
- 2009 年 二月 (5)
- 2009 年 一月 (7)
- 2008 年 十二月 (3)
- 2008 年 十一月 (1)
- 2008 年 十月 (7)
- 2008 年 九月 (2)
- 2008 年 八月 (1)
- 2008 年 五月 (3)
- 2008 年 四月 (1)
- 2008 年 二月 (1)
- 2008 年 一月 (1)
- 2007 年 十月 (2)
- 2007 年 九月 (7)
- 2007 年 八月 (1)
- 2007 年 六月 (5)
- 2007 年 五月 (9)
- 2007 年 四月 (6)
- 2007 年 三月 (6)
- 2007 年 二月 (3)
- 2007 年 一月 (17)
- 2006 年 十二月 (14)
- 2006 年 十月 (9)
- 2006 年 九月 (1)
- 2006 年 八月 (6)
GoogleReader 共享
