Tag Archives: RDT

Using basic idea from RDT to calculate User-based Recommendation with 10M users

Now, we have a problem, given 10 million users and their preference on X items, how to make recommendation for users by user-based collaborative filtering? The key step of usercf is to calculate user-user similarity. However, calculate user-user similarity between 10 million users in a 4G RAM computer is impossible. Thus, we can only use [...]

Random Decision Tree

自从来到IBM CRL,Random Decision Tree (RDT)这个词几乎是我听到的频率最高的一个词。一直都没有机会来好好了解一下这个模型,这次借着参加Yahoo! LTR 比赛的机会,研究了一下这个模型,不禁感觉这个模型确实非常好。他有几个优点: 1. 参数非常少 2. 非常容易进行并行化 3. 可以实现的非常快 RDT模型是ibm watson的Wei Fan提出的,这个模型可以用来做分类,回归。不过本质上,他是一个高维空间的密度估计函数。可传统的DT不同,RDT不需要找出最好的特征,最好的分割方法,相反,它随机的找出一些特征和分割数,来生成一些随机的树,然后通过多次实验平均的方法来给出最后的预测。因为生成随机树的过程是独立的,所以并行非常容易。 目前我用这个算法来解决Yahoo! LTR的问题,效果还是很不错的。