Tag Archives: 闲话

最近论文写的太幸苦

sigh,写了一个月的论文,发现我真不是写论文的料。论文的作用是总结自己的工作,而我是最讨厌总结工作的,我喜欢不停的解决有挑战的问题,而很不喜欢去总结以前的工作,实在是太无聊了。 不过论文还是得写,毕业还是需要的。这次写完了,是真不想写什么论文了。最后还是要感谢IBM CRL的同行帮我修改这些文章。

模式识别,数据挖掘,机器学习的公理是什么

做了4年的模式识别,一直在思考这个领域的公里是什么?为什么我们能从数据中发现规律?我个人认为,模式识别的公理就是: 相近距离的两个样本必然具有相似的属性 也就是说,如果我们找不到合适的距离函数,或者数据集中的样本是杂乱无章的噪声,模式识别就没有用了。

多赢的推荐系统

作为一个推荐系统,一般是一个三方博弈的系统,这三方是:用户,item的所有者,推荐系统本身。一个好的推荐系统不仅要满足用户的需要,也有满足商家的需要,而同时也要使得用户使用推荐系统后所产生的新数据有利于推荐系统本身的良性发展。所以一个好的推荐系统应该是一个多赢的系统。

用户忽视了什么?What are ignored by users?

当用户浏览一个网页的时候,他将面对很多信息,有些他选择点击观看了,有些则被他忽视了。传统的日志系统只会记录他点击了什么,而不会记录他忽视了什么。但忽视也是一种信息,而对这种信息的利用无疑可以改善推荐的性能。 当然有人会争辩,忽视的原因是多样的,不一定代表用户不感兴趣。比如用户可能真的就没看见。确实这是个问题,不过通过日志系统,我们可以拿到整个网站的click graph,那么如果从页面A到B有很多人都点击了,而user u没有点击,也就是说在页面A上,u忽视了B页面的链接,那这就说明u很可能是不感兴趣,而不是没有见到B。 当然,上面提到的方法还很粗糙,如果深入的做一下,还是可以获得不少启发。 When a user view a web page, she will see many links, and choose some to view while ignore others. Traditional log system will only record which links she clicks and will not record which links she ignores. However, ignore behavior is also a type of information and it can [...]

我们兴趣爱好有模式吗?

我们以前总是号称研究用户的喜好,但我最近不断困惑,用户有喜好吗? 特别是那个item-knn,说什么我们看的东西都是和过去的东西类似的东西。这个假设有的时候对,比如我看论文的行为就是这样。但有的行为却不是。 比如我最近看Avatar了,我为什么看Avatar,Avatar是个划时代的电影,和我之前看的东西都不类似,那我为什么去看?对,因为全社会的人都说他好看,没看过Avatar会被人鄙视。这个就是社会效益,人总是会受社会影响,这也是user-knn起作用的一个例子。 但user-knn有时也会失效,比如我做了买了一本在豆瓣上非常偏的书(连个封面图都没有),这个行为应该是根据我的长期喜好。 不过我还有很多行为,我当初为什么参加Netflix?那是因为我看了推荐方面的论文。那我为什么看推荐的论文?那是因为我做搜索做不下去了。但做搜索做不下去,有很多别的可以做,我为什么单单选推荐呢?那是因为这两个领域有关系还是什么别的?我自己也无法解释。 人的行为真是太复杂了,充满了种种偶然性。能从中找到固定的模式吗?假设我们有足够的数据,数据多的就像古代皇帝的起居注那样?推荐的本质是什么?是预测吗?显然不是。如果从商业上讲,推荐的本质就是让用户多买东西,也许这么想我们就心安理得了,哈哈。 我记得有个成语叫3人成虎,现在推荐还不够强势,等哪天推荐和现在的搜索一样的强势到可以主宰用户行为的时候。比如所有的用户只能看给他推荐的东西,他没有办法找到别的东西。那时候也就是推荐的末日了吧。 不知道我今天这个blog算不算意识流,哈哈哈

2009年总结

2009年是我的本命年,这一年我是大起大落,也算是尝到了成长之痛。这一年在工作上还是比较顺利,NetflixPrize入围了,并且通过这个比赛认识了很多国内国外做推荐系统的朋友,论文也中了一篇,下半年和guwengdong组织了一个中国的推荐系统讨论组,举办了3次活动,认识了不少人。在这里先祝这些朋友们新年快乐。 不过既然是本命年,肯定不可能让我这么安安稳稳的过去。今年我算是遇到了有生以来最麻烦的困难。什么困难就不说了,反正在这个困难面前,前面的所有所谓成功都黯然失色。sigh,希望明年一切都好起来吧。希望这一切都仅仅限于本命年。也许我明天早上起来,就发现一切都好起来了。

郎咸平和推荐系统

今天看郎咸平说,有一集是关于人为什么去餐馆消费的。郎教授真是不简单,统计了餐馆评分网站上对各种类型的饭馆的平均评分和满意度。真是令我们做推荐的人汗颜啊,不知道郎教授有没有用到爬虫,不然收集数据还是挺麻烦的。 郎教授根据餐馆的档次将餐馆分成6等,然后每一等选出40家代表餐馆,然后计算用户对每一类餐馆的平均评分。然后用平均评分除以每一类餐馆的平均消费价格,得到性价比。他发现,档次越高的餐馆性价比越低,但用户对每一类餐馆的满意度都差不多。然后郎教授得出结论,餐馆的满意度不取决于他的环境,菜品,服务。 不过我从推荐系统和个性化的角度对他的结论还是不敢苟同。其实他得出的结论就是,用户对不同档次的餐馆的平均评分基本相似。我觉得这并不是说用户的满意度和餐馆的档次无关,而是不同餐馆的服务对象是不一样的。给高档餐馆打分的人群和给街头小餐馆打分的人其实不是一个人群。而且这两种人群有着非常不同的特点。 郎教授在一个1-5分的评分系统中发现,每一类餐馆的评分都在4左右。这其实说明一个问题,大部分用户只会给自己喜欢的餐馆评分。 总之,郎教授可能忽略了个性化对统计结果的影响。他可能认为一个人对所有类型的餐馆都评了分。 他的这一集节目可以在这儿观看 http://www.linkshop.com.cn/Video/viewvideo.aspx?videoid=5912 不知道大家看完对他的结论是否赞同? 我对郎教授还是很敬仰的,他的节目我很多看过。只是这个问题,不敢苟同他的结论。

今天去世的两位学者

和上次季羡林,任继愈一样,今天两位搞自然科学的学者去世了。一位是著名的中国导弹之父,钱学森,一位是生物学家贝时璋。这两位先生都在科大当过老师,作为科大的学生,对他们也是仰慕已久。

Google Social Search 体验

搜了一下xlvector,发现推荐给我的都是最近认识的做推荐系统的一帮人,结果还不错,只是不够多。下面是搜索结果 All people xlvector Roger Chen polopie@gmail.com wendong gu 周轻薄 郑昀 王元涛 zhengyun

博客受难记

这个博客一会儿能访问,一会儿不能访问,中途我也试过国产的博客,但总觉得他们的界面不适合我,太像90后小孩子的节面了,我还是喜欢简洁的,能自己控制的。所以即使这个博客在中国不能访问,我也懒的换了,我相信总有一天是能够访问的。 而且一般看我的博客的人都是会翻墙的,所以也没有换的必要,嘿嘿。昨天我也学会了怎么翻,所以又可以更新了,很爽! 我觉得有些网站封也就算了,blogspot不应该都封掉,至少像我这种谈谈技术的,一点都不黄色也不反动,sigh…