NetflixPrize 2 officially cancelled

http://blog.netflix.com/2010/03/this-is-neil-hunt-chief-product-officer.html

还是因为隐私问题

Post to Twitter Tweet This Post

A trick of doing SVD on binary data

In github contest, some people used SVD on github data. Github data is a binary data which only contain “who watch what” data.

Most of previous reseaches about SVD are done on rating data. In netflix, many people used Funk-SVD which are trained on observed data. However, in binary data, the label of observed data is 1 while user-item pairs with label 0 are all missing values. In this way, we can not train SVD only on observed user-item pairs in binary data.

In this way, some one use classical SVD directly on binary user-item matrix. However, such method can not produce more accurate recommendations than UserKNN or ItemKNN.

I do research on binarySVD for a long time, and today I find by changing value 0 in binary user-item matrix, we can get more accurate recommendation.

In binary data, user-item matrix R are defined as:
R(u, i) = 1 if user u like item i
R(u, i) = 0 missing value

if we let R(u, i) = e if R(u, i) = 0, where e is a positive number less than 1, and then used classical SVD to factorize R, we can produce very accurate recommendation.

Another result we find is that, for sparse dataset, we shoud choose small e, for example e = 0.2, and for dense dataset, we should choose large e, for example e = 0.8. So, the best chose of e depend on the sparsity of dataset.

Post to Twitter Tweet This Post

[resys 精华帖]为什么中国没有Netflix?

自上次关于long tail的讨论后,resys group的又一个精华帖诞生了,就是关于netflix模式的讨论。

Jingjing Deng (Bruce)
近几年来,但凡美国的一些好的business model,到了国内略加修改加以运用,马上获得成功。远的如携程,如家,近的如至尊租车,开心网,均取得的高速发展并且盈利且(或)上市的目标。这次在美国发现了ZIP CAR的租车模式,正感慨呢,发现国内已经开始运用了。但是为什么Netflix,一个最简单的在线租碟模式,却不能在国内出现呢?

理由一:中国的盗版太严重。的确是,5块钱一张碟,在当前的物价下面,只是一碗小碗不加肉的兰州拉面的价格,拥有成本太低。很多人觉得买了收藏也不错,为啥要费力气去租呢。
但是我们也可以看到这样一个细分市场:
卖盗版碟的最求的是利润,必然是卖最流行的碟最赚钱。但是由于长尾效应,很多人其实有一些“特别的”喜好,这些人的需求如果能够满足,那么这个潜在的市场会很大。

理由二:邮寄成本太贵,而且国人素质太差,容易损坏盘或者不还。
的确是这样。但是Netflix在美国的环境下都能收支平衡,为啥中国还嫌弃贵呢。而且现在有信用卡了,租车的公司都不怕车被弄坏,租碟的人为啥怕碟弄坏呢。。。

理由三:热门正版碟太贵。
的确是这样。但是Netflix最赚钱的是老电影,非冷门电影的小众群体。中国也应该有这样的群体。

如果这样的话,Netflix的business model为啥在中国还没有出现呢?(豆瓣算嘛)

谷文栋
这个问题我的理解有两点:
1、需求一定是有的。起码对我来说,不说频率,但总是会看一些小众电影或者之前的老电影的,这些东西淘碟都是很困难的。
2、在国内,BT目前已经满足了我上面的这个需求。
如果国内搞一个Netflix,我自己会不会用?暂时的结论会倾向于不用。必须能有另外的点能吸引我。

Jingjing Deng
BT能满足部分人需求。能满足所有人需求不?答案是否定的。那么这部人的需求要么是没有得到解决,要么是通过其他渠道解决了。这个“其他”渠道是什么呢?

Eric.M
我第一次听到netflix,让我想到小时候,家旁边有租录像或是vcd的店,大概2块钱看一部的样子,我有个疑问,为什么现在这样的店没有了?

Sucirst Yie
并不只是小时候有,我印象很清楚的是2003年的时候,上海还几乎每一个小区附近都能找到一家类似的店,卖碟为主,兼有租赁,一张碟一般1块钱一天;

02年的时候宽带还没普及,那时候非常多的家庭还在用169之类的拨号上网,那个时候租片子买盗版碟非常盛行,我曾经跟我家附近一个店主聊过,我也看着这家店从兴盛到消亡;做租赁的时候这种小店是只能做热片新片的,通常周期只是一个月到2个月左右,所以赚的其实是个辛苦钱,要所有租的人能及时还回来,他才能保证这一个月这部片子能多租出去;后来宽带普及了,应该在03年的时候,至少我的感觉我身边已经没有谁家还没有宽带(至少也是512K吧),这之后买碟(盗版碟)的主力军就明显发生了变化,到今天来说的话,恐怕买碟的以农民工和外来务工者为主了,买盗版碟本身就是对成本敏感,既然现在网络下载能更低成本的获得,那谁还去淘盗版碟呢~~

网络获得的途径太多了,轻易没法把路统统堵死的

Gray Wang
我们家门口的超市到现在还有呢,2-3块一天。我也曾经想过能不能把这些店铺连锁起来,后来一想,太不靠谱,难度不亚于农村合作社。

Link
我觉得归根结底还是需求的问题,目前的情况是:

1. 有需求,很长尾很小众;
2. 用户的主要需求是发现这些影片,而不是租碟片或付费下载;
3. 盗版已经可以满足;

结论:

– 满足这种小众需求需要靠社区,如豆瓣,如“纪录片之家”,聚合这批志趣相投的人是关键;
– 豆瓣可以做这块,看看能不能谈下来一些小众出版物,在推荐的时候提供购买链接

谷文栋
Netflix 在美国能做起来,我觉得可能有几点:
1. 美国人的生活还是更休闲一些,需求比国内大。
2. 支付方式很成熟。
3. 物流成熟。
4. 盗版情况不像国内这么严重。
5. 有靠谱的社会诚信体系。
6. 起步的时机合适。

而这几个点在国内都是很难绕过的坎儿。
另外 Netflix 目前的主业应该也在向在线点播方式上转,这个是趋势。

南瓜 Torock. com

看看现在小区里的碟片租赁店、卖盗版的小摊都已经活不下去了。倒不是说我们的网络免费下载已经很普及了,其实那些小店的客户以前主要是年轻人为主,主要是租些新出的盗版和连续剧,这类用户现在不一定用电驴或BT,但迅雷+优酷足够满足他们了。还有一类,比如我们父母这样的中老年,他们本来租碟片的频率就很低,不足够支撑那些小店的日常运营,虽然网络他们用的不多,但是这类电影他们其实不看也无所谓。
电影发烧友的需求一定有,但太小众,而且盗版碟片的价格他们可以接受,与其租不如买,还有人开着宽带下蓝光Rip的呢,对吧。
所以在线租赁这个模式总的来说两边都不讨好。

Jie
这几点都说到点子上了。我再补充两点,价格相对低廉,影碟的效果和方便程度都比盗版好。

我就在用netflix,公司里面很多同事都有 netflix,我也经常见到有人往邮箱里面还碟。
我最早申请了20M的带宽,就是为了方便网上下载,但实际的结果是极少去BT、emule下载,选择了netflix。

我选择 netflix而不是下载,主要有几个原因:
相对低廉的费用。netflix一个月的服务费(双碟大概16$)只相当于两顿午餐,所以基本上没怎么考虑就开通了。
盗版在这边毕竟不是光彩的事情,当经济条件达到一定水平之后,并且有这个社会风气之后,就会自然尽量避免盗版。
blue ray也是我选择它的一个重要因素,只需要加两块就可以升级成blue ray,hd的效果的确很爽。
dvd里面的很多片花,是网上无法找到的。碟片形式也很适合在家庭影院里播放。
netflix可以在线点播,里面已有大量电影电视剧了,流行的和经典的也不少,而且可以在ps3和xbox360上播放,效果接近dvd。
当然,海量的片源库是最吸引人的地方。很多早期的或者不太流行的片子,网上早就很困难了。里面国语的电影虽然不多,但也够看了。
通常我今天还碟,后天就可以收到新碟,当然是免邮费的。
除了刚出来和最近热播的片子,一般都不需要等待就可以拿到。netflix的库存还是很大的,各方面的服务做的也很好。

如果选择网上下载的话,虽然每个月可以剩两顿饭钱,但查找和下载费时费空间,从电脑接电视的麻烦,对家庭影院的支持不好(经常搞不出5.1声道),下
hd太大太慢,不下hd效果不好。权衡下来,还是netflix方便。所以最后把网费降下来,开通netflix,到现在为止还很满意,只是碟太多经常没时间看 :)

notor
同意版权意识和版权保护的缺失才是最重要的问题。
如果出现一家像Netflix一样的大型连锁影碟租赁店,这家店里不得不选择出租正版光碟,否则树大招风,生意还没做起来就被告倒了。
但是国内一些小的租赁店片源本来就是盗版光碟,成本上就比要做”正规”的大型连锁店低很多,这么一挤,能活下来的都是些零铺小店。

另外,谈到冷门小众化电影(不见得真的小众化,比如某些名家黑白外语片),没有国内强大的盗版商,靠国内可怜的正版引进和粗劣的6区DVD质量,影迷朋
友们根本不可能买到或者愿意买。以我淘碟的经验,首先是买不到6区正版(大陆引进),去原来上海大自鸣钟(现在没有了,5555)这样的地方淘打口碟或
者海关缴获又流出的国外正版完全凭运气,那么你说消费者会选择什么?是D商碟,还是网上下载?选哪个都不是好事。另外,我之前贴过的Anita
Elberse的一篇验证长尾理论的文章中分析,会消费小众化商品的往往都是heavy user,也就是说以资深影迷或者碟迷居多,这部分人对于影片
质量更为挑剔,他们更可能倾向于抛弃国内”正版”却粗制滥造的6区,投向性价比更高的D商的怀抱。

谈到影片质量,D商也不是真的像想象中的那种只卖粗制滥造的5元1张,20块5张的市场热门电影的商贩。天朝这片神奇的热土上,无数传奇性的D商涌现出
来,片源渠道,视频音频组合,DVD材质,压缩灌装技术,包装设计,在一些高端D商那里,做到了一整套完整高质量的流程。因为不用付版权费,他们反倒更
有空间来关注这些内容。国内著名D商,如红龙(HL),猴王(MK),创佳(CJ),英皇,发行的D9不仅影片质量好,花絮、导评音轨、海报、包装一应
俱全,一些制作更上升到了艺术的高度。选片也不光只盯着热门片,CC和MOC这些相对小众化的大师作品他们也发的很多,大吹文艺风。偶尔还制作收藏版,
纪念版,甚至出D18的双面双层影碟来制作,令人惊艳。

所以总结一下,正是因为国内版权保护不够严格,对D商的打击不够严厉,才让这片热土上长出这么一片产业,但这片产业里也有资深的用心做的,市场口碑好占
有率高的佼佼者,质量直逼1区正版,超过大陆6区正版,甚至被再盗版的D商。所以说,国内如果影碟租赁业要发展,土壤是D商市场,根本就不是正版市场。
这样的市场环境下,要发展正规的连锁租赁店,是否可行可想而知。

不过现在互联网接入条件越来越好,D商也受到了很大冲击,很多D商已经渐渐淡出了~

谷文栋
我非常同意 Jie 上面说的这些!方便是一种很NB的商业模式,甚至比免费还NB。你让用户方便地享受到服务,用户是乐于付出一定费用的。
但这个需要天时地利,我之前提到了“netflix进入的时机很好”,在中国,我认为这个时机的到来还得有些日子,但如果有人愿意培育市场,我感觉是有得做的。

Post to Twitter Tweet This Post

模式识别,数据挖掘,机器学习的公理是什么

做了4年的模式识别,一直在思考这个领域的公里是什么?为什么我们能从数据中发现规律?我个人认为,模式识别的公理就是:

相近距离的两个样本必然具有相似的属性

也就是说,如果我们找不到合适的距离函数,或者数据集中的样本是杂乱无章的噪声,模式识别就没有用了。

Post to Twitter Tweet This Post

[大牛]PC之父C. Thacker荣获2009年图灵奖

图灵奖可是计算机界的大奖,我们做计算机的这辈子要是的个图灵奖,也就可以安歇了。所以不得不转载一下这篇文章。

2009年图灵奖授予了现代PC之父Charles Thacker,以表彰他对第一台现代个人计算机Xerox PARC Alto的先驱性设计与实现,还有在局域网(包括以太网)、多处理器工作站、窥探高速缓存一致性协议和平板PC等方面的重大发明和贡献(For the pioneering design andРrealization of the first modern personal computɥrthe Alto at Xerox PARC and seminal inventionɳ and contributions to local area networks (including the Ethernet), multiprocessor workstations, snooping cache coherence protocols, and tablet personal computers)。

原文链接

http://www.acm.org/press-room/news-releases/2010/turing-award-09/

http://news.csdn.net/a/20100310/217375.html

Post to Twitter Tweet This Post

Resys China 创刊号 (beyond search)

beyond search忙活了好几个月的东西,希望大家关注。

《Resys China》,是依托于 Resys Group 并专注于推荐系统领域的一份电子杂志。
下面是创刊号的内容目录。

1. 业界新闻
2. 学术动态
* Workshop on Social Recommender Systems
* Collaborative Filtering Over Time
3. 精品推荐
* YouTube’s Quest to Suggest More
* Recommendation Systems: Increasing Profit by Long Tail
* 推荐系统五大问题
4. 系列连载
* Greg Linden,Early Amazon:The First Week
5. 精彩应用
* 开源推荐框架 DUINE 概览
6. Resys 精华帖
* 大家觉得推荐系统和长尾的关系是什么
* 基于 SNS/Lifestream 的推荐
7. 轻松一下

从这里下载:Resys China 创刊号

Post to Twitter Tweet This Post

近期推荐系统方面文章总结(非具体技术文章)

1. Recommendation Evaluation Framework, Version 1

2. Recommendation algorithm wants to show you something new

3. New Model Captures Spread of Personal Information through Social Networks
我会不断更新这个帖子,并加入评论。

Post to Twitter Tweet This Post

Random Decision Tree

自从来到IBM CRL,Random Decision Tree (RDT)这个词几乎是我听到的频率最高的一个词。一直都没有机会来好好了解一下这个模型,这次借着参加Yahoo! LTR 比赛的机会,研究了一下这个模型,不禁感觉这个模型确实非常好。他有几个优点:
1. 参数非常少
2. 非常容易进行并行化
3. 可以实现的非常快

RDT模型是ibm watson的Wei Fan提出的,这个模型可以用来做分类,回归。不过本质上,他是一个高维空间的密度估计函数。可传统的DT不同,RDT不需要找出最好的特征,最好的分割方法,相反,它随机的找出一些特征和分割数,来生成一些随机的树,然后通过多次实验平均的方法来给出最后的预测。因为生成随机树的过程是独立的,所以并行非常容易。

目前我用这个算法来解决Yahoo! LTR的问题,效果还是很不错的。

Post to Twitter Tweet This Post

提交了第一个Yahoo! Learning to Rank Challenge 的结果

主要是测试一下提交文件的格式对不对,目前就两个人提交了,所以一不小心的排在第一名。没用复杂的算法,就是随机的算了算。

Post to Twitter Tweet This Post

Computational Advertising

感谢hongliangjie同学提供的相关信息,前面我说的多赢的推荐系统和广告投放的问题非常相似,有一个专门的关键词描述这方面的问题:Computational Advertising

下面的是hongliangjie提供的一些和Computational Advertising相关的资源

http://www.stanford.edu/class/msande239/

Post to Twitter Tweet This Post