soho办公室的角落里,有一间常年拉著窗帘的小房间。
那里是halo的“大脑”——算法实验室。
房间里没有杂乱的电线,也没有那种极客风的涂鸦。
只有四面巨大的白板,上面写满了密密麻麻的数学公式。
空气中瀰漫著一种乾燥的粉笔灰味道。
大卫·陈站在白板前,手里的粉笔已经断成了两截。
这位从普林斯顿出来的数学博士,此时正面临著他职业生涯中最大的挑战。
“不行。还是不行。”
大卫把粉笔头扔在地上,有些焦躁地抓了抓稀疏的头髮。
“数据太稀疏了。虽然我们有几百万用户,但大部分人只对自己感兴趣的那一点点东西点讚。矩阵里全是零。按照现在的线性回归模型,计算出来的推荐结果,误差率高达40%。”
“也就是说,我给一个喜欢看猫的用户推了狗的照片,他可能会觉得我在侮辱他的智商。”
顾清舟坐在旁边的椅子上,手里拿著一份数据报表。
他看著大卫,就像看著一个陷入死胡同的绝世高手。
在2007年,推荐算法还是个新鲜词。
大部分网站还在用人工编辑的方式来决定用户看什么。所谓的“个性化”,顶多就是根据你填写的性別和年龄,给你推不同的gg。
但halo要做的是——猜你喜欢。
“大卫,你把问题想复杂了。”
顾清舟站起身,走到白板前。
“你试图用一个完美的数学公式去解构人性。但人性是不完美的,是混沌的。”
他擦掉了一块复杂的矩阵运算,画了一个简单的坐標轴。
“我们不需要知道用户到底喜欢什么。我们只需要知道,他和谁像。”
“协同过滤。”
顾清舟写下了这四个字。
这是亚马逊用来卖书的逻辑。
但在社交网络里,它更有效。
“假设用户a喜欢看美女、豪车和科技新闻。用户b也喜欢看美女和豪车。”
“那么,当用户a给一张新的iphone照点了赞时,我们就可以大胆地推测——用户b也可能喜欢这张照片。”
“即使b从来没看过科技新闻。”
大卫的眼睛亮了一下,但隨即又黯淡下去:“这个理论我知道。但在海量数据下,计算量太大了。我们要实时计算几百万用户之间的相似度?伺服器会烧掉的。”