010.试读:效率与公平,买家与卖家(第4章,第2节)

我们将围绕着搜索最关键的问题——“排序”来讲述。卖家选择淘宝,目的是为了赚钱。如何通过搜索赚钱?方法就是让自己的宝贝在搜索结果中排名靠前,获取更多流量,让更多的买家来到自己的店铺。我们熟悉的“下架时间”、“橱窗推荐”、“人气排序”、“阿基米德”等,背后都是利益的平衡、博弈的升级、思考的深入。

故事就从最早的“下架时间”排序开始。所谓按照下架时间排序,是指卖家在上传宝贝时,可以设置宝贝的下架时间(7天或14天),距离下架时间越近的宝贝,在list中的排序就越靠前。

为什么这么排,是很有时代背景的。先说个浅层次的原因——模仿eBay。2003年在淘宝创立之前,易趣在国内的C2C市场占据着绝对的领先优势,淘宝最初的交易模式也继承了eBay的传统,以拍卖为主,主要的排序因素就是下架时间。

而深层的考虑,是因为淘宝早期,最为重要的策略是“吸引和培养尽可能多的卖家”。有了卖家才有了商品,有了商品才会有买家来买。我们发现,最初几年,淘宝交易额的增长和商品数的增长是正相关的。早期的淘宝,卖家数量还不像后来这么庞大,我们希望每个卖家的商品都有曝光的机会,按下架时间排序无疑是对所有卖家最公平(程序公平)的排序规则,充分考虑了卖家之间的平衡

很快,出现了大家都能想到的缺点。这种公平,仅仅是针对卖家的。下架时间排序就像是大锅饭,绝对公平了,可是效率不高。一些卖家不思进取,开始动下架时间的心思,并且出现了一些投机取巧的工具,甚至组建了专业的重复上下架团队。另外,当时开始出现卖家作弊的现象,比如,有的卖家会发布一万件商品来恶意引流。之后,我们会看到,只要有新的规则,卖家就会想出新的对策,spam和anti-spam永远是一对好基友。

经过了2004年、2005年、2006年商品数量的剧增,按下架时间排序出来的结果变得鱼龙混杂,对于买家,越来越难以找到自己满意的商品,体验逐渐变差。

于是,我们开始把“公平vs效率”的天平向右侧倾斜,2004年年底,推出了“橱窗推荐”。

橱窗推荐是什么?简单地说,就是每个卖家都可以给自己的宝贝打上橱窗推荐的标记,在list中,有橱窗推荐的宝贝会在排序上优先展示,就像线下的街边橱窗展位一样,这些位置的商品更容易获得消费者的关注,其实这已有广告位的概念。而这些广告位,淘宝是免费的,这对于在互联网上做买卖的生意人来说,简直就是天上掉下的大馅饼。

这么做背后的道理也很简单。我们需要一种规则,把优质的商品在排序中顶上来,但当时的算法还做不到准确地判断,所以自然地想到了让卖家来帮忙判断,卖家最清楚自己的商品孰优孰劣。橱窗推荐,其实是一种机制,借助每一个卖家帮我们筛选优质商品。

具体来说,橱窗推荐里面还有卖家间的流量调节作用,其规则是针对部分卖家做政策倾斜,比如说奖励新卖家和做得特别好的卖家。一个新卖家进来,我们就给他额外奖励10个橱窗推荐宝贝,让他获得有更多流量的机会,然后有相应的机制去评估他的表现。如果三个月后,他表现不好,那我们就降低奖励的力度,把更多的流量给更合适的卖家。

通过橱窗推荐,我们有了一个宏观调控、平衡流量的工具。在淘宝初期,它起到了很好的扶持卖家和规范市场的作用。直到现在的搜索排序中,橱窗推荐仍然是一个很重要的因子。对卖家来说,原来只是和别人竞争,而且有无成本的流量,有了橱窗以后,他需要考虑自己的哪些商品更好,客观上大大提升了买家体验。

好,跳出来思考一下,我们说很多互联网上的东西在线下都能找到类比。下架时间其实是模仿线下的柜台——平铺,找了一种随机、公平的排序方法;橱窗也是模仿,柜台里有一些突出的位置,比如临街。但是,线上的优势是可以披露很多线下难以披露的信息,如历史销量、浏览量、评价……如果不利用起来,以降低买家的挑选成本,从哲学角度讲,就太傻了。

而这些新的信息背后,就是买家的群体智慧。线下因为客观条件所限,你没法知道其他买家与这个商品发生的各种交互,卖家也只会有选择地透露给你;而线上,好玩的东西来了。

我们说,卖家知道哪些宝贝好,通过橱窗推荐把这个知识榨取出来了。其实,买家也知道哪些宝贝好,怎么榨取?

2006年下半年,“人气排序”在这个思考下诞生了。何为人气?顾名思义,指宝贝的受欢迎程度,再简单一点,其实就是看宝贝的转化率、销量等若干买家行为产生的指标。当然,这个排序是基于一个假设——卖得好的宝贝,质量和买家认可度要高于卖得不好的宝贝。买家通过浏览、购买等行为投票,这也是一种机制,借助海量买家帮我们筛选优质商品,而且这在线下很难做到

借助人气排序,转化率高、销量高的优质宝贝更容易排名靠前,获得更多的流量,从而有了更高的销量,进入良性循环。而销量低的宝贝只能在原地踏步,这很好地执行了“优胜劣汰”的法则。人气排序把流量聚焦于转化率高的宝贝和大卖家,靠机制从海量商品中挖掘出最好的一批,带来了搜索引导交易量的大幅提升,也助推了那几年淘宝的飞速发展。

但没过多久,我们就体会到其中隐藏的一个大问题——生态系统的平衡。

买家只关注自己是否能买到满意的商品,而且大多数希望尽可能有折扣、低价,其购买过程也希望“简单、傻瓜”,恨不得自己想要的东西直接就摆在面前。所以,不考虑个性化的模式,如果对买家都采用相同的排序,则通常把热销、低价、少数大卖家的商品排在前面,这些商品可能获得较好的数据表现。但这对大多数卖家没有好处,卖家都希望能获得用户和流量,淘宝平台的健康发展也需要卖家的多样性和繁荣。另外,如果过于强化低价促销,对卖家的正常经营和淘宝平台的正常发展也会有冲击,所以我们通常要把买家和卖家的利益结合起来考虑。

这时的天平,似乎过于倾向了买家。

这就像自然界中草原上的狼把羊都吃了,短期内自己成长很快,但很快就没有了食物;兔子失去了天敌,疯狂繁殖,很快又会使得草料不够,自己陷入困境……生态系统的长期可持续发展,是靠物种丰富性支撑的。

我们仔细分析了人气排序,发现主要有两大弊病。

►    一是马太效应。人气排序的结果形成了一个封闭的循环,搜索结果页的前几位长期被少数大卖家占据,流量分配极度不平衡,两极分化越来越明显,中小卖家生存空间被挤压。在人气巨大的搜索流量面前,卖家开始通过打造“爆款”的方式使得排名靠前,给店铺引流。这样一来,虚假交易、刷销量的现象就开始滋长,并且变得越来越猖獗和专业化。这里暂且按下不表,后续讲反作弊的时候再给大家细细道来。

►    二是覆盖率低。这其实也和马太效应相关,在搜索结果中,总有一批商品永远也得不到曝光,没法得到初始的流量,也就没法得到初始的销量,这对中小卖家和新手卖家不甚公平。而对淘宝来说,没有持续的新卖家加入、成长,就做“死”了。因此,当时淘宝虽对部分用户还是保留下架时间做默认排序,然而为了留住新买家,在他们进来时,又默认人气排序,或者,在年底冲刺销量的时候优先推荐人气宝贝。这种种做法,也可以看出搜索团队内心的纠结。

我们再从根上想,对买家来说,什么样的排序是好的?

无非两点:1是宝贝、卖家靠谱;2是可挑选的余地。

“1”是买家,特别是新买家的基本需求,这个没解决,“2”就是扯淡,但通过之前的努力,现在“1”ok了,“2”就显得越来越重要了。

最理想的情况,是我们能够完全通过商品的客观信息分析(商品的各种属性,包括后续物流、客服的数据等等),靠算法排序,全覆盖所有商品,预测哪些合适,再推荐给买家。但这样对算法要求较高,基础数据也不够,需要长期投入。所以,我们才采用了一个折中的办法——通过买家的行为判断商品质量。这样“短平快”,是通过结果倒推的,有点滞后,说白了就是靠买家行为推了少数一批商品。那么,总会有一些商品没被买家关注到、没有销量,那么通过人气的方法永远不会找到这些商品。换句话说,用户搜索一些长尾词,结果中,所有商品销量都不好的时候,排序难度就很大。

问题已经抛出来,我们一直在试图解决,人气排序在2008年做了一次全新的改进和优化,之后几年也不断在优化。本章的最后一节所说的“个性化”、2012年开始提的“小而美”都是为了解决这个问题。

而在2010年的时候,我们想到的办法叫——阿基米德。这个革命性的产品,又是如何导致了“7.8事件”,让马云说出“宁可关掉公司也不会放弃原则”的呢?