010.试读:效率与公平,买家与卖家(第4章,第2节)

我们将围绕着搜索最关键的问题——“排序”来讲述。卖家选择淘宝,目的是为了赚钱。如何通过搜索赚钱?方法就是让自己的宝贝在搜索结果中排名靠前,获取更多流量,让更多的买家来到自己的店铺。我们熟悉的“下架时间”、“橱窗推荐”、“人气排序”、“阿基米德”等,背后都是利益的平衡、博弈的升级、思考的深入。

故事就从最早的“下架时间”排序开始。所谓按照下架时间排序,是指卖家在上传宝贝时,可以设置宝贝的下架时间(7天或14天),距离下架时间越近的宝贝,在list中的排序就越靠前。

为什么这么排,是很有时代背景的。先说个浅层次的原因——模仿eBay。2003年在淘宝创立之前,易趣在国内的C2C市场占据着绝对的领先优势,淘宝最初的交易模式也继承了eBay的传统,以拍卖为主,主要的排序因素就是下架时间。

而深层的考虑,是因为淘宝早期,最为重要的策略是“吸引和培养尽可能多的卖家”。有了卖家才有了商品,有了商品才会有买家来买。我们发现,最初几年,淘宝交易额的增长和商品数的增长是正相关的。早期的淘宝,卖家数量还不像后来这么庞大,我们希望每个卖家的商品都有曝光的机会,按下架时间排序无疑是对所有卖家最公平(程序公平)的排序规则,充分考虑了卖家之间的平衡

很快,出现了大家都能想到的缺点。这种公平,仅仅是针对卖家的。下架时间排序就像是大锅饭,绝对公平了,可是效率不高。一些卖家不思进取,开始动下架时间的心思,并且出现了一些投机取巧的工具,甚至组建了专业的重复上下架团队。另外,当时开始出现卖家作弊的现象,比如,有的卖家会发布一万件商品来恶意引流。之后,我们会看到,只要有新的规则,卖家就会想出新的对策,spam和anti-spam永远是一对好基友。

经过了2004年、2005年、2006年商品数量的剧增,按下架时间排序出来的结果变得鱼龙混杂,对于买家,越来越难以找到自己满意的商品,体验逐渐变差。

于是,我们开始把“公平vs效率”的天平向右侧倾斜,2004年年底,推出了“橱窗推荐”。

橱窗推荐是什么?简单地说,就是每个卖家都可以给自己的宝贝打上橱窗推荐的标记,在list中,有橱窗推荐的宝贝会在排序上优先展示,就像线下的街边橱窗展位一样,这些位置的商品更容易获得消费者的关注,其实这已有广告位的概念。而这些广告位,淘宝是免费的,这对于在互联网上做买卖的生意人来说,简直就是天上掉下的大馅饼。

这么做背后的道理也很简单。我们需要一种规则,把优质的商品在排序中顶上来,但当时的算法还做不到准确地判断,所以自然地想到了让卖家来帮忙判断,卖家最清楚自己的商品孰优孰劣。橱窗推荐,其实是一种机制,借助每一个卖家帮我们筛选优质商品。

具体来说,橱窗推荐里面还有卖家间的流量调节作用,其规则是针对部分卖家做政策倾斜,比如说奖励新卖家和做得特别好的卖家。一个新卖家进来,我们就给他额外奖励10个橱窗推荐宝贝,让他获得有更多流量的机会,然后有相应的机制去评估他的表现。如果三个月后,他表现不好,那我们就降低奖励的力度,把更多的流量给更合适的卖家。

通过橱窗推荐,我们有了一个宏观调控、平衡流量的工具。在淘宝初期,它起到了很好的扶持卖家和规范市场的作用。直到现在的搜索排序中,橱窗推荐仍然是一个很重要的因子。对卖家来说,原来只是和别人竞争,而且有无成本的流量,有了橱窗以后,他需要考虑自己的哪些商品更好,客观上大大提升了买家体验。

好,跳出来思考一下,我们说很多互联网上的东西在线下都能找到类比。下架时间其实是模仿线下的柜台——平铺,找了一种随机、公平的排序方法;橱窗也是模仿,柜台里有一些突出的位置,比如临街。但是,线上的优势是可以披露很多线下难以披露的信息,如历史销量、浏览量、评价……如果不利用起来,以降低买家的挑选成本,从哲学角度讲,就太傻了。

而这些新的信息背后,就是买家的群体智慧。线下因为客观条件所限,你没法知道其他买家与这个商品发生的各种交互,卖家也只会有选择地透露给你;而线上,好玩的东西来了。

我们说,卖家知道哪些宝贝好,通过橱窗推荐把这个知识榨取出来了。其实,买家也知道哪些宝贝好,怎么榨取?

2006年下半年,“人气排序”在这个思考下诞生了。何为人气?顾名思义,指宝贝的受欢迎程度,再简单一点,其实就是看宝贝的转化率、销量等若干买家行为产生的指标。当然,这个排序是基于一个假设——卖得好的宝贝,质量和买家认可度要高于卖得不好的宝贝。买家通过浏览、购买等行为投票,这也是一种机制,借助海量买家帮我们筛选优质商品,而且这在线下很难做到

借助人气排序,转化率高、销量高的优质宝贝更容易排名靠前,获得更多的流量,从而有了更高的销量,进入良性循环。而销量低的宝贝只能在原地踏步,这很好地执行了“优胜劣汰”的法则。人气排序把流量聚焦于转化率高的宝贝和大卖家,靠机制从海量商品中挖掘出最好的一批,带来了搜索引导交易量的大幅提升,也助推了那几年淘宝的飞速发展。

但没过多久,我们就体会到其中隐藏的一个大问题——生态系统的平衡。

买家只关注自己是否能买到满意的商品,而且大多数希望尽可能有折扣、低价,其购买过程也希望“简单、傻瓜”,恨不得自己想要的东西直接就摆在面前。所以,不考虑个性化的模式,如果对买家都采用相同的排序,则通常把热销、低价、少数大卖家的商品排在前面,这些商品可能获得较好的数据表现。但这对大多数卖家没有好处,卖家都希望能获得用户和流量,淘宝平台的健康发展也需要卖家的多样性和繁荣。另外,如果过于强化低价促销,对卖家的正常经营和淘宝平台的正常发展也会有冲击,所以我们通常要把买家和卖家的利益结合起来考虑。

这时的天平,似乎过于倾向了买家。

这就像自然界中草原上的狼把羊都吃了,短期内自己成长很快,但很快就没有了食物;兔子失去了天敌,疯狂繁殖,很快又会使得草料不够,自己陷入困境……生态系统的长期可持续发展,是靠物种丰富性支撑的。

我们仔细分析了人气排序,发现主要有两大弊病。

►    一是马太效应。人气排序的结果形成了一个封闭的循环,搜索结果页的前几位长期被少数大卖家占据,流量分配极度不平衡,两极分化越来越明显,中小卖家生存空间被挤压。在人气巨大的搜索流量面前,卖家开始通过打造“爆款”的方式使得排名靠前,给店铺引流。这样一来,虚假交易、刷销量的现象就开始滋长,并且变得越来越猖獗和专业化。这里暂且按下不表,后续讲反作弊的时候再给大家细细道来。

►    二是覆盖率低。这其实也和马太效应相关,在搜索结果中,总有一批商品永远也得不到曝光,没法得到初始的流量,也就没法得到初始的销量,这对中小卖家和新手卖家不甚公平。而对淘宝来说,没有持续的新卖家加入、成长,就做“死”了。因此,当时淘宝虽对部分用户还是保留下架时间做默认排序,然而为了留住新买家,在他们进来时,又默认人气排序,或者,在年底冲刺销量的时候优先推荐人气宝贝。这种种做法,也可以看出搜索团队内心的纠结。

我们再从根上想,对买家来说,什么样的排序是好的?

无非两点:1是宝贝、卖家靠谱;2是可挑选的余地。

“1”是买家,特别是新买家的基本需求,这个没解决,“2”就是扯淡,但通过之前的努力,现在“1”ok了,“2”就显得越来越重要了。

最理想的情况,是我们能够完全通过商品的客观信息分析(商品的各种属性,包括后续物流、客服的数据等等),靠算法排序,全覆盖所有商品,预测哪些合适,再推荐给买家。但这样对算法要求较高,基础数据也不够,需要长期投入。所以,我们才采用了一个折中的办法——通过买家的行为判断商品质量。这样“短平快”,是通过结果倒推的,有点滞后,说白了就是靠买家行为推了少数一批商品。那么,总会有一些商品没被买家关注到、没有销量,那么通过人气的方法永远不会找到这些商品。换句话说,用户搜索一些长尾词,结果中,所有商品销量都不好的时候,排序难度就很大。

问题已经抛出来,我们一直在试图解决,人气排序在2008年做了一次全新的改进和优化,之后几年也不断在优化。本章的最后一节所说的“个性化”、2012年开始提的“小而美”都是为了解决这个问题。

而在2010年的时候,我们想到的办法叫——阿基米德。这个革命性的产品,又是如何导致了“7.8事件”,让马云说出“宁可关掉公司也不会放弃原则”的呢?

009. 试读:从通用搜索到淘宝搜索(第4章,第1节)

淘宝搜索,目前最重要的部分是淘宝商品(宝贝)搜索,所以下面阐述的实际是指淘宝商品搜索。此外,还有店铺搜索、同店购等搜索产品,因为复杂度相对较低,所以不展开说。由于搜索是一个挺专业的产品,所以要讲搜索的产品故事,我们先得讲一下它的一些主要特点。

淘宝搜索的首要目标就是让用户尽可能快地找到适合自己需求的商品,这也是一种典型的导购产品。与传统搜索相比,淘宝搜索在很多方面,有相同点,例如用户均需要输入关键词然后返回若干条搜索结果、搜索框输入时候的下拉提示以及相关搜索等,但也有不少区别,这里先说说产品层面的突出不同。

►    导航。导航即类目属性体系,是淘宝搜索特有的,其根本在于商品类似线下货架一样的分类陈列,第15节会展开讲。通用搜索,比如百度的搜索结果页是没有这个区域的。

►    多维度排序。例如,可以按照销量、价格、人气分别排序,这是通用搜索没有的。

►    突出图片。这是由用户需求决定的,因为大多数行业(尤其是服饰类)的商品,用户的第一感受是外观,而通用搜索通常突出标题和文本摘要。

►    商品信息和筛选。淘宝搜索有较多的筛选功能,这些筛选与商品的各种详细信息(价格、所在地、销量等)的披露组合在一起,降低了用户决策和购买的门槛,相对于线下购物,是一种进步,也部分弥补了看不到实物的劣势。

……

这些区别更多的是由我们的用户需求和处理的信息不同造成的,大致上传统搜索偏向广度,而淘宝搜索偏重于深度。

更关键的区别,是下面提到的一些淘宝搜索独有的元素,这些东西大多不是具体产品或技术上的特色,更多是淘宝搜索在独特的环境下所需要特殊考虑的方面,也是淘宝搜索做起来真正复杂和挑战之处:

►    公平与效率、卖家和买家的平衡。卖家要公平竞争,买家要购物效率,第12节细说。

►    大卖家和中小卖家的平衡。一个可持续的生态系统,两者一定是平衡的,所以搜索有一个指标是基尼系数,仿照经济学领域的概念,来衡量搜索流量分配的合理性和健康性。

►    短期和长期利益的平衡。很多做法对提高短期的数据指标会有明显好处,但长期来看可能会损害淘宝搜索的公平性,使买家黏性降低,卖家感到无所适从。

►    手握卖家的生杀大权。相比传统搜索,卖家对淘宝搜索的依赖更强,他们应该获得稳定的经营环境。流量变化的大起大落可能是灾难性的,后面会多次谈到这一点。

……

总之,上述几个方面是传统搜索不需要过多考虑的,而淘宝搜索必须要处理好。所以,它并不是简单满足某方面的需求,或提升数据指标就完成任务,而是充满了挑战。因此,淘宝搜索的工作充满了韵味,需要更多专注、思考、决心和毅力。要做好淘宝搜索的工作,不仅需要互联网的用户视角和搜索技术与算法,还需要了解淘宝、天猫市场中的商业规律和特点,需要懂消费者、懂卖家,需要有经济学、社会学等多方面的视角。

淘宝搜索的发展主要分为三个阶段。

第一阶段,list时期。

淘宝建立之初,实际上是没有搜索的。一直到2008年,所谓的“淘宝搜索”实际上还只是一个拥有关键词查询的list,说白了就是一个目录检索工具,就有点类似网址站,用户通过一级一级地点击类目,找到想要的宝贝。随着商品量的增多,数据库检索的方式逐渐在性能和功能层面都受到了很大限制。

list最初是无关键词的,主要是靠“点、点、点”;而search是有关键词的。当然,现在有无关键词也互相渗透了,list也可以搜关键词,search也可以点导航什么的。所以现在两者主要是入口的区分,到了2012年,list仍有不少访问量,前端是淘宝集市自己在管,后期探索方向是“面向消费者的导航产品”。

第二阶段,isearch时期。

在这样的情况下,早期技术同学就想专门做一个搜索引擎,来查找淘宝的商品,正巧B2B那边已经有搜索团队做了一个isearch搜索引擎,所以当时就直接把isearch复用到了淘宝。

isearch最早是B2B自主开发的分布式检索引擎,具有独立的知识产权,它的第一个版本是2002年在阿里当时的CTO——吴炯——主持下开发的。

随着isearch搜索引擎的引入,淘宝搜索加入了关键词搜索(search)功能,但这个时候淘宝的search与list仍然合并在一起。

第三阶段,淘宝搜索时期。

随着淘宝的快速发展,为了更好地支持整个公司的搜索业务,包括淘宝集市、商城等,2008年成立了搜索中心。

2009年七八月间推出了主要针对有关键词场景的新版搜索,即s.taobao.com,并在2010年2月份的时候,将关键词搜索流量全部切到新版搜索。2012年的情况是,search、list以及天猫搜索的后台都由搜索部门统一支持(算法略有不同),而前端分别由搜索、淘宝和天猫团队各自负责。