首页 > 电商资讯 > 淘大味道班:阿里数据化运营的奥秘
2014
07-25

淘大味道班:阿里数据化运营的奥秘

月11日,淘宝大学百年讲师味道班开班。淘大邀请了阿里集团近期最热门的部门:o2o,数据,无线,来为淘宝大学老师做业务分享和交流。数据技术及产品部资深数据挖掘专家闵万里(山景)从大数据概念入手,讲述阿里集团众多数据模型的幕后故事。

 

大家好,今天我主要想跟大家分享一下阿里平台的数据化运营过程。比如卖家报名聚划算,但并不了解商品审核的原理及背后的数据逻辑。而平台为筛选到优秀的商品,也需要通过数据和统计模型对商品做出销量预测的评分。

在开始今天的干货讲解之前,我们先来聊一聊近期火热的“大数据”战略。

首先,我个人很反感炒作概念,因为任何数据模型都有其局限性,无论如何,我们都应该带着批判的眼光去看数据。尽管信息技术革命给大数据带来了非常好的基础,但也避免不了数据报告的滞后性,同一份数据在不同业务场景下的价值可能大相径庭,大数据要结合实际的需求才能发挥其最大的价值。

中国互联网自从2000年以来历经许多炒作的概念,像千年虫,IBM的智慧城市,物联网等。物联网就是由很多个传感器在一起收集信息,用于发现城市的每个角落在发生的事情,需要非常大的硬件投入。这个概念在西方都还算不上火热,所以在当时的中国互联网环境下的确很难做成功。

而今天我们再回头看一看大数据,其实根源就是物联网,只是那些传感器变得更普及,包括我们的手机,无线路由器,LBS技术等等。数据通过互联网在流动,促进了信息的爆炸,所以在2008年,大数据的概念有了爆发式的普及传播,是有原因的。

今天我们浏览任何一个网页,都有“一键分享”的功能,是想要让大家把信息分享出去,但是上世纪90年代的网页会有一句串词“Copyright 1997. Do not redistribute.”。观念的转变迅速带来了信息的爆炸信息爆炸导致了大数据的原形爆发。

我们回到大数据战略本身,如何抽取有用信息就成了最具有挑战性的课题。Google做到了,所以它成功的,Facebook也是这样成功的,他们甚至有专门的人从数据中挖掘新闻热点供给大家讨论。最典型的数据挖掘实例,就是在2008年和2012年,奥巴马团队两次挖掘Facebook上面的最新热点议题、做出了精准的选民广告投放。

在商言商,如果我们在商业环境中运用好大数据,确实可以颠覆我们的内需。这也就是为什么在新的领域,比如在航旅、金融、医药健康领域中,阿里作为新兴势力可以跟行业老大叫板的原因。因为我们掌控了非常精准的渠道和发现机制,知道某人一个月以后要去某地旅游,就在合适的时间把机票促销信息推送给他。

阿里集团在2008年的时候,就确定了要成为一家数据公司,和建立一个云计算平台的战略。 今天我们如果再做广告,就可以把早期在CPM以及CPC模式下,那些身份不明的点击来源搞清楚。

现在的互联网广告已经从买流量变成买人群了,大数据把营销过程中的消费人群给盘活了。

而在阿里运营小二早期的数据化决策中,小二可能看着表格,或者凭借运营经验筛选商品,市场变化也没法及时纳入到他们的思维思考中去。所以平台也是迫切的需要数据化产品来提高人效和选品效果。

如今像天猫APP首页上的聚划算、心水、品味男人和美丽女人等几个版块的选品,都借助了基于大数据的统计模型。这个模型收集了商品的许多信息,包括点击、收藏、购买、好评率等商品信息,以及微博上的商品周边。假如这个包是某个明星代言的,刚好最近这个明星的新闻热度很高,就可能获得比较高的权重。

数据化运营的另外一个核心目的就是定价,帮助卖家找到最合理的价格带。由于商品价格对于销量的影响非常大,而且不同的商品展现位置,价格排列逻辑也是不同的,小二同时还要兼顾整个销量的最大化。

我们目前有的一个产品——生意参谋,就是服务于卖家 端,帮助卖家找到当前合理的 营销策略(选品,定价)。

接下来我跟大家聊一下大数据运营过程中圈人的案例,即广告投放时的标本选择。

假设现在有几个标准:25~30岁,高等教育,白领职业。我们会遇到几个棘手的问题,包括选人标签的确定原则,哪个标签权重更高等等。

固有的广告投放后台,勾选标准是非常固化的,而实际上卖家需要更大的自由度,我们不仅要考虑人群样本描述标准,还要考虑投放渠道。广告主一定是需要全方位的消费者样貌解读。

我们的数据模型,跟传统模型相比的最大区别,就在于标签可以被全新的造出来。比如固化的25~30岁年龄层,可以被优化为25~27岁和27~30岁两档,年龄、教育程度、性别等等的重要性也有区分。不光是圈人,我们还会告诉你最佳触达渠道在哪里。

我们把这个模型命名为CYC(catch your customer),就是主动抓住你的客户的意思。它能够分析卖家的客户名单,以及这些客户在微博等社交网络的行为。我们当时做这个模型时的目的,一是了解我们的客户,二是从统计特征、行为特征,甚至包括社交网络上的互动信息来理解人与人之间的关系,达到人群识别的功能。它甚至可以辨别出人群中的“铁公鸡”,把那些不符合你的广告投放标准的人群排除在外。

当然我还是要重复前面的描述,在信息爆发的年代,数据是快速增长的,今天我们看到的大数据,以及基于现有数据得出的判断,可能放在明天的讨论中就是完全错误的。即便我们今天看到了海量的数据,但跟未来相比,也只能算是小数据,如果把今天得到的结论做无限的外延,就是很危险的事情。

 

接下来大家共同思考一个问题。如果有一个数据模型告诉我们,某个商品在聚划算上的某个板块销量很好,但是有几个模型版本:第一个版本是直接告诉我们,某个商品在这个版块一天可以销售一千件;第二个版本是告诉我们板块不同的位置,销量又有不同;第三个版本告诉我们手机端销量和PC端销量的区别;第四个版本则告诉我们在杭州市文一西路上的中国移动iPhone 5S手机端的产品销量。

同学:第三个最有用,第四个最没用,范围太小。

同学:第四个流量是最精确的,未来就能做更多针对性的事情。

假如平台不允许我们做如此精准的投放,第四个模型就没什么用处了。所以一个模型的好坏,第一要看它适用的范围和条件。如果一个产品的板块不区分PC与无线端,那第一个数据就是最有用的。

上面这个例子就说明,任何一个模型都会有多种方案,卖家需要根据不同的场景,来判断到底哪种模型适合自己。


文章来源:网商在线。



最后编辑:
作者:vicken
这个作者貌似有点懒,什么都没有留下。

留下一个回复

你的email不会被公开。