瞭望东方周刊陈振华2016-03-31

  

  罗金鹏飞快敲击键盘的节奏被电话打乱了。他接到的是一通测试报警电话,这说明数据在测试的时候可能出现了异常。他停下手中的活,立马去处理这个异常。

  这就是罗金鹏每天的工作状态。他是阿里巴巴数据技术及产品部高级技术专家。像他这样从事着看似枯燥却非常重要的工作的工程师,在阿里巴巴有数千。

  正是这些技术人员日复一日的谨慎小心,才保障了这个中国最大的电商平台的正常运行,使之可以实现2016财年电商交易额突破3万亿元这一里程碑式的业绩。

  这些技术人员所维护的,可能是这个时代最复杂、运算量最大的系统之一。在这个系统上,大数据和云计算成为最鲜活的技术手段。

  包括阿里巴巴在内的所有电商平台,也是依托着这些最先进的技术不断拓展辐射的深度和广度,不断地开辟蓝海。

  “今天,我们把大数据和云计算定位成一个商业的基础设施。但大数据成为新经济的石油,云计算成为新经济的引擎,真正产生成果,还需要一个过程。”阿里巴巴集团CEO张勇告诉《瞭望东方周刊》。

  当他们在中国这个巨大的市场和消费人群中历练过后,电商平台的技术实力,已经不仅仅能够为自己提供服务,也已具备了输出的可能性。

  “互联网成为基础设施,数据成为生产资料,而计算成为公共服务。通过数据和计算,拓展全新的领域,才是数据产生价值更重要的发展方向。”阿里巴巴集团CTO王坚在接受《瞭望东方周刊》采访时表示。

  实际上,技术的发展可以分为三步:首先是为了保障系统的运转正常;第二步,是从大数据中挖掘商业规律和价值,为商业判断提供参考;第三步,则是挖掘出大数据潜在的价值,并对外输出技术能力,用技术拓展商业的边界。


    确保峰值不崩溃

  技术的最基础功能,是保证系统正常运行。但这对于天猫和淘宝这种日成交额动辄数十亿元的电商平台来说,并不是件简单的事。

  3月21日下午14时58分37秒,阿里巴巴中国零售交易市场2016财年商品交易即时总额累计突破3万亿元。

  3万亿元背后的成交高峰,出现在“双11”——当天全天交易额达912.17亿元,全天支付笔数达7.1亿笔。

  如此大规模的交易量和支付量,是对技术的“大考”。而最难的“题”,则是确保峰值来临时不能崩溃。

  “‘双11’之所以能顺利通过考验,靠的是阿里巴巴多年的技术沉淀,有赖于4个主要技术单元的通力合作。在当天其实最紧张的就是技术支持团队,面对那么大的交易洪峰,一点差错都不能出。”王坚说。

  在阿里巴巴主要的4个技术单元中,数据技术及产品部是负责将数据进行流式计算并实时呈现在媒体大屏幕上的关键团队。

  在“双11”之前,这个团队与上下游技术团队共同进行了数十次大大小小的压力测试。只有通过最严苛的压力测试,才能保障双十一期间的系统性能和稳定性。

  当天00:05:01,阿里巴巴系统交易创建达到14万笔/秒的峰值;00:09:02,支付量达到8.59万笔/秒峰值。在2015年的“双11”,共有超过200家银行与支付宝共同支撑了支付洪峰。

  这是什么概念?Visa在实验室测试的支付峰值是5.6万笔/秒,实际支付峰值是1.4万笔/秒;而MasterCard实验室测试的支付峰值是4万笔/秒。

  从历史数据来看,2015年的交易峰值,是2014年“双11”交易峰值3.85万笔/秒的2.23倍。而相比2009年的首届“双11”,订单创建峰值增长了350倍,支付峰值增长了430倍。


    从“坐车”到“造车”

  2008年,中国的电子商务开始了井喷式发展。

  在驶入快车道的同时,阿里巴巴也敏锐地意识到它可能会面临的瓶颈——其购买的软硬件已经不能满足交易的高速增长,因为当时的数据规模已经超过了全球传统软硬件巨头的技术极限。

  一个更大的背景,是阿里巴巴IT发展策略的变更:从依赖“商业软件”,到拥抱“开源软件”,转而靠自主创新,提升技术研发实力。

  而这一变化,始于2008年王坚加入阿里巴巴。

  “成本降低是我们投入技术研发最先能够看到的,因为购买许可是非常贵的。但更重要的原因在于,以IOE为代表的传统IT企业架构,无法满足互联网业务的极速扩张,约束了企业长远的发展。”王坚总结道。

  在王坚看来,直面这一前所未有的挑战,最好的解决方式是采用云计算。2009年,王坚牵头成立了阿里云。

  阿里云的代表作之一便是超级计算引擎MaxCompute(原名ODPS)。2013年底,这一工具已经开始支撑包括淘宝、天猫、支付宝、菜鸟等电商平台所有的大数据业务。

  不过,所有的新生事物都非一帆风顺,研发自有技术难度之大超乎想象,并且从一出生就在与外部的PK中残酷成长。

  阿里云大数据专家李淼告诉《瞭望东方周刊》,在2010〜2011年,与业界开源产品Hadoop相比,它大概三四个小时就能做完的,MaxCompute可能需要近30个小时,毫无优势。

  而现在,MaxCompute比Hadoop系统的处理速度要快数倍。2015年“双11”之前不久,MaxCompute参加了排序基准评估竞赛SortBenchmark,把100TB数据的排序时间缩短到了377秒,而此前的纪录是1406秒。MaxCompute获得4项世界冠军。

  在加入阿里巴巴之前,李淼的头发还是乌黑的,如今,他的头发已经花白。而阿里巴巴的“去IOE”行动,被业界认为是成功的。

  “我们相当于从坐车的变成自己造车。这种领先,有技术和架构上的原因,但更多是技术经验的积累,要一点一滴地不断打磨。”李淼告诉本刊记者。

  这期间,阿里云的工程师对开源数据库进行了大量的升级工作,并于2015年1月进入由Facebook、Google、Twitter和Linkedin四家公司发起的WebScaleSQL组织,开创了中国公司在全球开源项目中的先河。

  除了不断进化地应用他人已有的技术成果,阿里的自主研发技术也开始结出成果,用于替代开源数据库的自主研发数据库OceanBase开始应用于支付宝。这是全球首个应用在金融业务的分布式关系数据库。

  2014年,OceanBase承担了支付宝10%的流量,而在2015年,它支撑了“双11”时支付宝100%的核心交易流。目前,OceanBase已经在支付宝、淘宝、天猫等多处使用。

  在李淼看来,“对技术而言,金融系统的难度是最大、也是要求最高的。以前,技术的增长根本没能力承担这么大的业务量。”

  实际上,阿里巴巴在2015年“双11”期间所创造的纪录,正是阿里云与淘宝、天猫、支付宝共同构建的全球最大规模混合云实践。


    打破数据壁垒

  在硬件和基础技术准备成熟后,用王坚的话来说,就是对数据这一“生产资料”进行价值生产。

  而在此之前,阿里巴巴还率先做了业界的又一件大事。从2013年起,阿里云自主研发的MaxCompute开始成熟,阿里巴巴集团自有的数据业务开始采用这一技术平台,使之成为统一底层,该计划取名为“登月计划”。

  漫长的“登月”,困难重重。

  “大规模数据的搬迁,一定会出现小概率的数据丢失或损坏,就好像买彩票一定会有人中五百万一样,我们需要做的工作就是,把这个中了500万的人规避掉。”李淼说。

  “登月”之难还在于,需要校验数据的正确性。李淼打了个比方,比如复制100万个视频文档,得保证不丢失,同时还得把这100万个视频全部打开,从第一秒看到最后一秒。

瞭望东方周刊 总第 715 期
相关文章
“我有一个好朋友,也是我的邻居。她的父母远在外乡打工,一年只能回一两次,留下她的弟弟妹妹。老师说她们是留守儿童……”这些稚嫩的文字来自13岁的吴梦瑾。