数栖⼤会旨在搭建⼀个数据⼈共同分享创新变⾰、思维⽅法和优秀实践的专业平台。
    秉持“让数据用起来”的使命,本次⼤会,我们不讴歌⾼光大咖,不关注流量明星,更希望邀请那些在数字化转型泥泞之路上奋进拼搏的⼈们,共同来分享每⼀个转型故事背后的拓荒之路,为那些还在转型创新之路中迷茫探索的组织,带来更切实有价值的帮助——用新视野、新思路,推动数字化变革融⼊企业DNA之中!

    在本次大会上,中国信息通信研究院云计算与大数据研究所副所长魏凯表示,数据要在不同的机构流动,这样才会发挥价值。

3.jpg

    以下为数澜科技创始人兼CEO风剑在“2019首届数栖大会”精彩演讲实录,由云现场整理。


    各位朋友早上好!
    刚刚主持人介绍,我在台下听,感觉还是挺自豪的,我确实参加过国内很多部委政策的支撑,从2012年开始我们就在关注大数据。当“大数据”这个词进入高层视野的时候,我们在这之前其实做了很多的功课,告诉领导们大数据是什么、我们应该关注什么。但是就像我现在这个图所看到的一样,巨大的数据的浪潮正在到来。我觉得“数澜”的名字起的特别好,就是“数据浪潮波澜壮阔”。
    其实我在2012年的时候研究什么是大数据、大数据的问题到底在哪里的时候,我们做了很多调研,当时对它的认识非常肤浅,我们到一个公司经常问你的数据有多大、你的机器有多少,到底什么是大数据、大数据多大才算大,我们经常问这个问题。大家可以看一下,数据确实越来越大。这个曲线是全球各个行业数据存储下来的规模,我们今天在什么地方?可能在2020年之前,我们大概有40几个ZB的存储量,非常大。我刚刚查一下1ZB的量是11块1TB硬盘,据说连起来会达到50万吨的重量。到2025年,全球将有163ZB的数据,它是指数增长的。我们今天看到的仍然是山脚下非常小的一部分,未来的增长更抖,因为5G来了,所以数据波澜壮阔的时代刚刚开始,我觉得数澜抓住了浪潮非常好的时间点。
    但经过一段时间的攻关和磨合,其实大不大不太重要了,第一个原因是因为技术越来越先进,因为分布式技术出来了,我们不再害怕数据无处可存;规模的增长,不再成为我们存储的巨大负担。因为如果你的处理能力、处理能力不够的话,你可以线性扩展,技术上没有任何限制,几乎可以无限扩展。当这些新技术出来之后,所以我们问的时候也不再会关心你的数据到底有多大,因为对技术来说大不是问题了。另外一个角度,大家越来越深知数据大并不代表价值大,这是一个观念的回归。所以可以看到数栖大会没有“大数据”的“大”字,但是国家的大数据战略里有“大”字,所以大不大不太重要了,因为我们可以处理它,而且认识到它的价值不代表它大,价值就大,所以这是非常重要的变化,技术在这里头扮演非常重要的作用。正是因为我们有分布式的能力,所以我们有底气说“大”不再重要。另外,这些底层的数据管理处理方向上,像阿里、数澜公司开拓创新的动力、锐气非常足,现在有几个方向值得大家关注:第一是原来处理大量数据的时候,我们要有时延,我们可能有T+1,今天银行账单的处理等到明天才能有汇总数据,所以有T+1,但我们现在有流处理了,我们可以在很短的时间窗口知道汇总数据是多少,这是一个变化,未来可能不再分T+1、T+0,可能就是T+0,这是因为计算的实时性大大提高了;第二,我们管理规模这么庞大的集群能力也上升了,因为感恩的技术来源是云的发展,云给庞大的几十万台机器的数据中心管理软件硬件提供庞大的工具,当数据平台变大的时候,我们不再操心机器怎么管、软件怎么布,我们的细致度提升了。另外我们在深度挖掘的时候还需要机器学习、深度学习,所以现在我们看到一个很明显的趋势——结构化数据,原来查询的方式正在和机器学习的能力融合,这给数据的深度应用提高了很强的技术支持。这几年BAT都在把机器学习能力混合起来,由大数据平台提供。所以不管是过往Scale Out能力不断提升,还是容器、机器的融合,我们不再担心数据有多大,我们都可以部署。
    刚才是理论的,实际的能力也在提升。中国信通院做了四年的技术测试,对国内140多款数据平台做了测试,其中就有接近40个是做数据底层处理的。我们看到国内的技术能力确实是飞速发展,我们也不太担心由于贸易战等对我们的断工。我们可以看到国内很多公司可以提供一万级集群管理,我们可以处理100TB,比如说一百个节点上处理100TB,非常快,TPC跑起来也没有任何问题,自研系统占比也越来越大。左图是CDH的占比很高,就是国内以前做数据平台的底层,很多依赖的是一些公司的二次开发,但现在可以看到有24%的人直接基于Apache开源实现,还有3%的东西做自研,包括数澜、阿里等其他的公司。所以一方面,我们的工程化能力非常高,另外一方面自研的水平也在崛起,所以这是一个欣喜的变化,我们不再担心数据有多大,我们都能处理。
    在这个大的背景下大家都在看好这个市场和空间,因为数据浪潮来了,大家认识到数据多么重要,所以大家都愿意投资。我在这里摘录一些数据,全球今年大数据的软件、分析软件、管理软件产值1800多亿美言,中国的市场很大,窄口径的只是处理大数据的管理和分析的软件产值,中国信通院发的报告的口径是440亿人民币,但增速非常快。国际上的增速是百分之十几,中国是接近40%,所以增速是非常快的。我认为在2019年、2020年,增速还将加速。因为我自己的调研,可以感受到大的部委、大的央企都在加大大数据的投资,因为他们看到了实际的效果。
    说到好的方面,但我们也要很清醒的认识到,刚才甘总也说过数据的应有仍然停留在非常低的水平上。大家非常熟悉左边的图,我们到了某一个公司,到了某一个政府机构的大数据中心参观,经常会看到这样的大屏。这个屏幕,可能我自己感觉有点审美疲劳了。一问他们这个屏上的数据,大部分是离线的,大部分是做上去的,不是实时的数据。同时,领导也不可能天天盯着大屏幕,这些数据到底有多大的用处?这是打问号的,这是一个现象。
    但有一个抽象的说法,数据的应用是有深度的。从复杂性和价值的维度来看,我们把它分成四层:第一层,描述性。我们现在做的大数据的很多项目、很多数据分析的项目都在做描述,我们要了解现在发生了什么或者以前发生了什么,这是最容易做的,我们的可视化都是在展示现在发生什么或者以前发生什么;下面几层,更有价值的是要做到为什么是这样子,要做到我要预知未来,我要知道明天将发生什么,你不要告诉我这些结果,你告诉我怎么做或者系统直接作出决定,这就叫指导型,这是我们的梦想,这是智能时代真的到来的标志。所以如果有四层楼,我们可能只占了一层楼,我们只能做到描述型的分析,把全量数据装到一个盒子里头做展示,所以就产生了很多误解,就是说数据就等于可视化,其实不是一样的。
    我自己心目中真正的数据驱动,也不一定对,真正的数据驱动应该是右边的图,它不是为高层服务的,它是为基层服务的,它不是给美团的王欣在办公桌前看的,是给快递小哥看的,他们如果觉得数据对他的业务有支撑,老板肯定很开心。但是我认为现在很多的数据是给高层看的,不是给基层看的。还有是锦上添花,我们现在的数据系统,很多是可有可无的,它是一个增量,未来没有数据,生意不可能完成。现在很多的互联网公司从生下来依赖数据,没有数据不知道怎么做,但传统企业过惯了没有数据的日子,它认为数据是第二平面。所以我理想中的数据应该是不可或缺,没有数据,你的贷款流程将走不下去,没有数据,你的库存不知道怎么管理,所以这是数据驱动的标志。第三个方面,我们现在的数据是开环的,就是因为它需要领导决策,没有领导决策,流程走不下去。但我们看很多数据驱动的企业,数据是闭环的,数据指导业务实践。同时很重要的是数据在业务中发生什么样的效果,这是可衡量的,而且可以知道怎么改进、怎么优化数据的决策链,所以它是闭环的,它会越来越好。最后,我们现在很重视业务的开发,但基于数据的业务开发还是非常慢。就像刚才甘总说的企业业务模式动态性非常高,今天和明天可能不一样。你看我们现在很多的传统企业没有开发队伍,他们要提一个需求,要找一个开发商,再招标、再采购,数据应用可能半年以后才上线,所以远远不能适应现在高度动态、敏捷的数据应用开发的能力,所以国际上很多公司都在提DevOps,我们现在在系统运维上有DataOps,运维和开发应该一体化。而数据呢?数据很割裂,我们的数据部门、数据管理部门、业务管理部门和开发中心是割裂的,要打通是很难的。所以我觉得未来有一个流水线一样的,数据开发应该和运维融合在一起。
    刚才是我理想中的数据驱动的应用状态,实际上还有很多问题,而这些问题都指向数据资产管理,我这里有一个数据“不良的数据质量使企业额外花费15%-25%”的成本,如果很好的数据质量,怎么让领导相信你的数据决策。第二个是孤岛,没有一个公司说他们的数据完全打通。还有是数据分析人员在干什么,80%的时间都用在找数据上,当一个需求出现的时候,我要用几天时间把数据找好,业务窗口期早就过了,赶不上时代的发展。数据的泄露安全问题非常突出,随着数据在向大数据平台集中,意味着我们原来把很多篮子的鸡蛋放在一个篮子,一旦平台出了问题,很多数据就没有了。最后一个问题是50%的数据项目低于预期,没有达到领导期望的目标,这会对我们整个行业造成很大的冲击。预期很高,没有达到,其实未来的投资可能不会再有了,二期项目不会再有了。
    所以我们要做好这些事情,我觉得有两点:一是要管好数据资产,二是平衡应用与安全的问题。这个道理,大家肯定非常容易理解,因为我们现在对传统的实物资产的管理已经非常清晰,我们买几十块钱的椅子都要贴资产标签,但是我们对于价值无限的数据是怎么管理的?我们有没有像实物资产这样非常好的采购、登记、领用、维护、保费的体系,我相信没有这样一套体系。数据管理有很强的特殊性,它不是实物资产,它的管理应该用什么样的方法论?信通院从2017年开始跟国内最大的公司合作,这里包括中石化、国家能源、中国移动、华为、阿里等头部企业来组织一个小组,编写中国的《数据资产管理实践白皮书》,今年6月份已发布第四版。实践白皮书其实就是在总结实践方法论,即企业的数据到底如何管理,我们在里头梳理很多管理的要点,大家有兴趣可以看一下,叫《数据资产管理实践白皮书》,我们希望结合国际实践和中国特色的方法论,我认为中国有这样的实力去走自己的路。
    我这里还想强调数据资产管理尽量要减少人的干预。我觉得数据质量出问题,大部分是由于在这个环节里头有人参与。比如录地址的时候人的随意性非常大,但如果把这件事情交给机器扫码自动产生,它将会严格按照我们的规则行使,所以人最靠不住。所以我们的工程师把规则内置到系统里,发挥系统的能力,而且我自己的观察——未来的数据管理工作需求是指数的,我们不可能让人的工作也指数增长,这是不可能的,要用技术弥合剪刀差,这是必然会发生的事情。现在有很多技术在做,比如说机器学习、自然语言理解、区块链,其实都在为我们提供很强的工具。
    刚才说了如何管理好数据资产,第二个大数据应用面临的很大挑战和阻力就是安全。互联网40年走过的路一直是把数据集中在少数的巨头手里,一直是在用用户的个人信息来换取免费的服务,这导致了很严重的对抗,尤其是这些年Facebook、微软、谷歌在欧美国家遭受很强的抵制和罚款,中国现在也在加强对数据的管理,监管会越来越强。同时,我们也要把数据用起来,数据要在不同的机构流动,这样才会发挥价值,我觉得这是有空间的,数据安全和数据流动并不是一对不可调和的矛盾,而且在中央文件里头也指出我们要鼓励数据的流动,这是习总书记在集体学习的时候说过,要“制定数据资产确权、开放、流通、交易相关的制度,完善数据产权保护制度,加大技术专利”,在工信部的规划里头也有。不仅是国内,欧盟也是,大家都知道欧盟重视数据保护,有GDPR的发布和实施,是史上最严的数据保护条例。但同时大家可能不太知道欧盟促进企业间数据自由流动是他们非常重要的工作,这是打造欧洲一体化的数字经济很重要的支柱,所以我这里头列了很多与欧盟有关的推动数据流动的内容,我认为仍然要靠技术。我们的制度和技术在不停往前走,特别是现在在数据保护上GDPR、中国网信办正在制定中国《网络数据保护条例》、跨境审查办法,都在制度上制定数据管理的相关措施,但是我认为技术在这里头应该发挥很重要的作用。比如说我们提到了右边的隐私计算技术,现在是一个热点,像群签名、环签名、差分都是我们关注的热点,信通院也在做这方面的工作,我们联合很多企业探讨数据如何在符合国家安全规定要求下,能够合规地、安全地流动,靠技术手段来保证数据流动的安全。我们跟大家一块起草了可信数据服务的相关标准,标准正在起草过程中。
    其实我刚才跟大家分享了我的观察,包括数据驱动以及数字资产发展面临的两个问题,一个是管理数字资产的方法论,二是数据安全。回应今天的主题,我也简单讲几句数据中台的自己的理解。
    我认为数据中台要做的事情是几个,一个是解耦,要把应用开发和数据的能力解耦合,使得上层、下层可以独立发展;还有共享,以前一个业务系统自己建一套,能力会产生很多碎片,数据中台要共享;另外很重要的一点是屏蔽复杂性,大家可以从操作系统的发展中可以看到,我可以简单类比,不一定准确,数据中台是一个数据操作系统,它操作的对象是各种各样的原始数据材料,它的支撑服务是数据敏捷开发、一站式服务和高质量的数据资产的管理,这是我对数据中台的理解。甘总其实刚才已经讲的非常充分,我不跟大家一块分享了。
    其实我这里做一个小小的总结。过去15年,我们在做什么事情?我们在很多创新上让分布式技术来希望处理日益增长的、不断增长的数据体量,规模越来越大,成本越来越低,但同时应用进入深水区,我们离数据驱动的时代还有很大的差距,这是需要去弥合的。未来,我觉得当大家不再关心数据有多大、系统能够处理多大的体量、多快的时候,大家更关心的是如何用很简单的方法来管好数据,如何在安全和合规应用之间取得平衡,我觉得这两个点是下一阶段供应商应该着力的,供应商不再重点放在拼性能和规模,而且如何管好数据资产,如何做共享交换和平衡安全应用。数据中台是夹在中间的承载体,它是承载管理、承载技术、承载应用开发的载体,我觉得未来的发展是非常期待的,我自己非常期待,它也是未来数据驱动企业的核心。
    最后做一点小小的广告。我们的很多工作其实都是依托行业平台开展的,在场很多朋友也加入我们的组织,叫大数据标准推进委员会,它里面有很多的工作组,关心的问题都是大数据当前的热点,包括资产管理、数据库,包括很多行业应用和法律法规的相关工作。
    我们院的定位是国家高端专业智库,我们只做ICT有关的国家决策支撑。我们也是产业新发展平台,我们愿意给包括数澜在内的生态伙伴们提供支持,来帮助你们做业务,来打破大数据技术与实体经济深度融合中的各种障碍。我也欢迎大家来关注微信公众号,来获取我们刚才所说的很多的白皮书、研究报告和我提到的相关进展。
    我的分享就到这里,非常感谢大家的聆听!