数栖⼤会旨在搭建⼀个数据⼈共同分享创新变⾰、思维⽅法和优秀实践的专业平台。
    秉持“让数据用起来”的使命,本次⼤会,我们不讴歌⾼光大咖,不关注流量明星,更希望邀请那些在数字化转型泥泞之路上奋进拼搏的⼈们,共同来分享每⼀个转型故事背后的拓荒之路,为那些还在转型创新之路中迷茫探索的组织,带来更切实有价值的帮助——用新视野、新思路,推动数字化变革融⼊企业DNA之中!

    在本次大会上,数澜科技联合创始人兼CTO江敏表示,数据资产中心解决的核心问题是让企业的数据可以被看见、被看懂、被用起来、被利用。

2.jpg

   以下为数澜科技联合创始人兼CTO江敏在“2019首届数栖大会”精彩演讲实录,由云现场整理。


    非常高兴今天能有这么多领导和嘉宾来到现场参与我们的数栖大会!
    很荣幸今天能够有这么多专家、客户、投资人、媒体以及在数据路上前行的数据人,一起见证我们数栖4.0的发布,这里有三块:数栖4.0产品家族、数栖平台(SaaS)、企业级服务。
    去年我们发布了数栖3.0版本,经过一年的沉淀和打磨,今天数栖4.0跟大家见面。我们希望给到大家的不仅仅是工具,我们希望它给到大家的是一套流程和生产线,能够帮企业把数据用起来。为什么是工具和生产线的区别?因为如果你只是提供工具和配件给到企业,它需要有非常专业的背景、专业的知识、专业的经验,才能把这些配件和工具组装成一条流水线。数澜团队刚好具备了这样的能力,所以我们在输出的时候希望能够把它直接变成生产流水线的方式给到企业,帮助企业把它的数据源源不断地加工成有价值的数据资产,来服务我们的业务,让我们的数栖平台成为企业数字化转型过程中的基础设施。
    去年发布的时候,数栖产品家族只有交换中心和离线开发中心,经过一年的研发,我们又研发了很多相关的能力。前面几位嘉宾分享的时候也提到大数据的能力其实更多需要闭环机制的构建,相当于我们把各块能力补齐。所以我们可以看到它有非常多的相关产品组件,最核心的是实时开发中心、算法中心、数据资产中心。除此之外还有服务中心、可视化工具。当然我们更多会对相关组件采用开放生态的方法,能够集成行业非常优秀的产品,比如说分析型工具。关于离线开发中心,我们经过这一年的打磨,在各块能力上都有很大的升级,尤其是在坚持多云战略上。我们今天会发现企业的信息系统架构非常复杂,每个企业都有每个企业的特性,你不可能以一种完全重建的方式构建企业数据中台。而且企业的数据中台更多也是做承上启下的工作,不应该是一个孤立存在的事物。所以在这个过程中,我们怎么样能够更好兼容企业现有的信息架构,是我们在一年多有非常多实践,而且在实际客户中有十几应用的关键点。我们目前有数据源适配,目前有20多种数据源接入,对于多云厂商我们也有很多。对多计算引擎也是一样,各个厂商的计算引擎适配也超过10种。
    实时开发中心这一块,魏所长也提到一个概念,未来的数据从离线转向在线化。王坚博士提过数据价值在于在线化,今天也是一样的,我们的数据怎么样能够快速在线化给到用户或者业务,也是我们整个数栖平台里面需要考虑或者说非常重要的核心构成。这里面主要解决的问题会分成两个方面,一方面是数据同步,怎么样能够快速做数据的复制和配分,第二是关于实时计算。关于数据同步,我们主要采用可视化方式来实现流程的设计和管理,让整个开发的使用门槛快速降低,让大家可以很方便地用起来。在这个过程中,我们可以支持多版本和多协议的适配,避免企业因为要使用一种新技术而重新改造他以前的代码。还有一块是我们在实时计算场景中非常核心的一点,就在于我们在业务的升级过程中是否需要有停机的动作,我们也提供了热更兴相应的技术,来避免我们在系统升级时带来停机的问题。对于实时计算,我们主要采用SQL驱动、拖拽式开发,提供维表JOIN、子图调试、多计算引擎等主流框架,我们都可以很好适配。当然我们会提供完整的监控体系,来保障平台的运行。
    算法中心,这一部分非常重点。企业数据体量积累越来越多,这部分的挖掘仅好传统的SQL或者数据建模过程,很多价值无法挖掘。这时候我们会用到机器学习和深度学习的相应技术,就离不开算法中心的能力。我们在这里面提供高效建模的方法,比如通过可视化拖拽方式快速建模,主要面向群体是对于缺少工程化能力,但有算法背景的同学。同样,我们也提供notebook建模方式,可以灵活建模。除此之外,我们还沉淀公司最佳实践的模板,我们会把以前做的CTR预估模型或者NLAP相关组件或者知识图谱相关能力沉淀平台,让很多企业也可以根据场景判断哪套模型或者算法在我的场景中用起来。这种方法,可以直接降低企业对这方面人才的要求。除了这方面还有一点,就是对于当前多种主流的机器学习和深度学习的框架集成,目前我们都已经比较好地适配。同时对加速和优化方面也做了很多工作,比如说单机多卡、多机多卡、分布式线性和加速。
    数据资产中心解决的核心问题是让企业的数据可以被看见、可以被看懂、可以被用起来、可以被运营企业。我们不知道企业到底有多少数据、数据分布在那儿、哪些数据有价值、哪些数据在哪些场景有价值。所以我们在构建数据资产中心的时候,会围绕“数据用起来”的目标来构建数据的能力。当然这里面涉及到几个核心组件,一方块是我们的标签管理,我们经常说的一句话就是数据时代非常大的一部分魅力来自于标签能力的建设。所以在这一点上,我们对于标签的能力管控或者说在管理是非常重要的。同样,对于源数据包括我们的数据质量和数据安全,这是老生常谈的问题,我这里不再讲解。
    数栖平台有非常多种环境的选择,包括公共云SaaS模式,还有专属混合云模式,还有专属私有云的模式。不同模式对企业的阶段,包括建设预算包括数据管控的安全要求都不一样,所以能满足企业多样性的要求。针对SaaS的群体,我们这次也会有一个版本发布。经过这么长时间在市场上的调研,发现除了专属混合云模式的用户群体和私有云客户群体之外,还有一批客户非常希望能把数据能力用起来,能够让数据助力他们企业的发展。但由于种种原因,成本的原因或者人才的原因各方面的原因,导致没有办法用起来。这个过程中,我们希望能够开发快速高效低成本的方式,让企业把数据用起来,所以我们这里会发布数栖SaaS版本。
    我们的目标是希望通过三年的时间,助力10万家企业能把数据用起来,真正实现数据化转型。在这个过程中,我相信也会碰到很多困难,所以我们现在也会提前做市场分析。通过调研分析,发现很多企业没有把数据用起来的核心几个原因是:1.很多企业不知道自己的数据有价值。我们以前在阿里做数据的时候,经常自我嘲讽的一句话就是坐着金山啃馒头,你下面明明知道是金矿,但并不知道有多少价值,所以需要有人带着你把数据挖掘起来;2.大数据人才的紧缺。大家做过招聘或者做过企业的都知道,现在招聘大数据人才非常难,而且对技术门槛要求非常高;3.其他方面的原因,比如说对数据安全的顾虑也是其中的一些问题。所以我们针对这些问题,也列了一些相应的解决方案,比如说我们通过工具的可视化,包括我们沉淀一些行业的模型和模板,让企业能够快速有这种能力,降低企业使用大数据的门槛;4.提供相应的企业服务培训能力。我们公司本身有很多的行业专家,有近十年的工作经验,包括完整参与了阿里数据中台建设,包括参与很多头部客户企业的数据中台和数据能力的建设。我们希望把这种经验转化为服务,输出给到企业。当然对于安全这一块,我们也提供了类似数据可以托管在自己可管控的环境里面,我们通过任务的调度、全线的管控、资源的隔离,来做到数据安全可控的状态。
    我们在这个过程中也开启了“火种计划”的行动。火种计划的主要目的是通过招募种子用户,我们输出行业经验或者是实践经验,以场景化的方式手把手教他们怎么样运用大数据的技术。在这个过程中,帮助他们构建出自己的数据能力。我们希望通过三年的时间,能够有1000家IDV产生。大家都知道以前在IT时代做信息化开发的时候有一个名词叫ISD,就是独立软件供应商,我们希望在DT时代有一个IDV的角色,是独立数据能力的供应商。通过生态合作的共建,让大家一起来为数据生态做贡献,共同掀起数据时代的波澜。
    这里面也有SaaS版本的两个套餐,一个是基础套餐,一个是专业套餐,套餐更多体现产业功能的点。核心的点是背后有这么多经历阿里数据中台建设的专家在背后提供的服务能力。
    大家觉得我们对这块怎么定价?目前经过内部的慎重考虑,我们决定对基础套餐永久免费。我们希望通过数澜的赋能,能够让更多的企业真正把数据用起来,真正把数据做成企业的重要生产资料,能够推动企业的升级转型,帮助企业在下一个时代更具有竞争力。目前我们已经有6家种子客户,现在已经在跟我们一起打磨培训课程体系,包括我们根据他们的行业场景指导他们怎么样用数据能力。这部分客户现在也在跟我们一起完善未来的培训计划,所以在这里面非常感谢这六家客户给我们的支持!
    还有一块是我之前经常提到的,包括风剑也经常提到的企业级服务的能力。我们希望数澜能帮助企业构建未来十年甚至二十年发展所需要的核心能力,而不是解决你当前某一个需求点。所以在这块能力的构建上,我们会帮助企业怎么样能把自己数据能力的团队构建起来。除了技术,还有我们的团队,还有我们的人才,一起帮他构建起这种能力之后,我相信企业能把自己的数据流动起来,数据中台的建设才有可能会越做越好,所以这里面我们会分成技术服务、数据专家咨询服务、企业使用数据场景和方案的专业培训服务。
    我们的目标是三年让10万家企业真正把数据用起来。数澜希望成为客户依赖的数据应用基础设施供应商。谢谢大家,我今天的发布会到此结束!