工业和信息化部主管 中国电子报社主办
收藏本站 投稿

大数据

数据编织,大数据的新风口?

怎么实现“数据找人而不是人找数据”的梦想?“数据编织”(Data Fabric)悄然登场。2018年“Data Fabric”首次出现在Gartner的十大数据与分析技术趋势中,以后每年它都会出现在其中。10年前大数据概念在国外兴起后,不到3年就被中国用户广泛接受,而今天大多数中国厂商则是按兵不动,这又是为何呢?

从“数据经纬”到“数据编织”

Data Fabric的中文名字到底怎么翻译,IBM公司与Gartner有了分歧。IBM大中华区科技事业部云计算与认知软件部数据与人工智能信息架构产品总监王积杰将其称为“数据经纬”,而Gartner高级研究总监孙鑫认为“数据编织”更为合适,因为他认为数据编织更凸显“动态”。

在Data Fabric出来之前,数据结构的设计主要部署成静态基础设施,而在未来将需要采用更动态的数据网格方法全面重新设计。

孙鑫在接受记者采访时表示,Data Fabric不是一个产品而是一种设计理念,是利用AI、机器学习和数据科学的功能,访问数据或支持数据动态整合,以发现可用数据之间独特的、与业务相关的关系。

而IBM对Data Fabric的看法,与Gartner专家提到的“动态”“数据网格”和AI赋能并无冲突。IBM中国研发中心首席技术官赵军伟解释说:“经纬作为名词,本意为织物的直线与横线,引申为连接万物的规律,作为地理概念,经纬度可以定位地球上任何一个位置,而‘数据经纬’则可以在纷繁复杂的企业数据目录里定位任意一个数据源。经纬用作动词,是规划治理的意思,《周书·静帝纪》中提到的‘经天纬地’就是治理天下的意思。”

“我们可以把Data Fabric想象成一张虚拟的网,这张网并不能理解为一种点对点的连接,而是一种虚拟的连接,每个节点都可以是不同的数据系统,不同系统上的数据在网上都可以迅速地被定位和找到。Data Fabric的主要功能是把正确的数据,在正确的时间里,给到正确的人。通过DataFabric,对的人可以从对的地点,在对的时间里,获取对的数据。” 王积杰对记者说。

现在的数据连接的架构设计还主要是“人找数据”,而Data Fabric设计核心是“数据找人”,在合适的时间、将合适的数据推送给需要的人。

为什么Data Fabric将会成为一种趋势,为什么越来越多的企业将在未来采用这样的方式进行部署?王积杰谈及了数据利用结构模式的变化。传统IT时代,无论是早年的“数据仓库”还是近几年的“数据湖”和“大数据”时代,其实数据利用都是集中式的架构,把数据收集到一起,让企业的数据分析师、BI(商业智能)分析师对数据进行分析。但在云计算时代,用户业务部署在多云的环境下,要想将分布在不同云上的数据集中在一起成本很高,也很费劲,于是采用去中心化、分布式的数据网络架构就成为了必然选择。

Data Fabric可以同时给业务和技术团队带来明确的价值,王积杰表示,从业务层面来看,由于企业能更容易地获得高质量的数据,从而能更快和更精确地获得企业数据洞察。从技术层面来说,由于数据复制的次数和数量较少,从而减少了数据集成的工作,方便维护数据质量和标准,也减少了硬件架构和存储的开销。由于减少了数据复制和大大优化了数据流程,加快并简化了数据处理过程,从而通过实施自动化的整体数据策略,减少了数据访问管理的工作。

Gartner认为,随着数据的日益复杂以及数字化业务的加速发展,Data Fabric已成为支持组装式数据分析及其各种组件的基础架构。由于在技术设计上能够使用/重复使用及组合不同的数据集成方式,Data Fabric可缩短30%的集成设计时间、30%的部署时间和70%的维护时间。IBM 7月发布的Cloud Pak for Data4.0的软件组合增加了智能化的Data Fabric功能,其中AutoSQL(结构化查询语言),可以通过AI来自动访问、整合和管理数据,可以帮助客户以8倍的速度、不到一半的成本,获得分布式查询的答案。

变“人找数据”为“数据找人”

要实现“数据找人而不是人找数据”,Data Fabric究竟如何“编织”?

王积杰认为,Data Fabric至少需要四个维度的能力。一是能够在数据之间建立虚拟链接,简化数据访问的模式,从而减少数据复制的数量。二是需要建立一个企业数据目录,并需要利用AI技术,自动化地实现基于语义和知识的分析,理解数据及其业务含义,并建立知识图谱, 从而使数据目录变得智能化和自动化。能够让需要数据的用户,随时了解到需要的数据在哪里、数据质量如何等。三是建立自动化数据平台,允许用户通过自服务的方式,访问并获取数据。四是通过提供整体的自动化策略,确保数据安全,增加数据的隐私和权限保护,并提高数据质量。

数据编织是一种新的设计理念,它是数据管理、数据收集理念的变化,与数据仓库、数据湖等技术并不是替代的关系,既可以运用现有的数据中枢、数据湖和数据仓库的技术和技能,也可以在未来加入新的方法和工具。

孙鑫谈到了实现Data Fabric的一些关键技术,比如增强型数据目录,要想实现数据找人,而不是人找数据,需要增强的数据目录,它要涵盖用户使用数据的频度与机制,了解数据与业务的关系,还包括知识图谱,通过知识图谱找到数据与业务之间的关系,找到元数据利用的整合策略,也包括推荐引擎以及在数据准备阶段的低代码等工具,低代码工具的作用在于降低数据使用的门槛,加速数据产品化。

从Data Fabric推动的难点来看,“一是理念层面的难题,中国的用户还没有意识到,数据利用和使用的方式已经发生改变,传统的集中收集再利用的方式已经不能满足需要。二是目前很多企业对于元数据不够重视。三是从人的角度看,需要提升企业数据工程师对知识图谱、图语言、图建模等数据工具的能力培养。四是数据编织的实现并不是找到一个厂商就能够完成,它是一个旅程,需要分几步走。”孙鑫认为,从用户的角度看,率先采用Data Fabric的是金融电信行业以及数据应用场景比较复杂的用户。

在这一点上,王积杰表达了与孙鑫一致的观点——这是一个方向,但并不能一蹴而就,用户需要分步实施,关键是要意识到趋势,在后续的项目实施中,按照Data Fabric的理念来构建。

国内厂商为何按兵不动?

尽管Gartner、Forrester等分析机构在几年前就提出Data Fabric是数据利用与分析领域的革命性变革,是未来方向,但记者联系国内大数据相关领域企业进行采访时发现,对此了解或进行布局的企业并不多,甚至找不到。

这与国内大数据厂商的分布有关。“国内有很多做数据库的企业,也有很多做BI(商业智能)的企业,但做数据整合的企业很少。而事实上,在国外做数据编织的往往是数据整合、数据虚拟化的厂商,这就很好理解为什么国内的大数据厂商迟迟未入场Data Fabric,因为这类企业就不多。” 孙鑫告诉记者说。

从公开信息看,目前IBM、Informatica和Telend等推出了针对 Data Fabric的解决方案,王积杰透露,IBM的Cloud Pak for Data针对上述Data Fabric必须具备的四个基本能力,都能给予很好的支持,而且在IBM内部是以前所未有的力度在推动。但除了IBM之外,那些传统关系型数据库、云数据库的大公司们目前并没有积极入场。

大厂商们没有入场很好理解,因为在Data Fabric的理念下,往往需要采用点和边的新方式去描述数据关系,需要知识图谱、图数据库等,这往往是新锐公司在做的领域,而大厂商们往往有自己的数据整合工具,他们都希望在自己的平台上进行整合,但是这样的局面一定会在之后的几年发生变化。

“Data Fabric这个概念在国际上已经热起来了,但目前国内的IT用户知道的人还不多。10年前大数据的概念在国外兴起后,不到三年就被中国用户广泛接受,未来这个 Data Fabric概念,中国将需要多久接受并加以应用呢?等待时间给出答案。“王积杰说。

责任编辑:赵强


声明

1、本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2、本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3、作者投稿可能会经我们编辑修改或补充;4、如本站的文章或图片存在版权,请拨打电话010-88558835进行联系,我们将第一时间处理。

相关链接

视频

专题

2021年上半年中国家电市场报告

8月9日,中国电子信息产业发展研究院(又称赛迪研究院)发布了《2021年上半年中国家电市场报告》(以下简称《报告》)。《报告》显示,2021年上半年,我国家电市场加速回暖,零售额达4293亿元,同比增长16.3%;家电消费进一步向线上迁移,电商渠道对家电零售的贡献率达53.65%;家电产品均价普遍提升,高端家电销售热度不减,有效促进了消费升级...

新思想引领新征程·红色足迹

党的十八大以来,习近平总书记在地方考察调研时多次到访革命纪念地,强调要从中国革命历史、优良传统和精神中汲取养分。追寻红色足迹,感悟初心使命。即日起,本报推出“新思想引领新征程·红色足迹”专栏,跟随习近平总书记的红色足迹,访当事人、忆当年事,重温总书记的重要论述和重要指示精神,生动回顾红色圣地光荣的革命历史、优秀的革命传统...

聚焦2021年全国两会

3月5日,第十三届全国人民代表大会第四次会议在北京人民大会堂开幕。党和国家领导人习近平、李克强、汪洋、王沪宁、赵乐际、韩正、王岐山等出席,栗战书主持大会。初春的北京,处处生机盎然。第十三届全国人民代表大会第四次会议5日上午在人民大会堂开幕。近3000名全国人大代表肩负人民重托出席大会,认真履行宪法和法律赋予的神圣职责。

2021年全国工业和信息化工作会议

12月28-29日,全国工业和信息化工作会议在京召开。会议以习近平新时代中国特色社会主义思想为指导,全面贯彻党的十九大和十九届二中、三中、四中、五中全会精神,认真落实习近平总书记重要指示批示精神和中央经济工作会议部署,总结2020年工业和信息化工作,分析形势,部署2021年重点工作。工业和信息化部党组书记、部长肖亚庆作工作报告。

世界超高清视频(4K/8K)产业发展大会

会议

2021世界显示产业大会

6月17日,由工业和信息化部、安徽省人民政府共同主办的2021世界显示产业大会在合肥市开幕。安徽省委书记李锦斌出席开幕式并宣布大会开幕,安徽省省长王清宪、上海合作组织秘书长弗拉基米尔·诺罗夫、工业和信息化部副部长王志军出席开幕式并先后致辞。

2021世界超高清视频(4K/8K)产业发展大会

5月8日-10日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2021世界超高清视频(4K/8K)产业发展大会在广州召开。5月9日,广东省委书记李希出席开幕式,工业和信息化部部长肖亚庆、广东省省长马兴瑞、国家广播电视总局副局长孟冬、中央广播电视总台编务会议成员姜文波出席开幕式并致辞。

CITE2021第九届中国电子信息博览会开幕论坛

4月9日,第九届中国电子信息博览会(简称CITE2021)在深圳举办。深圳市人民政府市长陈如桂、广东省人民政府副秘书长陈岸明、工业和信息化部电子信息司司长乔跃山出席开幕式并先后致辞。

2020世界显示产业大会

11月20日,由工业和信息化部、安徽省人民政府共同主办的2020世界显示产业大会在合肥市举行。在开幕式上,工业和信息化部部长肖亚庆、韩国驻华大使张夏成发表视频致辞。安徽省委副书记、省长李国英,工业和信息化部副部长王志军出席开幕式并致辞。

2020世界超高清视频(4K/8K)产业发展大会

11月2日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2020世界超高清视频(4K/8K)产业发展大会在广州市召开。广东省委书记李希出席开幕式,省长马兴瑞出席并致辞。国家广播电视总局局长聂辰席、工业和信息化部副部长王志军、中央广播电视总台副台长蒋希伟出席开幕式并致辞。

2020世界VR产业大会云峰会

10月19日—20日,由工业和信息化部、江西省人民政府主办的2020世界VR产业大会云峰会在南昌举行。在10月19日的开幕式上,中共中央政治局委员、国务院副总理刘鹤发来书面致辞。江西省委常委、南昌市委书记吴晓军,工业和信息化部副部长王志军,江西省委书记、省人大常委会主任刘奇先后致辞。开幕式由江西省委副书记、省长易炼红主持。

世界显示产业大会

本周排行