华为发布河图引擎，将数据湖升级为“大数据库

在2019全球数据基础设施论坛上，华为全面启动了数据基础设施战略，发布并开源了数据虚拟化引擎HetuEngine（河图引擎）。今天就和大家一起来了解一下河图引擎的核心能力，以及它是如何成为连接数据湖基础设施与数据应用之间的桥梁，让数据更易于挖掘和治理。

随着自动驾驶、4K/8K视频、AR/VR、物联网等应用兴起，数据量成爆发式增长。根据华为全球产业展望(GIV)报告显示，全球数据量将从2018年32.5ZB快速增长到2025年的180ZB。海量的数据孕育了巨大的机遇，也带来了极大的挑战。生产系统产生的海量数据，如果不进行分析挖掘，数据只能算是一种资源，甚至会成为企业的负担。

数据湖为数据分析挖掘场景而生。数据湖这一概念，最早是在2011年由CITO Research网站的CTO和作家Dan Wood首次提出。其比喻是：如果我们把数据比作大自然的水，那么各个江川河流的水未经加工，源源不断地汇聚到数据湖中。数据湖初衷是对海量的多样性数据集中低成本存储，然后通过融合协同分析，挖掘数据价值。让数据应用简单、好用、低成本，满足业务创新诉求。但现实的数据湖，由于方案不完整，多技术并存，没有厂商能提供完整数据基础设施（计算、存储、软件、硬件）等诸多因素，导致各组件，各系统不能很好的协同，依然存在大量数据孤岛，协同分析难，成本高，灵活性低。

而华为这次发布的数据虚拟化引擎-河图引擎，通过“一个目录、一个入口、一份数据、统一安全”四大核心能力。华为FusionData智能数据湖解决方案基于河图引擎，可屏蔽数据基础设施与应用对接的复杂度，降低开发难度，打破数据库与大数据壁垒，升级为“大数据库”。与数据中台进行客户应用改造的方式不同，华为河图引擎是一个让数据基础设施走向平台化的平台，不会对客户原有应用改造，为客户和伙伴提供标准的接口，对下解决数据接入和共享的难题，对上确保多样化应用按需接入，实现数据的分析挖掘。最终让客户数据应用更简单，让业务更敏捷。

河图引擎具备4个核心能力：

● 一个目录：通过元数据在线感知，构建1000+异地异构数据源全局虚拟数据视图，打破数据孤岛，数据全局可视，解决企业数据查找难问题。

● 一个入口：通过开放的连接框架、5000节点SQL引擎，实现30种异地异构数据源统一SQL访问，秒级获取，数据全局可得，解决企业数据获取难问题。

● 一份数据：通过CarbonData技术，实现一份数据多场景分析，多应用共享，数据0搬迁，数据全局可用，解决企业用数难问题。

● 统一安全：通过细粒度动态授权、敏感数据自动感知技术，实现异地异构数据源集中式安全配置与管控，数据全局可控，数据授权时间从天到秒，解决企业数据安全与合规问题。

华为之所以将数据虚拟化引擎命名为河图引擎，源自“大禹得河图后始见清明”。大禹治水有三件法器，一件是河图，一件是定海神针，一件是开山斧，治水的过程首先是通过河图总览河流山川地形地貌，然后通过定海神针先稳定水势，最后开山斧依据山川地形地貌疏通水路。河图寓意是华为做好数据湖基础设施，让“大禹”（合作伙伴和客户）拿着开山斧，定海神针更加易于挖掘，治理数据。通过“平台+生态”策略，在数据产业里创造一个共赢的生态环境。