短短三四年,湖仓一体便从新兴概念跃升为大数据领域十大关键词之一。
(资料图)
作者|陈杨
编辑|栗子
从燧人氏结绳记事到甲骨文的出土再到蔡伦造纸,种种历史大事件告诉我们,在记录、存储、使用等数据相关的一系列操作上,中国有着深厚的经验和积淀。
由于前两次工业革命落后太多,导致在信息化时代国人即便奋力追赶,在数据的存储、调用上,仍要向Oracle、IBM等国际巨头看齐。
好在,数据在彼时没有像今天这般重要。
如今,数字化转型如火如荼,国家层面已将数据上升到第五类生产要素并出台“数据二十条”。数据的重要性日益凸显。
在此过程中,国人在数据方面的基因已觉醒,开始积极探索应用国产基础软件,助力身处数字化变革中的企业,实现数据价值的最大化。国产大数据基础软件,正在企业数字化转型中扮演着越来越重要的角色……
1.数据驱动的更优解
毋庸置疑,随着移动互联网的普及和超高渗透率,我们已迎来了一个数据大爆炸的时代:结构化数据、半结构化数据以及非结构化数据的层出不穷,丰富了数据的应用场景,更增加了企业的存储、管理难度。
另一方面,在“云大物移智”等数字化技术推动下,全球正掀起第四次工业革命,一次基于数据、基于AI的革命。
数据摇身一变,从静静待在HDD、SSD等介质里的被存储对象,变成了宝贵的资产。国家借助数据要素发展数字经济;企业借助数据,从流程驱动走向数据驱动,成为数智企业。
从被存储对象到资产,数据的蜕变离不开技术的赋能。事实上,技术也一直赋能着数据,只不过在不同阶段以不同的方式赋能:
PC互联网年代,数据还是结构化数据的天下,企业更多借助结构化数据进行分析。为满足企业敏捷的数据分析需求,基于联机分析处理(OLAP)的数据仓库(Data Warehouse)概念开始出现并迅速发展。
移动互联网时代,在社交、视频等平台带动下,XML文档、图片、音视频等半结构化、非结构化数据呈指数级增长,数据湖(Data Lake)和数据仓库并肩作战,成为企业处理数据的另一项重要工具。
二者之所以“并肩作战”而非替代,是因为数据湖虽然具备更好的开放性与灵活性,但其在OLAP方面的性能不足、数据的一致性和ACID能力缺失,使得其无法替代数据仓库。
这对深处数字化变革中的企业而言,无疑是个棘手的问题:数据仓库与数据湖的并存,带来的是数据的割裂、高额的开发成本、维护成本。
那么,面向当下以及未来,有没有一种更好的方式,能够帮助企业更快地实现数据驱动?
答案呼之欲出:湖仓一体(Data Lakehouse)。
这个由Databricks在2019年提出的技术,很好地将数据仓库的高性能、管理能力与数据湖的开放性和灵活性融合,实现了海量异构数据的统一存储、计算、开发、管理和服务,从而帮助企业解决数据孤岛、数据冗余,系统维护等问题。
极具优势的湖仓一体技术,在短短三四年里便从一个新兴概念成为大数据领域的重要发展趋势,Databricks也凭此成为估值300多亿美元的超级独角兽。
众多行业报告从前景、规模等市场层面阐述了湖仓一体的未来:信通院将湖仓一体列为《2023大数据十大关键词》;
IDC 调研显示,有 66.9%的企业了解湖仓一体架构,有 85%的企业正在部署或考虑评估升级湖仓一体架构。IDC在《中国人工智能与大数据技术图谱,2022》中,将湖仓一体列为递增型代表技术,其将在中长期持续提高、优化业务交付体验,作为支撑智能产业发展的统一数据底座;
爱分析日前发布的《2022年中国湖仓一体平台市场研究报告》显示,2022年中国湖仓一体平台软件市场规模15.2亿元;预计到2025年,这一数字有望达到97.6亿元,2022-2025三年复合增长率高达86%。
2.走出更适合中国企业的湖仓一体之路
横向对比国内外湖仓一体市场,尽管才刚刚兴起,但中国企业已经和国外巨头走出一条截然不同的路。
以Databricks为代表的国外湖仓一体巨头,更注重湖仓一体架构的搭建和AI能力的引入。而数据的治理、应用等,则交给生态合作伙伴,以生态的方式为客户提供全生命周期的数据服务。这在Salesforce、Workday等其他领域国外巨头服务客户时也常常能看到。
国内湖仓一体厂商更倾向于“端到端”服务,即通过平台的方式,为客户提供从数据的接入、开发、治理到数据资产的管理、运营全生命周期服务。事实上,这种平台化的方式,不仅在湖仓一体领域运用,在中国其他企业应用软件领域也广泛适用。
这种平台化的方式,也的确更适合中国企业的数字化转型。相比欧美,中国企业的数字化能力参差不齐、场景更丰富且个性化需求多,外加国内服务商的产品或者工具开放性有限,所以平台化更能够帮助中国企业一步到位。
《2022年中国湖仓一体平台市场研究报告》也表明,在国内,中国本土湖仓一体厂商更受市场欢迎。数据显示,2022年中国湖仓一体平台软件市场规模达15.2 亿元。其中,科杰科技市场份额占比 11.1%,位居第一,其次为华为云和星环科技,占比分别为9.5%和7.3%。
3.中国湖仓一体领导者的修炼手册
短短三四十年间,中国科技伴随中国经济的腾飞而发生着翻天覆地的变化:从PC互联网时代的追赶到移动互联网时代的并肩再到数字化时代的领先。
将视野重新拉回湖仓一体,面对这个由国外巨头率先进军的领域,国内厂商又是如何在三四年内做到在中国湖仓一体市场中一枝独秀的呢?
我们不妨透过科杰科技,这家中国湖仓一体市占率第一的厂商视角,找寻这个问题的答案。
毫无疑问,湖仓一体作为一款面向数智企业打造的数字化解决方案,技术的先进性应是基本条件。
科杰科技打造的湖仓一体数据智能平台KeenData Lakehouse,运用了存算分离、ACID事务性、批流一体、Data Fabric(数据编织)、Data Virtualization(数据虚拟化)、Active Metadata Management、Data Mesh 、DataOps等业内最先进的技术。
诸如Data Fabric、Active Metadata Management、Data Mesh 等理念,目前在国内还处于起步阶段,科杰科技却已经将其引入产品中。
除此之外,在实现湖仓一体上,科杰科技在技术架构上选择了更先进的湖仓融合方式,产品KeenData Lakehouse提供的多架构统一纳管能力,帮助企业无需迁移数据仓库和数据湖的历史数据,最低成本地实现数据架构与引擎统一,降低架构复杂性的分析与成本,同时大幅度提升数据开发的效率。
在近期IDC发布的《湖仓一体数据平台技术能力评估报告》中,KeenData Lakehouse凭借着领先的技术实力在报告中获得推荐,成为行业备受推崇的湖仓一体大数据平台之一,入选Gartner《2023 年中国数据、分析和人工智能技术成熟度曲线报告》可组合D&A标杆厂商。
产品完备性是其制胜的关键。数据从被存储对象到资产化的过程,是一场异常复杂、长流程的蜕变,唯有连续、无断点才能达成企业数据驱动的目标。科杰科技在技术的先进基础之上,进一步打造了功能完善的数据产品。
KeenData Lakehouse湖仓一体数据智能平台是一个数据底座产品矩阵,由十二个部分构成,分别涉及主数据的管理、数据标准、数据质量、数据指标、数据开发管理、实时计算、数据同步、数据科学以及数据标签、数据服务和数据资产等数据全生命周期服务,覆盖数据多架构统一纳管、工程化能力、治理与工程能力相融合、集中式管制和分散式赋能等能力,全体系的大数据基础软件产品为大型组织的数据驱动建设内生的数据能力提供了基础。
科杰科技湖仓一体数据智能平台KeenData Lakehouse技术架构图(图片来源:爱分析)
无论是信息化还是数字化解决方案,其根本用途在于赋能业务增长、促进组织变革,所以如果产品仅仅停留在技术先进、功能完善层面,远远达不到企业数字化转型的目标。
成熟的方法论以及丰富专业的落地实践,恰恰是科杰科技的又一杀手锏。科杰科技在其基础软件平台KeenData Lakehouse内融合其独有的大型企业复杂场景下数字化转型的最佳实践理念,这是承载中大型企业构建内生数据能力的心脏。
科杰科技与每一个客户深度合作,共同推进数字化转型。据悉,科杰科技已帮助中国石化、中国一汽、中国联通、国家电网、中金公司等行业头部企业完成数据底座体系化建设,覆盖政府、能源、金融、零售、工业等多个行业。
持续的贸易战为行业的发展提供了助力,将国产化提到更高的高度。科杰科技湖仓一体数据智能平台KeenData Lakehouse,通过自主研发创新,替代国外开源的数据库和大数据产品。在修炼内功的同时,科杰科技也不断与国内信创企业完成产品兼容性适配认证,目前已在基础软件、基础硬件等信创生态体系上构建了全栈全场景的解决方案。
4.坚实的数据底座,加速AI大模型产业化
今年年初,以ChatGPT为代表的AIGC在全球范围内掀起AI大模型浪潮。半年过去,AI大模型浪潮不仅没有退去,反而愈演愈烈,除了互联网大厂、云服务商、AI公司等各类玩家纷纷跟进,另一明显趋势便是AI大模型开始向B端渗透。
谈及AI大模型,我们除了要看到其在最上层的应用场景,同样需要看到其千亿级的参数、超强的算力以及高质量、大规模、多样化的数据。而AI大模型的To B,除了要在这些基础之上,更要加入对高并发、高可靠性的支持,以及对行业、对业务场景的理解。
这对天生To B、天生与数据打交道的众多湖仓一体厂商而言无疑是个机会,于科杰科技更是一个进一步扩大领先优势的机遇。原因在于,科杰科技打造的KeenData Lakehouse湖仓一体数据智能平台,完全涵盖AI大模型对中间件基础软件要求的必备能力。
后续,科杰科技一方面将持续以数据底座的姿态,为AI大模型的落地提供数据基础设施和数据能力的支撑,另一方面将把KeenData Lakehouse与服务各行业的Know-How深度耦合,在AI大模型落地基础上加速产业化。
在数智化、国产化双重大背景下,AI大模型唯有基于国产基础软件打造的数字底座实现产业化,从而提升个人以及企业的生产效率乃至社会的运转效率,才能发挥其真正的价值,避免再次被“卡脖子”。中国也才能在AI驱动的第四次工业革命中、在数字经济的竞赛中拔得头筹,这是以科杰科技为代表的国内大数据基础软件供应商以及全体科技工作者的责任。
(封面图来源:拍信创意)
END.