订阅
纠错
加入自媒体

大变局:国产数据库的机遇与挑战|深度研报

2022-03-29 14:08
光锥智能
关注


就在本月,乌克兰副总理兼数字化转型部长Mykhailo Fedorov在推特上晒出了发给Oracle和SAP的两封信,希望其终止与俄罗斯的商业关系。Oracle随后发推文称:“为了Oracle在全球各地的150000名员工的利益,为了支持乌克兰民选政府和乌克兰人民,Oracle公司已经暂停了在俄罗斯联邦的所有业务。”

俄罗斯的遭遇给了中国很大警示,在当前国际贸易摩擦加剧、国际局势多变的情况下,数据库软件作为最重要的IT基础设施之一,中国必须实现国产化和自主可控,由此也引发了近年来国产数据库的创业投资浪潮。

作者丨王圆珍

本报告由势乘资本和光锥智能联合发布

本报告成文于2022年3月

研究提纲:

01 核心结论汇总

02 市场环境

l 数据库行业的定义及边界

l 行业常见名词释义

l 行业历史及阶段

l 市场需求及价值

l 市场规模及增速

l 市场增长的驱动因素

03 产业链与行业格局

l 产业链及行业图谱

l 行业集中度

l 竞品分析/对标/推荐项目

l 行业的决胜要素

04 国外相关公司

05 推荐标的

核心结论汇总

(1)数据库行业云化趋势显著,所有数据库都可直接上云,云原生架构最具优势。Gartner预计,到2021年,云数据库在整个数据库市场中的占比将首次达到50%;而到2023年,75%的数据库要跑在云平台之上。

(2)国产数据库存在广泛替代空间。目前,国产数据库主要应用还是在党政军领域。国产数据库长期被Oracle、IBM、MySQL这类产品挤压,随着中美贸易战的升级、国家鼓励软件国产化,国产软件将会越来越被重视,这将是一大转变契机。

(3)我国公有云、私有云、混合云将长期共存,云数据库作为基础性产品,需要支持跨云、多云、混合云。初创厂商具备云中立优势,可以避免客户被过度绑定,提供多云支持,拉动客户增长;很多公司并未采用单一的云厂商,他们的大多数业务都运行在混合环境和多云环境中。

(4)湖仓一体成为发展热点。「湖仓一体」是一种新型开放式架构,将数据湖极低成本存储大量数据和数据仓库高性能进行大量数据处理的优势充分结合,通过一套架构、一个集群、一份数据,真正消除数据孤岛。

(5)大数据与数据库一体化趋势明显。用户可直接用SQL处理海量数据对厂商有以下需求:1.内核引擎强劲,一定性价比对外输出海量数据分析处理能力;2.生态工具要完善。

(6)场景端时效性要求倒逼数据库厂商提升产品性能,产品性能持续领先是决胜要素之一。产品硬核实力及成熟度是决定营收规模及增长的主要因素。

(7)分布式数据库快速发展。分布式数据库物理上更贴近业务部门,可以降低通信成本;同时增加数据的适当冗余,因为一个地方出了故障不会引起整个系统崩溃。

(8)智能化运维助力数据库智能调优。启发式机器学习技术给予海量运行数据形成智能运维模型,自动化处理各项任务,例如自动管理计算与存储资源、自动防范恶意访问与攻击、主动实现数据库智能调优。

(9)开源策略成为部分厂商吸引用户、盘活生态和促进技术发展的重要手段。通过将底层技术开源,可以吸引更多人开发、测试、维护,不仅可以降低厂商售后和服务的成本,还可以进一步提高软件质量,同时有利于构建生态。

(10)One size cannot fit all。虽然混合事务分析HTAP在中等规模客户的应用已成为热点研究方向。但HTAP价值在于更加简单通用,对于中等数据量规模用户可满足需求,对于超大型企业数据分析性能可能不如OLAP。

(11)更多利用硬件发展红利是必然趋势。计算需要GPU加速,存储方面持久存储(NVM)代替硬盘存储,需要重新设计架构利用特性;存算分离执行路径变长,数据库需采用高性能网络等。

(12)其他:OLAP和NoSQL将是主要的创业和投资方向。在国产数据库的OLTP领域,华为、阿里、腾讯等厂商有技术优势和资金优势,同时也有生态和渠道的优势,创业公司进入OLTP领域门槛非常高,而在 OLAP领域,建立新一代数据仓库以及NoSQL数据库方面,未来会涌现更多的创业公司,这块可能是很多投资机构接下来要重点关注的方向。

市场环境

1. 数据库的定义及边界

数据库管理系统是各类信息系统不可或缺的基础性平台,主要任务是对数据的归集、分类、组织、处理、存储、分析、应用的全生命周期提供共性技术支撑。

数据库大致可以由内核组件集与外部组件集共同组成,其中外部组件集以数据库配套的独立支撑软件为主,例如数据库驱动。内核组件集则一般可以分为管理、网络、计算和存储四大模块。

(1)存储组件:负责数据持久化存储的组件,对数据库的日志、索引、堆数据等内容进行管理;

(2)计算组件:又可以称为协调组件、服务组件,负责响应数据库访问请求,并将SQL语言解析成为数据库对应的内部任务。计算组件在分布式、集群等架构下也承接大部分的计算任务,例如排序、联接等;

(3)管理组件:公共组件部分,用于对数据库全生命状态的管理,例如心跳管理、集群管理等,以及各类中心化任务承接,如死锁仲裁、存储映射管理、元数据管理、事务号管理等;

(4)网络组件:管理整个数据库管理系统的网络通讯的组件。数据库的网络通讯有内部和外部之分。内部一般指在集群环境或者分布式环境下的各节点之间的高速数据交换。外部一般指的是各个数据库通过对外访问协议与存在于客户端的驱动进行互联的网络交换;

(5)驱动组件:支撑数据库能正常提供服务的配套独立组件,数据库管理系统基于其通用特性,往往可以对不同语言开发的软件提供数据服务。但是由于数据库本身只对外提供网络通讯协议,对协议的封装则由客户端侧的不同驱动组件完成。通常有支持JAVA 语言的JDBC 接口、支持C 语言的ODBC 接口和C-API 接口等。

2. 行业常见名词释义

(1)关系型数据库:采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。用户通过查询来检索数据库中的数据,而查询是一个用于限定数据库中某些区域的执行代码。关系模型可以简单理解为二维表格模型,而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织。

(2)非关系型数据库:对于NoSQL并没有一个明确的范围和定义,一个共同的特点都是去掉关系数据库的关系型特性。

(3)数据湖:是一个集中式的存储,允许以任意规模存储结构化和非结构化数据。可以存储原始数据,而不需要先转化为结构化数据,基于数据湖之上可以运行多种类型的分析。

(4)数据仓库:是处理过后的结构化或者半结构化数据,更加靠近数据的消费端。

(5)湖仓一体:使用一套技术去实现数据湖和数据仓库的能力,类似多模的概念。

3. 行业历史及阶段

数据库发展经历萌芽-商业化起步-发展成熟阶段。

(1)萌芽阶段:1960年,GE发布IDS数据库系统(Integrated DataBase System),制定网状模型语言标准,1969年,IBM发布IMS数据库系统(Information Mangement System),使用层次模型。解决了数据集中和共享问题,用户在对两种数据库进行存取时,需要指出存储方法和路径,易用性较差,没有应用起来。

(2)商业化起步:1970年-1980年,关系模型提出,IBM开发出关系型数据库System R,与之相适配的结构化查询语言SQL。70年代末,关系型数据库在Oracle和DB2中得到发展和商业化,SQL不关注获取数据的具体过程,把用户从数据操作细节中解脱出来,只描述想要的数据即可,成为关系型数据库得以成功的关键。

(3)发展成熟(1980-1990):主要表现为 1、数据库生态逐步完善,与程序设计语言、软件工程、信息系统设计等技术互相影响;2、开源数据库发展,当前2大开源数据库系统——MySQL和PostgreSQL诞生。3、OLAP开始发展。早期数据库处理在线交易业务,被称为OLTP(On-Line Transaction Processing);业务数据积累,OLAP出现(On-Line Analytical Processing);4、数仓概念(Data Warehouse)提出。单机难以应对爆发数据增长,分布式技术走上舞台。

(4)云数据库时代(1990-):云计算的发展带动各类基础软件开始云化转型,云原生数据库天然具备云上的弹性、灵活性、高可用等特点,实现了存储和计算完全解耦,作为服务整体交付,节约了用户管理基础架构所需的成本、时间和资源,能够提供丰富的产品体系,经济高效的部署方式、按需付费的支付模式。

数据库的云化经历了2个阶段:一是云托管,将原有数据库系统部署在云平台,将数据库服务化,按需购买,用户自行负责整个数据库系统的可用性、安全性和性能,有自己的IT运维团队,有自己的数据库管理团队,能力要求高,人力成本投入大;二是云原生,利用云化的资源池特点完全重构数据库的层次结构,使计算、存储、网络等资源彻底解耦,更充分灵活利用资源池的弹性。后一阶段对数据库的改造更为彻底。

云原生数据库的特点:

a. 存算分离,计算层解析SQL,并转为物理执行计划,存储层负责数据缓存与事务处理;资源解耦与池化,目前进展是CPU和内存绑在一起,和SSD持久化存储分开。下一步随着非易失性存储和RDMA技术的成熟,会将CPU和内存隔离,内存再进行池化,三层池化有利于客户按需取用;

b. 执行引擎的完全弹性,云原生架构,下层是分布式共享存储,上层是分布式共享计算,中间用于计算存储解耦,提供弹性能力;

c. 高可用与数据一致性,可用性是指集群的部分节点发生故障时,系统可以在正常响应时间内对外提供服务;一致性是指更新操作完成后,各个节点可以同时看到数据的最新版本,分布式系统存在网络分区,需要在一致性和可用性之间做出权衡;

d. 多租户与资源隔离,传统做法是一租户一数据库系统,或者多租户共享同一个数据库系统,运维管理复杂,避免某个租户“吃掉”系统资源,云原生场景下,数据库可以为不同的租户绑定相应的计算和存储节点实现资源隔离;

e. 智能化运维,比如自定义备份策略、自动在线升级修复BUG,监控自定义报警灯。

以AP为例,OLAP从最早的数据库一体机,逐渐演变到MPP数据库和Hadoop数据库,再到云原生架构的数据库,数据库一体机价格非常昂贵,国产替代有南大通用、人大金仓、天玑、云和恩墨等;而MPP数据库的实时性非常强,现在主要是Greenplum、Teradata;最后是Hadoop,有星环、中兴、华为等传统的硬件厂商在搭建Hadoop数据仓库;最新一代为云原生,检具扩展、存算分离、弹性扩容等特点。

共享存储架构:服务器,有计算有内存,存储完全共享,集群规模很小,存储受限,架构也受限;

MPP架构:存算一体,数据存储容量存在瓶颈,无法满足随业务而快速增长的数据量存储需求;扩容涉及数据的重分布,产生大量网络、内存开销,影响业务连续性;多ETL任务时,会大量抢占资源,从而影响数据分析的效率,导致查询超时甚至因为集群负载过大后整个集群崩溃不可用。例如,Teradata,软硬一体,网络硬件是专有硬件,比较贵,几百节点,扩容比较复杂;加一个节点,要挪过来一部分数据,所有数据要重新打散排一遍;GP解决软硬一体,X86服务器上就可以,用软件实现TD用硬件实现的过程;

Hadoop:随着数据仓库在 Hadoop/Hive 体系上搭建和完善,ETL 任务全部转移至 Hadoop 集群,这个阶段使用 Presto 完成 OLAP 分析。Presto 天然和 Hive 共享元数据信息,且共同使用物理数据存储,即插即用。大量的对数仓表的灵活查询使用 Presto 完成;组件非常复杂,软件定义存储,分布式文件系统;存储和计算还是绑定的,交付非常复杂,做了一些边缘场景;

云原生架构:存算分离、弹性(动态启停)、无状态的网线和计算节点,错峰使用,例如Snowflake、偶数科技。

4.市场需求及价值

(1)数据库分类-按应用方向

按应用方向不同,关系型数据库又可分为交易型数据库(OLTP)和分析型数据库(OLAP):交易型数据库主要面对与企业业务数据相关性强的事务场景,例如银行转账,电子商务等,涉及高并发数据的“增、删、改、查”;分析型数据库对来自交易型数据库和其他数据源的历史数据进行大批查询,应用在海量、复杂数据环境下为企业决策提供数据分析。

(2)数据库分类-按数据组织形式

按照数据组织形式,数据库可以分为关系型和非关系型(NoSQL)数据库。

关系型数据库的核心是数据表(行、列数据)、表内结构和表间关系。非关系型是一种新型的数据结构化存储方法的集合,适用于各种非结构化、半结构化数据,能够很好地满足海量数据的高并发读写需求。典型的NoSQL数据库包括键值数据库,列存储数据库、文档型数据库、图数据库,其中,根据DB-engines排名,以图数据库受欢迎度最高。

部分非关系型模型示意图:

图数据库

图数据库(GDB-Graph Database),是一个使用图结构进行语义查询的数据库,它使用节点、边和属性来表示和存储数据。 目前主流的图数据库选择的图模型是属性图。属性图由点、边、标签和属性组成。

关于图数据库的实例:

图数据库直观表示关系,对于高度互联数据非常有用(数据量越大,越复杂的关联,优势明显)。

应用场景来看,图数据库还是针对用大量数据并且需要多维处理或者多层渗透的环节,因此金融、电商、社交等领域中使用比较多,且场景的针对性较强。

社交领域:Facebook, Twitter,Linkedin用它来管理社交关系,实现好友推荐;

零售领域:eBay,沃尔玛使用它实现商品实时推荐,给买家更好的购物体验;

金融领域:摩根大通,花旗和瑞银等银行在用图数据库做风控处理;

汽车制造领域:沃尔沃,戴姆勒和丰田等顶级汽车制造商依靠图数据库推动创新制造解决方案;

电信领域:Verizon, Orange和AT&T 等电信公司依靠图数据库来管理网络,控制访问并支持客户360;

酒店领域:万豪和雅高酒店等顶级酒店公司依使用图数据库来管理复杂且快速变化的库存。

图数据库一大想象空间来源于与AI的结合。图数据库的数据存储模型其实特别适合机器学习计算,因此,不少人会直接选择直接在图数据库上跑机器学习算法。近年来,随着深度学习的兴起,有了在图数据库上做图神经网络(GNN)的案例。


1  2  3  下一页>  
声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

云计算 猎头职位 更多
文章纠错
x
*文字标题:
*纠错内容:
联系邮箱:
*验 证 码:

粤公网安备 44030502002758号