“有些数据库的宣传与我们实际评测的差距很大!目前,国内可以大规模商用的国产分布式数据库(我认为)也就三个,从产品成熟度和运维能力来说,好些,从技术线来说,好些,从数据库性能来说,好些。
芯片、操作系统、数据库是现代信息技术领域的三大核心基础,今天,运行的绝大多数企业应用软件都离不开数据库的支持。
相比芯片、操作系统,数据库是最有希望实现弯道超车的,无论是从技术还是市场维度看,都是如此。
聊国产分布式数据库,首先,需要了解国产分布式数据库都有哪些,每家都有哪些产品和工具,能解决哪些应用场景问题,其产品成熟度及运维能力如何?每家在对数据库要求最高的银行业,又有哪些应用?这些问题,恐怕即使身处行业之中的人也未必都清楚。
即使线多个产品,我也不可能全部梳理一遍,精力有限,只能梳理我还算比较了解的一些主流厂商产品,没有了解的则不在此列,当然如有遗漏也欢迎补充。
既然要梳理,就必须分类,是按应用类型来分?还是按存储类型来分?还是按源码来源来分?这让我很纠结。
客观的说,国产关系型数据库,多源自或者借鉴开源MySQL、PostgreSQL数据库及其变种,或收购商业源码(例如Informix)+自研的方式;大数据平台,多源自或直接整合开源大数据生态组件,纯自研的国产数据库还是少数。
按源码来分,或许很多人爱看,但可操作性很低,因为,很难核实,如果仅靠捕风捉影道听途说去写,显然又不客观。
因此,我只能基于应用类型(OLTP\OLAP\HTAP)和存储类型(关系型\非关系型)来进行划分。事实上,现在关系型数据库与非关系型数据库的边界也越来越模糊。
这一类成立于1999-2004年,属于国内最早一批做数据库的公司,与国外数据库公司产学研分离不同,这批数据库公司几乎都是从高校孵化出来,再到市场进行打磨。
1999年,王珊教授领头成立了国内第一家数据库公司金仓。2000年,华中理工大学(现华中科技大学)教授冯裕才成立了武汉达梦。2004年,南大通用成立,是南开大学下属的天津南开创元信息技术有限公司之控股子公司。神舟通用与浙江大学、北航、大学、中科院软件所等高校和科研院所都有深度合作。
从上表可以看出,“老四家”其实并不传统,无论是OLTP(事务)、OLAP(分析)或是最时髦的HTAP(混合)场景,都有对应的产品或解决方案。如果你的认知,还停留在“老四家”只能应用于OLTP场景,没有分布式数据库,那就OUT了。
从产品布局看,老四家特点很显著,专注关系型数据库市场,在非关系数据库领域基本没有什么产品布局,只有达梦有个图数据库。
南大通用在OLTP方面布局的GBase 8s,具备两地三中心高可用,实施了多个共享存储集群案例。在OLAP方面,有大家熟知的GBase 8a分布式并行数据库。在HTAP方面,有GBase UP。在2018年至2019年,南大通用连续两年入选Gartner分析型数据库管理解决方案魔力象限。
神舟通用在OLTP方面,有数据库,在OLAP方面,有Kstore+K-Cuber,在HTAP方面,有分布式关系型数据库(MPP集群版)。值得一提的是,2003年,公司以神舟软件数据库事业部启动市场化运作,北斗全球运控系统及地面监测系统,就是以数据库为后台支撑。
其实,传统“老四家”可以说就是国家队,尤其是达梦、金仓、神舟通用,达梦背后是中国电子信息产业集团(CEC),金仓背后是中国电子科技集团有限公司(CETC),神舟通用隶属于中国航天科技集团(CASC)。
虽然云数据库有很多优势,崛起之势不可挡,但能够进行国产替代的,我认为应该还是传统数据库为主,而非云端数据库,且大概率在、事业单位等进行国产替代,特别是一些承担民生、国防等核心数据的产业。
这一类因云计算的兴起而出现,成立时间在2009-2011年,本文只列出头部的三大玩家,其他云计算公司不是没有数据库,此处未列入,一是精力有限,二是与这三家相比,无论从数据库产品线的丰富程度还是自研投入、产品成熟度、运维能力等各方面,都还有一定差距。
阿里云、腾讯云、华为云等云计算巨头的崛起,不仅带动了各类基础软件开始云化转型之,也让数据库的边界开始变得模糊。在蚕食国外数据库厂商市场份额的同时,传统国产数据库的一部分市场份额也在被云企瓜分。
云数据库并非是一种全新的数据库模型,与传统数据库区别在于销售和交付模式不同,是以云服务的方式来销售及交付。云数据库天然具备灵活性,丰富多样的产品体系、经济高效的部署方式和按需付费的支付模式。
众所周知,数据库是最重要的基础云服务之一,已经成为云服务商的核心竞争力之一,属于兵家必争之地。
从上表看,云巨头的数据库产品线更完整,无论在关系型数据库还关系型数据库领域都有布局,工具生态方面也很丰富,在品牌及技术宣传方面更是要强于其它两类企业。
阿里云是国内去IOE和成功典范,2018年,在Gartner发布的数据库魔力象限中,阿里云是首个进入远见者象限的中国公司。2019年,阿里云连续进入Gartner数据库魔力象限,获得挑战者象限第一名的。
在OLTP方面,阿里云分别有自研的云原生分布式数据库PolarDB和蚂蚁金服自研的分布式数据库OceanBase,这2个产品都有双11背书,风头很劲。其中,OceanBase两次刷新了TPC-C的世界纪录。在OLAP方面,有实时分析数据库AnalyticDB,包揽TPC-DS、TPC-H全球第一。在HTAP方面,不仅有AnalyticDB,其实OceanBase也有HTAP特性。今年,OceanBase已经成立了的公司。
腾讯云在OLTP方面,有云原生分布式数据库CynosDB和分布式数据库TDSQL,也不可小觑。去年Gartner发布的研报显示,腾讯云数据库市场份额增速达123%,位列国内所有数据库厂商之首。张家港农商银行新一代核心系统就是基于TDSQL,在OLAP和HTAP场景方面,则有分布式HTAP数据库TBase,并且在去年已经开源。
在NoSQL方面,腾讯有图数据库TB,也有CTSDB时序数据库,还有TcaplusDB键值数据库。
华为云今年上半年最大的动作,是将GaussDB并入,并对自研数据库进行品牌调整,在OLTP方面,华为云有GaussDB(openGauss)(基于openGauss内核,增强分布式能力的商业版本)、GaussDB(for MySQL)(基于华为最新一代DFV分布式存储,采用计算存储分离架构)、GaussDB(for PostgreSQL)(基于华为最新一代DFV分布式存储,采用计算存储分离架构)。其中openGauss已经开源,在OLAP方面,有GaussDB(DWS)。
在HTAP方面,华为云认为HTAP只是一种细分使用场景,并且不把OLTP和OLAP业务完全混合,认为在典型的OLTP处理场景就使用面向OLTP设计的数据库,否则,既达不到OLAP的扩展性,又无法满足OLTP的实时、高性能等要求。
在NoSQL方面,华为云有自研的全分布式架构多模NoSQL数据库GaussDB NoSQL(原名GeminiDB),支持四种数据模型文档、宽列、时序、K-V。
阿里云、腾讯云、华为云都是大厂背景,资本雄厚,不缺资源,追求的是完善丰富的产品体系来满足各种用户的需求,更在意的是迅速占领市场,拉开与对手的差距。
对于不能接受公有云的政企行业客户,目前这些云巨头的解决方案大同小异,都是混合云。混合云的本质是用公有云的同一套架构或API来做混合云。通过混合云,不仅可以满足客户,机房、数据在本地,自主管理运维的需求,客户还能在本地数据中心享受到与公有云一致的云服务。
虽然云数据库在企业中的应用是大势所趋,但要让企业放下顾虑,积极上云,甚至完全拥抱云,还有很长的要走。
这一类厂商既有专注于数据库领域的初创公司,也有通信、服务器方面的巨头跨界,但其企业成立时间或推出数据库产品时间,普遍在2011年之后。新兴数据库公司不断涌现,以及其他领域公司向数据库跨界情况的增多,使国内数据库市场更加繁荣和活跃。
从上表看,大部分新兴数据库公司,做数据库的历史或许不如“老四家”悠久,布局也没有云巨头完整,但胜在更为聚焦,都有其独特的竞争优势。
目前,国内最火的分布式HTAP数据库TiDB,理论基础来源于2013年Google发布的Spanner/F1论文 ,以及2014年Stanford工业级分布式一致性协议算法Raft论文,并通过开源方式获取全球用户的信任,替其站台的企业非常多,网上有大量迁移及应用实践的教程文章,其创始人也经常撰文。
易鲸捷,是今年上半年的人气小生。4月1日,基于易鲸捷分布式数据库搭建的贵阳银行核心交易“沙箱”系统上线,在今年全国期间,获六名全国代表提案,就是以易鲸捷数据库在贵阳银行核心系统上线为例,逐步扩大金融领域数据库国产替代试点。
背后的故事 谢霆锋
在OLTP方面,易鲸捷有分布式数据库QianBase(钱库),名字相当直白,定位就是金融级分布式数据库。在HTAP方面,有分布式数据库EsgynDB。
星环在新兴数据库公司中算是一个另类,是全球首个完整通过TPC-DS基准测试的公司,据说OceanBase都上门取经。并且,星环在新兴数据库公司中,是唯一一个在关系型数据库和非关系型数据库方面都有布局的公司,在OLTP方面,有分布式交易数据库KunDB,在OLAP方面,有Inceptor、分布式闪存数据库ArgoDB。在NoSQL方面,StellarDB(图数据库)、NewSearch(文档数据库、时空数据库)、Hyperbase(键值数据库)。
中兴GoldenDB,定位金融级交易型分布式数据库,听名字就很清楚,显然更偏重OLTP分布式数据库方向,当前主攻市场是金融行业。
值得一提的是,在数据库方面,中兴有着17年的相关技术积累。早在2002年,中兴就启动了数据库相关技术的研发,包括文件数据库、内存数据库和分布式数据库等产品,并已经大规模服务于电信和智慧城市领域。2014年,中兴启动GoldenDB的研发。产品应用于多家银行的业务系统中。目前,中兴拥有一支超过500人的数据库研发团队,累计申请核心专利100多件。
GoldenDB最出名的案例是中信银行,产品应用于中信银行账务核心业务系统及银联数据信用卡核心项目。
浪潮分布式数据库K-DB的优势在于软硬一体,起源于专为天梭K1小型机定制优化的数据库,目前,已能够支持X86平台,以及飞腾、申威等国产芯片平台。其推出的inData数据库一体机,专为HTAP设计,实现近千万级IOPS和微秒级延时响应。
曾经K-DB技术日站那句“你若赴约,我必不负!”想必很多人还记忆犹新。在这业内首场“DBA Party Show”上,邀请了众多知名DBA对K-DB进行了体验,其邀请函被大咖认为是技术领域最具诗意的邀请。
巨杉数据库SequoiaDB,定位金融级分布式数据库,自2011年起自研原生分布式引擎,核心团队来自IBM DB2,基于计算存储分离架构,提供I/O互不干扰HTAP能力,已连续三年入选Gartner数据库报告。独特的引擎级多模设计,基于同一份数据可支持MySQL、PostgreSQL、MongoDB、SparkSQL兼容协议的跨引擎事务一致性。
热璞,是一家专注分布式事务数据库和关系型云数据库的产品研发公司,于2012年创始团队自筹数千万资金为,后于2017年获得PreA、2018年A轮的融资,其产品HotDB定位于OLTP业务场景,在等同集中式数据库的事务一致性和透明性、全局唯一约束、分布式锁、数据分片设计智能AI、产品化等方面基础功能做的扎实。其创始人参与主导分布式数据库Cobar、中国联通DaaS平台、分布式数据库MyCAT等,在金融等多个行业有颇多案例。
总的来说,三大类公司都有自己的分布式数据库产品,唯一区别在侧重的场景不同,这也导致产生了多个不同技术线和技术流派,比如分布式柔性事务、分布式强一致性事务。比如:OceanBase、HotDB就属于分布式强一致性事务。TDSQL、GoldenDB、GaussDB等就属于分布式柔性事务。而TiDB、SequoiaDB、EsgynDB属于专注HTAP多模数据库产品。