HybridDB(ApsaraDB HybridDB)是一款在线MPP大规模并行处理数据仓库的服务。它基于 Pivotal 公司的开源数据库项目 Greenplum Database 开发,并由阿里云数据库团队在云计算架构下深度扩展。
该服务支持了OSS存储、JSON数据类型、HyperLogLog预估分析等功能特性。通过符合SQL2008标准查询语法及OLAP分析聚合函数,提供灵活的混合分析能力。提供在线扩容、备份、性能监测等服务。
阿里云数据库产品研究员褚霸介绍,随着各行各业信息技术的发展催生了以数据分析场景为主要业务的企业。特别是物联网和广告分析领域的企业,对云上复杂场景数据分析有强需求。“这个产品可以简化大量工作,如数据库管理员、开发者以及数据分析师可以专注于如何通过 SQL 挖掘数据价值,无需再自行复杂的大规模并行数据集群。”
HybridDB 是此款产品的名字,也体现了“混合”的特点。HybridDB 兼容数据类型多达23种,比市面上云计算厂商的同类产品多一倍。同时,它支持横向扩展,当用户数据量变大,内存及CPU计算能力需求增大时,随时可以添加节点,以线性扩展分析性能,提高计算能力。
7月公测以来的数据显示,JSON 和 GIS 类型的数据量高达TB级别时,查询也可以在1秒内完成。此外,广告分析领域的公司在做互联网海量数据的 PV、UV 预估分析时,统计性能提升20-100倍。
在MySQL和ProstgreSQL之外,数据库用户为什么还需要全新的产品?褚霸表示,HybridDB的混合数据类型及混合存储(行存、列存、OSS外部表)能力,可以与阿里云现有的RDS、NoSQL数据库方案实现数据融合分析。同时补全了EMR(Hadoop)分析场景中实时性不足的问题,为用户提供基于开源OLTP、OLAP、BigData生态的一站式解决方案。
Greenplum 诞生于2006年,是一个分布式大规模并行处理数据库,常用于大数据的存储引擎、计算引擎和分析引擎。它和HybridDB将形成云上云下业务场景的互补,软件开发过程中,云上HybridDB与云下Greenplum商业版本、Greenplum Database开源版本可以采用同一套代码,节省开发及成本。
阿里云数据库团队的愿景是打造一站式在线分析引擎。从数据的传输、存储、计算到管理,让客户的数据需求能够在同一个产品体系内实现,进一步降低数据处理的整体成本。未来,阿里云将围绕 HybridDB 做数据库生态的努力。一方面,加速与阿里云数据类产品实现互通,让用户可以通过SQL快速分析从不同渠道存储下来的数据。另一方面,引入合作伙伴认证机制,邀请更多ISV开发商及BI/ETL厂商支持,共同为用户创造价值。
支持SQL语法进行分布式GIS地理信息数据类型实时分析,协助物联网、互联网实现LBS服务统计
支持SQL语法进行分布式JSON、XML、模糊字符串等数据实时分析,助金融、政企行业实现报文数据处理及模糊文本统计
丰富的OLAP SQL语法及函数支持,众多Oracle函数支持,业界流行的BI软件可直接联机使用
支持透明的OSS数据操作,非在线分析的冷数据可灵活转存到OSS对象存储,数据存储容量无限扩展我和坐台女的那些事