TBP-Sync是一个在异构的数据库、文件系统、Hadoop之间进行高速交换“数据”、“文件”的工具,实现在任意的数据处理系统(RDBMS/HDFS/LocalFileSystem/HBase/Hive/Phoenix)之间的离线数据同步功能,同时也可以将数据从关系型数据库或者文件服务器导入到拓维大数据平台(简称:TBP)的HDFS/HBase中,或者反过来从Hadoop HDFS/HBase导出到关系型数据库或者文件服务器中。
通过MapReduce作业实现并行的导入或导出作业,不同类型的导入导出作业可能只包含Map阶段或同时Map和Reduce阶段。
1、MapReduce作业的Map阶段中从外部数据源抽取数据,并将数据输出到HDFS临时目录下。
1、MapReduce作业的Map阶段,从HDFS或者HBase中抽取数据,然后将数据通过JDBC接口插入到临时表中。
1、MapReduce作业的Map阶段,从HDFS或者HBase中抽取数据,然后将数据写入到文件服务器临时目录中。
1、简单易用——采用完全的B/S图形界面配置,操作简单;支持动态修改任务状态、暂停/恢复任务,以及终止运行中任务,即时生效;
2、安全可控——支持实时作业进度、运行状态等信息;作业失败时支持邮件报警;支持实时查看作业的完整执行日志。
3、高并发数据迁移——支持分布式集群上作业运行;支持按字段拆分并行导入;支持数据传输过程全内存操作,不读写磁盘,也没有IPC。
4、多种数据源支持——支持多种输入、输出数据源类型(包括关系型数据库、MPP数据库、大数据存储、非结构化存储、NoSql数据库等);
5、功能丰富——支持表级、字段级数据过滤Filter,自定义作业参数,增量同步数据,按前台配置自动建表,自动识别来源数据与目标的映射关系,目标表的数据清理,来源的数据加工转换。返回搜狐,查看更多