公司产品分类

数据实时抽取转化|Enhanced ETL 数据实时交换与分享平台
 
   
查看大图

数据实时抽取转化|Enhanced ETL 数据实时交换与分享平台

Enhanced ETL是一个异构数据库/文件系统之间、可实时准实时复制数据的统一管理平台,支持首次同步、批量同步以及实时增量同步等模式;支持各类文件(filesystem)之间的实时高效共享;支持实现数据库到大数据平台之间,如HDFS、Hive、Hbase、Kafka等之间的实时复制。

前言

这是一个数据时代,数据就是最宝贵的金矿!
但是,企业数据存在于各类异构数据库中,形成所谓的“信息孤岛”,数据的价值被埋没,阻碍了企业信息化建设的进程。同样,各级政府有公安、税务、人力资源、社保、国土、房地产、财政等各部门数据中心,也需要数据信息共享技术、尤其是实时共享技术。
传统方案实现这些部门之间信息共享,投资大、时效性差、效率低,且数据准确性难以把控。
DSG的Enhanced ETL是一款革命性的实时数据共享产品,远远优于传统方案。

定位:实时、异构数据库间、大数据平台间、图形化运维

Enhanced ETL是一个异构数据库/文件系统之间、可实时准实时复制数据的统一管理平台,支持首次同步、批量同步以及实时增量同步等模式;支持各类文件(filesystem)之间的实时高效共享;支持实现数据库到大数据平台之间,如HDFS、Hive、Hbase、Kafka等之间的实时复制。
Enhanced ETL产品能适用更多数据的下发、数据的整合、数据的转换、数据脱敏等场景,并且保持在extract和load阶段的优势。

功能

Enhanced ETL有强大的支持以下各类数据库、文件和大数据功能

源端

Oracle、DB2、 SQL Server、MySQL、K-DB、PostgreSQL、Dameng、Informix、 Sybase

  • 类型

    目标端

  • 国产数据库

    Kingbase、Gbase8a、Dameng、K-DB、神州通用

  • MPP

    HP Vertica、EMC greenplum、teradata

  • 内存数据库

    Qcubic、Sap hana、redis、gbase8m

  • 常见数据库

    Oracle、DB2、PostgreSQL、MySql、
    SQL Server、Dameng、Informix、Sybase

  • 消息列表

    各类消息中间件

  • 文本格式

    TXT、CSV、XML、SQL

  • 大数据

    Hdfs、Hbase、Phoneix、Hive、Kafka

支持应用环境

  • 特 性

    描 述

  • 工作方式

    Transaction-Based数据复制

  • 可选择的复制单位

    选择整库、user、表为复制单位

  • 支持的硬件平台

    Sun、HP、IBM、x86、各类云计算平台

  • 支持的复制结构

    一对一,双向,一对多,多对一、级联

  • 复制的时间间隔

    可灵活设置、可以是秒级、分钟级、小时级

  • 允许的最大距离

    没有限制

  • 对源系统性能的影响

    对主系统CPU占用率在5%左右

选择性复制

支持水平和垂直分割。在水平分割方面可以只复制那些满足预设条件的记录。在垂直分割方面允许设置对指定表的指定列进行复制。

实时/准实时复制转换

支持以下源端到目标端异构数据库之间转换规则,并根据需求方自定义格式,对目标端数据库进行直接装载,灵活性极高,简化用户操作。
使用技术规则包括:
支持源端和目标端用户名、表名、字段名不同的转换
支持对一个表的字段增加、删除、修改源字段类型
支持特殊类型数据、字符集转换
支持行、列的过滤、转换
支持数据分拆
空值处理、数据替换
规范化数据格式
验证数据正确性
查获丢失数据Lookup实现子查询建立ETL过程的主外键约束
对运营数据进行预处理,保证集成与加载的高效性

支持多表关联复制

多表关联结果集复制到目标端,如:可以直接在源端把3个表的关联结果集同步到目标端,目标端不用建视图,直接查询的是最终的结果集数据
支持复杂的SQL模式,除支持普通SQL外,还支持左连接、右连接、全连接、union all等复杂SQL模式
支持多种复制维护模式,支持rowid磁盘存储维护、rowid数据库表存储维护、目标端表字段维护模式
保持分析日志模式而非sql查询模式。传统的ETL产品是通过从数据库里复杂sql查询出结果集。Enhanced ETL依然采用日志分析模式,通过分析出具体的DML交易,根据sql结果集的最终结果,来决定目标端的具体操作,保证最终结果的一致性,实时效果更加快速,更加减少对生产数据库的查询压力

灵活支持中间库、配合第三方ETL,实现/准实时数据抽取

中间数据库是一种数据处理方法。该库存放实时增量数据、维护与生产系统对应的数据表,对数据进行整合、过滤和判断后提交给订阅方。中间数据库以增量的方式实时抽取到数据库的插入、删除、修改的数据,此机制可以增强数据完整性、降低不一致性以及可能丢失数据的风险。Enhanced ETL支持中间数据库机制:
支持ETL的过程是主动“拉取”,而不是从内部“推送”,增强其可控性
支持关键数据标准化、模板化以及制订相应的数据接口标准
实现源数据库将整合、过滤和查询完成的数据存放到中间库或生成接口文件,以支持第三方ETL从中获取数据,进行更多数据类型的转换。

应用场景和案例

同构关联表按条件过滤记录分发数据

应用场景:从主表按照关联条件,分发数据到各分标、从各分表复制到主表。
案例介绍:某工商局主表是各地方集中上来的数据总表,要求如下:
按各关联表和主表的关联条件语句查询,并把符合条件的主表记录分发到目标端。
将源生产端关联条件表的增删改、或主表的增删改实时复制到目标端。
实现生产端和主表表名一致,保证目标端各地区只有本区数据, 无法看其它区数据。
案例示意:

满足条件的数据导过去 select * from t1 a where exists (select 1 from t b where a.id=b.id and b.name like 'qingdao'), 目标端的T1表 select * from t1。
案例功能特点:
在广域网上需要多张表进行关联转换,Enhanced ETL充分展示了转换的灵活性。

不同表间的字段合并和数据整合

应用场景:生产端:不同字段表。目标端:整合成一个表。
案例介绍:某工商的etl使用模式。
案例示意:

案例功能特点:
此表的字段涵盖生产端不同表里的所有字段,并且能增加出新的能区分不同地区的字段或记录操作时间字段;并且要单独生成目标端表的增量轨迹表。

异构数据

应用场景:异构数据之间复制、同时需要过滤和转换。
案例介绍: 某金融公司Oracle 、SQLServer等业务系统数据复制到MySQL集中数据库,分别承担不同的报表业务;MySQL基础平台相关银行配置数据,与ERP数据库中数据合并。
案例示意:

案例功能特点:
Oracle到MySQL
SQLServer到MySQL
MySQL到Oracle
复制过程中表之间数据合并

某省公安系统

应用场景:异构数据库之间的复制、向MPP数据库集中复制。
案例介绍:某省各个地市,先将数据同步到本地的前置机,从前置机统一汇总到省厅的GP库;同时由于各个地市的表结构有少量差异,需要通过Yloader进行转换成目标端统一的结构。
案例示意:

关系型数据库到大数据

应用场景:异构数据库之间的复制、向大数据Kafka等平台集中复制和下发。
案例介绍:某省级公安需要将各地数据实时上收到大数据平台,并将有关信息实时推送到各地。涉及的数据种类有许多LOB、不同特殊字符集等,还涉及复杂DDL支持,具有一定技术难度。
案例示意:

案例功能特点:客户选用了不同厂家产品,已经用了一段时间。对于产品的LOB性能、DDL支持的稳定性、大数据量的处理性能都不太满意。经过测试,对DSG产品的综合性能满意,决定更换。

结束