前几天参加了oracle golden gate实时数据集成研讨会,这里总结和分析一下oracle的数据集成家族产品。 在数据集成方面,or
前几天参加了oracle golden gate实时数据集成研讨会,这里总结和分析一下oracle的数据集成家族产品。
在数据集成方面,oracle主要有三大产品:(1)oracle新收购的golden gate,主要强调数据的实时性,号称数据提取最快,对源端开销影响最小;(2)oracle原有的产品odi(oracle data integrator),用于数据集成的绝大多数场景;(3)data quality/profiling,主要在etl时保证数据质量和分类的辅助工具。和ibm的相应产品家族相比,几乎一一对应。对于(2)和(3),ibm有收购的datastage相应产品对应,对于(1)的实时性,ibm有mq家族中的一个real-time版本对应。微软microsoft有相应(2)(3)的产品,(1)还没有。
golden gate工作原理:在源数据库端(支持各种数据库)提取日志文件以获得变化的发生,如oralce数据库就是监控redo log或archieve log,,将变化的数据写入一个本地的跟踪文件trail file(可以想象成一个txt文件),然后将记录加密、压缩后路由到目的端的跟踪文件trail file,最后在目标端用sql写入目标数据库。在目标和源端的跟踪文件都有一个检查点记录最后一个成功的记录位置。说实话,golden gate的工作原理很简单,在国内isv开发的应用中也有用完全类似的方法来实现功能,如银行业的前置机项目和电信的boss项目中导程控交换机的话单。
golden gate的适用面还是相对窄的,主要是强调实时性的地方,说白了就是odi不能满足要求的地方,否则客户为什么不使用数据库内置的odi工具,还非要额外花钱购买golden gate呢?oracle提供的适用场景例子有银行信用卡欺诈检测、网上促销优化、基于位置的服务、scm的改善等。
oracle用了很多市场化的溢美之词来给golden gate贴金,搞清楚上面的工作原理后也就无需大惊小怪了。事务的可靠性是通过基于日志来提取变化实现的;最快的数据提取是通过近似记录的传递,大大加快了传递的频率来实现的;网络带宽占用小是通过由日志到记录再到压缩的记录来实现的。
oracle研讨会上不能完全同意的观点:e-lt比etl好,因为省掉了中间服务器。这完全是偷换概念。oralce只不过将lt的功能放在目标数据库端的机器上而已。ibm的datastage或microsoft的integration service都可以,tl还是lt,反正工作量都少不了。