ETL工具選型
發布時間:2011/3/16 11:06:23 訪問次數:2328
- 51電子網公益庫存:
- ACT7202LA
- E2516AB-6E-E
- H11AA3
- JC26MDC
- M2762001-10B1
- N264A
- OP07DRZ-REEL
- P/S87C51
- R4553B
- S101D01
旗鼓相當:datastage與powercenter深圳市東來寶電子科技有限公司銷售二部
就datastage和powercenter而言,這兩者目前占據了國內市場絕大部分的份額,在成本上看水平相當,雖然市面上還有諸如business objects公司的data integrator、cognos公司的decisionstream,但尚屬星星之火,未成燎原之勢。
談datastage和powercenter,如果有人說這個就是比那個好,那聽者就要小心一點了。在這種情況下有兩種可能:他或者是其中一個廠商的員工,或者就是在某個產品上有很多經驗而在另一產品上經驗缺乏的開發者。為什么得出這一結論?一個很簡單的事實是,從網絡上大家對它們的討論和爭執來看,基本上是各有千秋,都有著相當數量的成功案例和實施高手。確實,工具是死的,人才是活的。在兩大etl工具技術的比對上,可以從對etl流程的支持、對元數據的支持、對數據質量的支持、維護的方便性、定制開發功能的支持等方面考慮。
一個項目中,從數據源到最終目標表,多則上百個etl過程,少則也有十幾個。這些過程之間的依賴關系、出錯控制以及恢復的流程處理,都是工具需要重點考慮。在這一方面,datastage的早期版本對流程就缺乏考慮,而在6版本則加入job sequence的特性,可以將job、shell腳本用流程圖的方式表示出來,依賴關系、串行或是并行都可以一目了然,就直觀多了。powercenter有workflow的概念,也同樣可以將session串聯起來,這和datastage sequence大同小異。
etl的元數據包括數據源、目標數據的結構、轉換規則以及過程的依賴關系等。在這方面,datastage和powercenter從功能上看可謂不分伯仲,只是后者的元數據更加開放,存放在關系數據庫中,可以很容易被訪問。此外,這兩個廠家又同時提供專門的元數據管理工具,ascential有metastage,而informatica擁有superglue。你看,就不給你全部功能,變著法子從你口袋里面多掏點錢。
數據質量方面,兩種產品都采用同樣的策略——獨立出etl產品之外,另外有專門的數據質量管理產品。例如和datastage配套用的有profilestage和qualitystage,而informatica最近也索性收購了原先oem的數據質量管理產品firstlogic。而在它們的etl產品中,只是在job或是session前后留下接口,所謂前過程、后過程,雖然不是專為數據質量預留的接口,不過至少可以利用它外掛一些數據質量控制的模塊。
在具體實現上看,datastage通過job實現一個etl過程,運行時可以通過指定不同參數運行多個實例。powercenter通過mapping表示一個etl過程,運行時為session,綁定了具體的物理數據文件或表。在修改維護上,這兩個工具都是提供圖形化界面。這樣的好處是直觀、傻瓜式的;不好的地方就是改動還是比較費事(特別是批量化的修改)。
定制開發方面,兩者都提供抽取、轉換插件的定制,但筆者認為,datastage的定制開發性要比powercenter要強那么一點點。因為datastage至少還內嵌一種類basic語言,可以寫一段批處理程序來增加靈活性,而powercenter似乎還缺乏這類機制。另外從參數控制上,雖然兩者的參數傳遞都是比較混亂的,但datastage至少可以對每個job設定參數,并且可以job內部引用這個參數名;而powercenter顯得就有些偷懶,參數放在一個參數文件中,理論上的確可以靈活控制參數,但這個靈活性需要你自己更新文件中的參數值(例如日期更新)。另外,powercenter還不能在mapping或session中引用參數名,這一點就讓人惱火。
總起來看,datastage和powercenter可謂旗鼓相當,在國內也都有足夠的支持能力,datastage在2005年被ibm收購之后,可以說后勁十足。而informatica則朝著bi全解決方案提供商方向發展,powercenter顯然還將是它的核心產品。
獨樹一幟:teradata的etl automation
繼續要說的第三種產品是teradata的etl automation。之所以拿它單獨來說是因為它和前面兩種產品的體系架構都不太一樣。與其說它是etl工具,不如說是提供了一套etl框架。它沒有將注意力放在如何處理“轉換”這個環節上,而是利用teradata數據庫本身的并行處理能力,用sql語句來做數據轉換的工作,其重點是提供對etl流程的支持,包括前后依賴、執行和監控等。
這樣的設計和datastage、powercenter風格迥異,后兩者給人的印象是具有靈活的圖形化界面,開發者可以傻瓜式處理etl工作,它們一般都擁有非常多的“轉換”組件,例如聚集匯總、緩慢變化維的轉換。而對于teradata的etl automation,有人說它其實應該叫做elt,即裝載是在轉換之前的。的確,如果依賴數據庫的能力去處理轉換,恐怕只能是elt,因為轉換只能在數據庫內部進行。從這個角度看,automation對數據庫的依賴不小,似乎是一種不靈活的設計。也正是這個原因,考慮它的成本就不單單是etl產品的成本了。
在購買現成的工具之外,還有自己從頭開發etl程序的。
etl工作看起來并不復雜,特別是在數據量小、沒有什么轉換邏輯的時候,自己開發似乎非常節省成本。的確,主流的etl工具價格不菲,動輒幾十萬;而從頭開發無非就是費點人力而已,可以控制。至于性能,人大多是相信自己的,認為自己開發出來的東西知根知底,至少這些程序可以完全由自己控制。
就目前自主開發的etl程序而言,有人用c語言編寫,有人用存儲過程,還有人用各種語言混雜開發,程序之間各自獨立。這很危險,雖然能夠讓開發者過足編碼的癮,卻根本不存在架構。
幾年前上的數據倉庫系統,就是集成商自己用c語言專門為他們的項目開發的。單從性能上看似乎還不賴,然而一兩年下來,項目組成員風雨飄零,只有那套程序還在那里;國內目前的軟件工程慣例,程序注釋和文檔是不全或者是不一致的,這樣的程序已經對日常業務造成很大阻礙。他們已經開始考慮使用etl工具重新改造了。
- 51電子網公益庫存:
- ACT7202LA
- E2516AB-6E-E
- H11AA3
- JC26MDC
- M2762001-10B1
- N264A
- OP07DRZ-REEL
- P/S87C51
- R4553B
- S101D01
旗鼓相當:datastage與powercenter深圳市東來寶電子科技有限公司銷售二部
就datastage和powercenter而言,這兩者目前占據了國內市場絕大部分的份額,在成本上看水平相當,雖然市面上還有諸如business objects公司的data integrator、cognos公司的decisionstream,但尚屬星星之火,未成燎原之勢。
談datastage和powercenter,如果有人說這個就是比那個好,那聽者就要小心一點了。在這種情況下有兩種可能:他或者是其中一個廠商的員工,或者就是在某個產品上有很多經驗而在另一產品上經驗缺乏的開發者。為什么得出這一結論?一個很簡單的事實是,從網絡上大家對它們的討論和爭執來看,基本上是各有千秋,都有著相當數量的成功案例和實施高手。確實,工具是死的,人才是活的。在兩大etl工具技術的比對上,可以從對etl流程的支持、對元數據的支持、對數據質量的支持、維護的方便性、定制開發功能的支持等方面考慮。
一個項目中,從數據源到最終目標表,多則上百個etl過程,少則也有十幾個。這些過程之間的依賴關系、出錯控制以及恢復的流程處理,都是工具需要重點考慮。在這一方面,datastage的早期版本對流程就缺乏考慮,而在6版本則加入job sequence的特性,可以將job、shell腳本用流程圖的方式表示出來,依賴關系、串行或是并行都可以一目了然,就直觀多了。powercenter有workflow的概念,也同樣可以將session串聯起來,這和datastage sequence大同小異。
etl的元數據包括數據源、目標數據的結構、轉換規則以及過程的依賴關系等。在這方面,datastage和powercenter從功能上看可謂不分伯仲,只是后者的元數據更加開放,存放在關系數據庫中,可以很容易被訪問。此外,這兩個廠家又同時提供專門的元數據管理工具,ascential有metastage,而informatica擁有superglue。你看,就不給你全部功能,變著法子從你口袋里面多掏點錢。
數據質量方面,兩種產品都采用同樣的策略——獨立出etl產品之外,另外有專門的數據質量管理產品。例如和datastage配套用的有profilestage和qualitystage,而informatica最近也索性收購了原先oem的數據質量管理產品firstlogic。而在它們的etl產品中,只是在job或是session前后留下接口,所謂前過程、后過程,雖然不是專為數據質量預留的接口,不過至少可以利用它外掛一些數據質量控制的模塊。
在具體實現上看,datastage通過job實現一個etl過程,運行時可以通過指定不同參數運行多個實例。powercenter通過mapping表示一個etl過程,運行時為session,綁定了具體的物理數據文件或表。在修改維護上,這兩個工具都是提供圖形化界面。這樣的好處是直觀、傻瓜式的;不好的地方就是改動還是比較費事(特別是批量化的修改)。
定制開發方面,兩者都提供抽取、轉換插件的定制,但筆者認為,datastage的定制開發性要比powercenter要強那么一點點。因為datastage至少還內嵌一種類basic語言,可以寫一段批處理程序來增加靈活性,而powercenter似乎還缺乏這類機制。另外從參數控制上,雖然兩者的參數傳遞都是比較混亂的,但datastage至少可以對每個job設定參數,并且可以job內部引用這個參數名;而powercenter顯得就有些偷懶,參數放在一個參數文件中,理論上的確可以靈活控制參數,但這個靈活性需要你自己更新文件中的參數值(例如日期更新)。另外,powercenter還不能在mapping或session中引用參數名,這一點就讓人惱火。
總起來看,datastage和powercenter可謂旗鼓相當,在國內也都有足夠的支持能力,datastage在2005年被ibm收購之后,可以說后勁十足。而informatica則朝著bi全解決方案提供商方向發展,powercenter顯然還將是它的核心產品。
獨樹一幟:teradata的etl automation
繼續要說的第三種產品是teradata的etl automation。之所以拿它單獨來說是因為它和前面兩種產品的體系架構都不太一樣。與其說它是etl工具,不如說是提供了一套etl框架。它沒有將注意力放在如何處理“轉換”這個環節上,而是利用teradata數據庫本身的并行處理能力,用sql語句來做數據轉換的工作,其重點是提供對etl流程的支持,包括前后依賴、執行和監控等。
這樣的設計和datastage、powercenter風格迥異,后兩者給人的印象是具有靈活的圖形化界面,開發者可以傻瓜式處理etl工作,它們一般都擁有非常多的“轉換”組件,例如聚集匯總、緩慢變化維的轉換。而對于teradata的etl automation,有人說它其實應該叫做elt,即裝載是在轉換之前的。的確,如果依賴數據庫的能力去處理轉換,恐怕只能是elt,因為轉換只能在數據庫內部進行。從這個角度看,automation對數據庫的依賴不小,似乎是一種不靈活的設計。也正是這個原因,考慮它的成本就不單單是etl產品的成本了。
在購買現成的工具之外,還有自己從頭開發etl程序的。
etl工作看起來并不復雜,特別是在數據量小、沒有什么轉換邏輯的時候,自己開發似乎非常節省成本。的確,主流的etl工具價格不菲,動輒幾十萬;而從頭開發無非就是費點人力而已,可以控制。至于性能,人大多是相信自己的,認為自己開發出來的東西知根知底,至少這些程序可以完全由自己控制。
就目前自主開發的etl程序而言,有人用c語言編寫,有人用存儲過程,還有人用各種語言混雜開發,程序之間各自獨立。這很危險,雖然能夠讓開發者過足編碼的癮,卻根本不存在架構。
幾年前上的數據倉庫系統,就是集成商自己用c語言專門為他們的項目開發的。單從性能上看似乎還不賴,然而一兩年下來,項目組成員風雨飄零,只有那套程序還在那里;國內目前的軟件工程慣例,程序注釋和文檔是不全或者是不一致的,這樣的程序已經對日常業務造成很大阻礙。他們已經開始考慮使用etl工具重新改造了。
上一篇:數碼相機 不符合率近16%
下一篇:數據存儲安全