ETL 是擷取 (extract)、轉換 (transform) 和載入 (load) 的英文縮寫,機構過去使用這個方式,將多個系統中的資料整合到單一資料庫、資料儲存庫、資料倉儲或資料湖泊中。ETL 可以用來儲存舊版資料,目前更常用於匯總資料,以便進行分析和制定業務決策。
機構使用 ETL 已有數十年之久,但最新的發展是,資料來源以及目標資料庫目前已紛紛遷移到雲端。
此外,也出現了串流 ETL 管道,現已連同批次管道整合在一起;亦即串流管道會即時處理連續資料串流,批次管道則會處理匯總批次的資料。有些企業會混用批次補充或重新處理管道,執行連續串流處理。
瞭解支援 ETL 的 Google Cloud 服務產品組合,包括 Cloud Data Fusion、Dataflow 和 Dataproc。
準備好了嗎?新客戶可以獲得價值 $300 美元的免費抵免額,盡情試用 Google Cloud 的各項功能。
ETL 是端對端的程序,公司利用此程序獲取全部資料 (結構化、非結構化,由世界各地任何數量的團隊管理),並使資料達到實際可用於業務目的的狀態。
當今現代化的 ETL 解決方案必須能因應不斷增加的資料量和速度。此外,現在企業 ETL 解決方案的最基本要求,就是可以即時擷取、充實和管理任何來源 (無論是地端部署還是雲端) 的交易,並且能同時支援結構化和非結構化資料。
擷取
擷取是從一或多個來源 (線上、地端部署、舊版、SaaS 等) 擷取資料的程序。擷取後,資料將載入暫存區中。
轉換
轉換需要獲取資料、清理資料並將其轉換為通用格式,以便儲存在目標資料庫、資料儲存庫、資料倉儲或資料湖泊中。清除通常需要取出重複、不完整或明顯錯誤的記錄。
載入中
載入是將格式化後的資料插入目標資料庫、資料儲存庫、資料倉儲或資料湖泊的程序。
ETL 是將所有相關資料集中在一起,使資料可做為行動依據的一種重要方法。這些資料會經過分析,再讓高層主管、經理和其他利害關係人依據分析結果,做出明智的業務決策。 ETL 的常見用途如下:
Data warehousing
資料倉儲是一種資料庫,各種來源的資料會合併其中,進行整體分析並用於業務目的。ETL 常用於將資料移至資料倉儲。
機器學習與人工智慧
機器學習 (ML) 是一種理解資料的方法,這種方法無需明確編寫數據分析模型的程式,而是由採用人工智慧技術的系統從資料中學習。您可以針對機器學習目的,使用 ETL 將資料移到單一位置。
行銷資料整合
行銷資料整合需要將所有行銷資料 (例如客戶統計資料、社群網路和網站分析資料) 移到同一位置,以便進行分析並制定未來行動方案。ETL 會用於收集和準備行銷資料。
IoT 資料整合
IoT 是連線裝置的集合,這些裝置能透過嵌入硬體的感應器收集和傳輸資料。IoT 裝置包括工廠設備、網路伺服器、智慧型手機或各式各樣的其他機器,甚至是穿戴式裝置和植入裝置。ETL 有助於將多個 IoT 來源的資料移至可以進行分析的單一位置。
資料庫複製
資料庫複製會從來源資料庫 (例如 Oracle、MySQL 適用的 Cloud SQL、Microsoft SQL Server、PostgreSQL 適用的 Cloud SQL、MongoDB 或其他資料庫) 取得資料,然後複製到雲端資料倉儲系統中。這可以是一次性作業,也可以是隨著資料更新而持續進行的程序,且 ETL 可以用於複製資料。
雲端遷移
公司紛紛將地端部署環境中的資料和應用程式遷移到雲端,藉此節省費用、提高應用程式的擴充性並保護資料安全,而 ETL 常用於執行這類遷移作業。