若要開始進行流程,我們會啟用操作交易資料的大量傳輸。大量資料需要第一次移轉至 Oracle Cloud Infrastructure (OCI) 的情況使用大量傳輸服務,例如來自現有內部部署分析儲存區域或其他雲端來源的資料。我們將使用的特定大量傳輸服務,取決於資料的位置和傳輸頻率。例如,我們可能會使用 OCI Data Transfer 服務或 OCI Data Transfer Appliance,從歷史規劃或資料倉儲儲存區域載入大量內部部署資料。若持續移動大量資料,建議使用 OCI FastConnect,以在客戶的資料中心與 OCI 之間提供高頻寬的專用網路連線。
雲端儲存空間是我們資料平台最常見的資料持續儲存層。此方法可同時用於結構化和非結構化資料。OCI Object Storage、OCI Data Flow 和 Oracle Autonomous Data Warehouse 是基本的建構區塊。從原始格式的資料來源擷取的資料,並載入 OCI Object Storage 中。OCI Object Storage是主要資料持續儲存層,而 OCI Data Flow中的 Spark 則是主要批次處理引擎。批次處理涉及數個活動,包括基本噪音處理、遺失資料管理,以及根據定義的輸出資料集進行篩選。系統會根據需要的處理和使用的資料類型,將結果寫回各種物件儲存層或持續關聯儲存區域。
使用 Oracle Big Data Service for Hadoop ( 受管理的 Hadoop) 是 OCI Object Storage空間和 OCI Data Flow組態的替代方案。從產品或技能的角度來看,這兩種組態還可能與客戶一起使用,以及是否已對 Hadoop 生態系統進行現有投資。客戶如果已經在 Hadoop (而非 Hadoop 分散式檔案系統) 下使用物件儲存空間,可以將此組態轉換成 Oracle Big Data Service。Hadoop 環境中其他元件 (例如 Hive) 也可以開始播放和推動巨量資料服務,這取決於客戶所使用或打算使用的視覺化和資料科學工具。雖然此架構概述了 Oracle 提供的所有服務,但客戶可以選擇繼續使用現有的部分元件,尤其是視覺化和資料科學工具。
我們現在將使用服務資料存放區,以最佳化形式保留精選資料,以提升查詢效能。服務資料存放區提供持續性的關聯式層,可直接透過 SQL 工具為一般使用者提供高品質策劃資料。在本解決方案中,Oracle Autonomous Data Warehouse 已建立為企業資料倉儲提供服務的資料存放區,並視需要進行更多專業化網域層次資料市集。它也可以是資料科學專案的資料來源,也可以是 Oracle Machine Learning 所需的儲存區域。服務資料存放區可能會採用數種形式,包括 Oracle MySQL HeatWave、Oracle Database Exadata Cloud Service 或 Oracle Exadata Cloud@Customer。