資料湖倉儲可以定義為由資料湖與資料倉儲組合所構建的現代化資料平台。更具體來説,資料湖倉儲從資料湖中取得非結構化資料的彈性儲存,並從資料倉儲中獲取管理功能和工具,然後策略性地將它們作爲一個更大的系統。這兩款獨特工具的整合為使用者帶來了兩全其美的優勢。若要進一步細分資料湖倉儲,請務必先完全瞭解兩個原始術語的定義。
當我們談論資料湖倉儲時,我們指的是合併使用當前現有資料存儲庫平台:
因此,資料湖庫如何結合這兩個想法?一般而言,資料湖倉儲會移除資料湖與資料倉儲之間的孤島牆。這意謂著可以在低成本和彈性儲存資料湖到資料倉儲之間輕鬆移動資料,反之亦然,讓您輕鬆存取資料倉儲的管理工具來導入綱要和治理,通常是由機器學習和人工智慧來進行資料清理。結果會建立一個資料儲存區域,整合負擔得起、非結構化的資料湖集合,以及資料倉儲堅實的準備工作。資料湖庫藉由提供空間,在使用為業務用途準備資料的工具和功能時,從策劃的資料來源收集資料,可加速流程。在某種程度上,資料湖倉儲是資料倉庫,概念源自 1980 年代初,重新啟動了現代化資料導向世界。
瞭解資料湖庫的一般概念後,讓我們更深入了解相關的特定元素。資料湖庫提供許多熟悉歷史資料湖和資料倉儲概念的片段,但將其合併成對現今數位世界更新的、更有效率的方法。
資料倉儲通常提供資料管理功能,例如資料清除、ETL 和綱要強制實行。這些技術被帶入資料湖庫中,作為快速準備資料的方法,可讓來自策劃來源的資料自然共同運作,並做好進一步分析和商業智慧 (BI) 工具的準備。
使用開放且標準化的儲存格式,意味著來自策劃資料來源的資料大幅增加,能夠共同運作並準備進行分析或報告。
將運算與儲存資源分開的功能,可視需要輕鬆擴充儲存。
許多資料來源都直接從裝置使用即時串流。與標準資料倉儲相比,資料湖庫更能支援這種類型的即時擷取。隨著全球與 Internet of Things 裝置整合變得越來越重要,即時支援也越來越重要。
由於資料湖庫整合了資料倉儲和資料湖的功能,因此它是許多不同工作負載的理想解決方案。從業務報告到資料科學團隊到分析工具,資料湖庫的固有特質可以支援組織內的不同工作負載。
藉由建立資料湖庫,組織可以利用統一的現代化資料平台,簡化其整體資料管理流程。資料湖庫可以分解多個儲存庫之間的孤島牆,取代個別的解決方案。此整合為精選的資料來源建立更有效率的端對端流程。這會建立一些福利:
當 Experian 將關鍵資料工作負載從其他雲端移轉至 OCI 的資料湖庫時,效能提升 40%,成本也降低 60%,同時加快資料處理速度和產品創新,同時拓展全球各地的信貸機會。
Generali Group 是一家義大利保險公司,擁有全球最大的客戶群之一。Generali 擁有大量資料來源,包括 Oracle Cloud HCM 和其他本地與區域來源。他們的人力資源決策和員工投入度面臨了阻礙,而公司也尋求了改善效率的解決方案。整合 Oracle Autonomous Data Warehouse 與 Generali 的資料來源,免除孤島,並為所有 HR 分析建立單一資源。這提高了 HR 員工的效率和生產力,使他們能夠專注於增值活動,而不是混亂的報告生成情況。
作為世界頂尖的拼車服務供應商之一,Lyft 正在處理 30 個不同的孤立財務系統。此孤立系統阻礙了公司的發展並減慢了流程。藉由將 Oracle Cloud ERP 及 Oracle Cloud EPM 與 Oracle Autonomous Data Warehouse 整合,Lyft 能夠將財務、運營及分析整合至單一系統。這將結算時間縮短了 50%,並有可能進一步簡化流程。這也可透過減少閒置時數來節省成本。
Agroscout 是一家軟體開發商,與農民合作,協助農民盡可能種植健康和安全的農作物。為了增加糧食產量,Agroscout 使用無人機網絡來調查農作物是否存在病蟲害。該組織需要有效率的方式來整合資料並加以處理,以識別農作物危險的跡象。使用 Oracle Object Storage 資料湖,無人機直接上傳農作物。使用 OCI Data Science 建立機器學習模型,以處理圖像。成果大幅改善,促使迅速回應食品生產。
越來越多的資料來源在全球範圍內傳送大量資料。對任何組織而言,此結構化與非結構化資料的組合持續是一項挑戰。資料湖倉儲將這些不同的輸出連結、關聯和分析成單一可管理的系統。