資料湖庫可以定義為由資料湖與資料倉儲組合建立的現代化資料平台。更具體的說法是,資料湖庫從資料湖中取得非結構化資料的彈性儲存體,以及資料倉儲的管理功能和工具,然後策略性地將這些資料導入更大的系統。這兩款獨特工具的整合為使用者帶來了兩全其美的優勢。若要進一步細分資料湖庫,請務必先完全瞭解兩個原始詞彙的定義。
當我們談論資料湖庫時,我們參考了目前資料儲存區域平台的合併使用方式。
因此,資料湖庫如何結合這兩個想法?一般而言,資料湖庫會移除資料湖與資料倉儲之間的孤島牆。這意謂著可以在低成本和彈性儲存資料湖到資料倉儲之間輕鬆移動資料,反之亦然,讓您輕鬆存取資料倉儲的管理工具來導入綱要和治理,通常是由機器學習和人工智慧來進行資料清理。結果會建立一個資料儲存區域,整合負擔得起、非結構化的資料湖集合,以及資料倉儲堅實的準備工作。資料湖庫藉由提供空間,在使用為業務用途準備資料的工具和功能時,從策劃的資料來源收集資料,可加速流程。資料湖庫是資料倉儲,概念上源自 1980 年代早期的現代化資料導向世界。
瞭解資料湖庫的一般概念後,讓我們更深入了解相關的特定元素。資料湖庫提供許多熟悉歷史資料湖和資料倉儲概念的片段,但將其合併成對現今數位世界更新的、更有效率的方法。
資料倉儲通常提供資料管理功能,例如資料清除、ETL 和綱要強制實行。這些技術被帶入資料湖庫中,作為快速準備資料的方法,可讓來自策劃來源的資料自然共同運作,並做好進一步分析和商業智慧 (BI) 工具的準備。
使用開放且標準化的儲存格式,意味著來自策劃資料來源的資料大幅增加,能夠共同運作並準備進行分析或報告。
將運算與儲存資源分開的功能,可視需要輕鬆擴充儲存。
許多資料來源都直接從裝置使用即時串流。與標準資料倉儲相比,資料湖庫更能支援這種類型的即時擷取。隨著全球與 Internet of Things 裝置整合變得越來越重要,即時支援也越來越重要。
由於資料湖庫整合了資料倉儲和資料湖的功能,因此它是許多不同工作負載的理想解決方案。從業務報告到資料科學團隊到分析工具,資料湖庫的固有特質可以支援組織內的不同工作負載。
透過建立資料湖庫,組織可以利用統一的資料平台簡化整體資料管理流程。資料湖庫可以分解多個儲存庫之間的孤島牆,取代個別的解決方案。此整合為精選的資料來源建立更有效率的端對端流程。這會帶來一些好處。
雖然有些組織會建置資料湖庫,但有些組織會購買資料湖庫雲端服務。
當 Experian 將關鍵資料工作負載從其他雲端移轉至 OCI 的資料湖庫時,效能提升 40%,成本也降低 60%,同時加快資料處理速度和產品創新,同時拓展全球各地的信貸機會。
Generali Group 是一家義大利保險公司,全球最大的客戶基礎之一。Generali 有許多資料來源,包括 Oracle Cloud HCM 和其他本機與區域來源。他們的人力資源決策和員工投入度面臨了阻礙,而公司也尋求了改善效率的解決方案。整合 Oracle Autonomous Data Warehouse 與 Generali 的資料來源,免除孤島,並為所有 HR 分析建立單一資源。這提升了效率並提升了 HR 職員之間的生產力,讓他們能夠專注於增加附加價值的活動,而不是增加報告的流失。
Lyft 是全球頂尖的騎乘者之一,負責處理 30 種不同的獨立財務系統。這種分離阻礙了公司的成長,緩慢的流程。藉由將 Oracle Cloud ERP 與 Oracle Cloud EPM 與 Oracle Autonomous Data Warehouse 整合,Lyft 能夠將財務、作業及分析整合至一個系統。這將結算帳冊的時間縮短了 50%,甚至可以進一步簡化流程。這也可透過減少閒置時數來節省成本。
Agroscout 是一個軟體開發商,能幫助農民最大化健康和安全農作物。為了增加食物生產,Agroscout 使用無人機網絡來調查病例或疾病的作物。該組織需要有效率的方式來整合資料並加以處理,以識別農作物危險的跡象。使用 Oracle Object Storage 資料湖,無人機直接上傳農作物。機器學習模型使用 OCI 資料科學建立,以處理映像檔。成果大幅改善,促使迅速回應食品生產。
隨著每日過去,越來越多的資料來源在全球傳送大量資料。對任何組織而言,此結構化與非結構化資料的組合持續是一項挑戰。資料湖倉儲將這些不同的輸出連結、關聯和分析成單一可管理的系統。