解決方案、使用案例和案例研究
資料網格是企業軟體的一個熱門主題,這是根據分散式架構思考資料以進行資料管理的新方法。其概念是透過直接連接資料擁有者、資料產生者和資料取用者,讓業務使用者更容易存取及使用資料。資料網格旨在改善以資料為中心之解決方案的業務成果,並加速採用現代化資料架構。
從業務觀點來看,資料網格引進了有關「資料產品思維」的新想法。換句話說,將資料視為一種能夠實現「待完成工作」的產品,例如為了改善決策、協助偵測詐騙或警告企業變更供應鏈條件。為了建立高價值的資料產品,公司必須因應文化和思維轉變,並採取更跨職能的方法來建立業務領域模型。
在技術方面,Oracle 對資料網格的觀點涉及資料導向架構的三大新重點領域:
其他重要考量 (例如適用於非技術使用者的自助服務工具和強大的聯合資料治理模型) 對資料網格架構的重要性,會與其他更集中且傳統的資料管理方法一樣重要。
資料網格方法是將資料視為產品的典範轉移。資料網格引進了公司必須以企業的有形資本資產形式管理資料的組織和流程變更。Oracle 的資料網格架構觀點要求整個組織和分析資料領域一致。
資料網格旨在將資料產生者直接連結至業務使用者,以盡可能從擷取、準備及轉換資料資源的專案和流程中移除 IT 中間人。
Oracle 著重於資料網格,為客戶提供了一個可解決這些新興技術需求的平台。這包括資料產品的工具、分散式事件導向架構,以及移動中資料的串流模式。對於資料產品領域建模及其他社交技術問題,Oracle 與資料網格思維領袖 Zhamak Dehghani 所提出的待完成工作一致。
投資資料網格可獲得令人印象深刻的優勢,包括:
資料網格的市場成熟度仍在早期階段。因此,雖然您可能會看到各種宣稱是「資料網格」解決方案的行銷內容,但這些所謂的資料網格解決方案通常不符合核心方法或原則。
正確的資料網格是一種思維、組織模型,以及具有支援工具的企業資料架構方法。資料網格解決方案應混合一些資料產品思維、分散式資料架構、領域導向資料擁有權、分散式移動中的資料、自助服務存取,以及強大的資料治理。
資料網格不是下列任何一項:
可悲的是,事實上,過去的單體式資料架構既繁瑣昂貴,又欠缺靈活性。多年來,數位商業平台 (從應用到分析) 的大部分時間和成本被投入整合工作的情況變得越來越明顯。因此,大多數的平台計畫都會失敗。
雖然資料網格無法輕易解決集中式單體式資料架構問題,但資料網格的原則、實務和技術卻可解決資料導向業務計畫中一些最迫切且未解決的現代化目標。
導致資料網格即解決方案興起的一些技術趨勢包括:
若要深入瞭解為何今日需要資料網格,請閱讀 Zhamak Dehghani 的原始 2019 文件:How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (如何將單體式資料湖移至分散式資料網格)。
資料網格背後的分散式策略旨在將資料視為產品,透過建立自助服務資料基礎架構,讓業務使用者更容易存取資料。
當理論進入實務階段時,必須為關鍵任務資料部署企業級解決方案;Oracle 可在其中提供一系列值得信任的解決方案來增強企業資料網格。
資料網格不只是新的技術流行語。這是新出現的一組原則、實務和技術功能,可使資料更容易存取和找到。資料網格概念與前幾代資料整合方法和架構的不同之處,在於其鼓勵從過去的巨型單體式企業資料架構,轉換為未來的現代化分散式資料導向架構。資料網格概念的基礎涉及下列主要特性:
思維轉變是邁向資料網格最重要的第一步。願意採用學到的創新實務,有助於成功將資料架構現代化。
這些學到的實務領域包括:
設計思維方法帶來實證技術,可協助打破經常封鎖跨功能創新的組織孤島。待完成工作理論是設計資料產品以實現特定終端取用者目標 (或待完成工作) 的關鍵基礎,定義了產品的用途。
雖然資料產品方法一開始是來自資料科學社群,但現在將應用於資料管理的所有層面。資料網格著重於資料取用者和業務成果,而不是建立單體式技術架構。
雖然資料產品思維可應用於其他資料架構,但這是資料網格不可或缺的一部分。如需如何應用資料產品思維的實用範例,Intuit 團隊根據自己的經驗撰寫了詳細的分析。
任何類型的產品 (從原始商品到您當地商店的物品) 都會以旨在供取用的有價值資產形式產生,並具有特定的待完成工作。資料產品可採用各種形式,視要解決的業務領域或問題而定,其中可能包括:
資料產品是為了取用所建立,通常在 IT 外部擁有,並需要追蹤其他特性,例如:
分散式 IT 系統是現代事實,隨著 SaaS 應用程式和公有雲端基礎架構 (IaaS) 的崛起,應用程式和資料的分散化已成為常態。應用程式軟體架構正從過去的集中式單體轉變為分散式微服務 (服務網格)。資料架構將遵循相同的分散化趨勢,資料在各式各樣的實體網站和許多網路之間會變得越來越分散。我們將此稱為資料網格。
網格是一種網路拓樸,可讓大型非階層式節點群組以協同合作的方式共同運作。
一些常見的技術範例包括:
資料網格與這些網格概念一致,並提供分散方式在虛擬/實體網路之間和遠距離分散資料。傳統資料整合單體式架構 (例如 ETL 和資料聯合工具),甚至更近的公有雲服務 (例如 AWS Glue),都需要高度集中的基礎架構。
完整的資料網格解決方案必須能夠在多雲架構中運作,範圍可能會從內部部署系統、多個公有雲,甚至到邊緣網路。
在資料高度分散的世界中,資訊安全的角色至關重要。與高度集中的單體不同,分散式系統必須將驗證和授權各個使用者不同存取層級所需的活動對外委派。但在網路間安全地委派信任並不容易達成。
部分考量包括:
在任何 IT 系統中提供安全性可能很難,而在分散式系統中提供高安全性甚至更難。不過,這是可解決的問題。
資料網格的核心宗旨在於擁有權和責任的散布概念。最佳實務是將資料產品和資料領域的擁有權與組織中最接近資料的人員聯合在一起。實際上,這可能會與來源資料一致 (例如原始資料來源,像是記錄/應用程式的作業系統),或與分析資料一致 (例如通常為方便資料取用者取用而格式化的複合或彙總資料)。在這兩種情況下,資料的生產者和取用者通常會與業務單位而非 IT 組織一致。
組織資料領域的老方法通常會落入與技術解決方案一致的陷阱,例如 ETL 工具、資料倉儲、資料湖或公司的結構組織 (人力資源、行銷及其他業務部門)。不過,對於指定的業務問題,資料領域通常會與正在解決的問題範圍、特定業務流程的相關資訊環境,或特定問題領域的應用程式系列最為一致。在大型組織中,這些資料領域通常會影響內部組織和技術佈局。
資料領域的功能分解在資料網格中已晉升為首要優先考量。用於領域建模的各種資料分解方法都可改造為資料網格架構,包括傳統資料倉儲建模 (例如 Kimball 和 Inmon) 或資料保存庫建模,但目前在資料網格架構中最常嘗試的方法是領域導向設計 (DDD)。DDD 方法來自微服務功能分解,現在將應用於資料網格相關資訊環境。
Oracle 加入資料網格討論的一個重要領域是提高移動中資料的重要性,使其成為現代化資料網格的主要組成成份。移動中的資料是讓資料網格得以從單體式集中式批次處理的傳統世界脫離出來的重要基礎。移動中的資料功能回答了幾個核心資料網格問題,例如:
這些問題不只是「實施細節」,對於資料架構本身也至關重要。靜態資料的領域導向設計所使用的技術和工具,與相同設計的移動中動態資料流程不同。例如,在動態資料架構中,資料分類帳是資料事件的事實來源中心。
分類帳是製作分散式資料架構功能的基本元件。與會計分類帳相同,資料分類帳會記錄發生的交易。
散布分類帳時,任何位置的資料事件都會變成「可重新執行」。有些分類帳有點像飛機飛行記錄器,可用於高可用性和災難復原。
與集中式和單體式資料存放區不同,分散式分類帳是專為追蹤其他 (外部) 系統中發生的單元事件和 (或) 交易而建立。
資料網格不會是單一類型的分類帳。視使用案例和需求而定,資料網格可以利用不同類型的事件導向資料分類帳,包括下列各項:
這些分類帳可共同作為整個企業的一種長期事件日誌,以提供記錄系統和分析系統上所發生資料事件的連續清單。
多語言資料串流比以往更為普遍。它們會因事件類型、有效負載和不同的交易語意而有所不同。資料網格應支援各種企業資料工作負載的必要串流類型。
簡單事件:
- Base64/JSON—原始、無綱要事件
- 原始遙測—稀疏事件
基本應用程式日誌記錄/物聯網 (IoT) 事件:
- JSON/Protobuf— 可能有綱要
- MQTT—IoT 特定通訊協定
應用程式業務流程事件:
- SOAP/REST 事件—XML/XSD、JSON
- B2B—交換通訊協定和標準
資料事件/交易:
- 邏輯變更記錄—LCR、SCN、URID
- 一致的界限—確認與作業
串流處理是資料在事件串流中的操控方式。與「Lambda 函數」不同,串流處理器會在特定時段內維持資料流程的狀態性,並可對資料套用更進階的分析查詢。
基本資料篩選:
簡單的 ETL:
CEP 和複雜的 ETL:
串流分析:
當然,資料網格不只有這三個特性。我們著重於以上三個特性是為了指出,Oracle 認為這些特性是新興現代化資料網格方法的其中一些全新獨特層面。
其他重要的資料網格特性還包括:
一個成功的資料網格可同時實現作業和分析資料領域的使用案例。以下七個使用案例說明了資料網格為企業資料帶來的廣泛功能。
透過整合即時作業資料和分析,公司就能做出更好的營運和策略決策。MIT Sloan School of Management
除了以「隨即轉移」的方式將單體式資料架構移轉雲端之外,許多組織也想淘汰過去的集中式應用程式,並改用更現代化的微服務應用程式架構。
但傳統應用程式單體通常仰賴大量的資料庫,而產生如何分段移轉計畫才能減少中斷、風險和成本的問題。資料網路可以為從單體分段轉換到網格架構的客戶,提供重要的作業 IT 功能。例如:
從微服務架構的觀點來看,此方法使用雙向交易寄件匣來實現 Strangler Fig 移轉模式,一次一個限定內容。
關鍵業務應用程式在復原能力和持續性方面需要非常高的 KPI 和 SLA。無論這些應用程式是單體式架構、微服務,還是介於兩者之間,都不能停止運作!
對於關鍵任務系統,通常無法接受分散式最終一致性資料模型。不過,這些應用程式必須跨多個資料中心運作。這會產生業務持續性問題:「如何跨多個資料中心執行應用程式,同時仍保證資料正確且一致」
無論單體式架構使用的是「分區資料集」,還是設定為跨網站高可用性的微服務,資料網格都能在任何距離下提供正確的高速資料。
資料網格可為跨網站的資料提供分散但 100% 正確的基礎。例如:
現代化服務網格式平台使用事件進行資料交換。當應用程式或資料存放區中發生事件時,資料有效負載會持續流動,而不是依賴資料層的批次處理。
針對某些架構,微服務必須相互交換資料有效負載。其他模式則需要在單體式應用程式或資料存放區之間進行交換。這會產生問題:「如何才能在應用程式與資料存放區之間可靠地交換微服務資料有效負載?」
資料網格可為以微服務為中心的資料交換提供基礎技術。例如:
微服務模式 (例如事件來源、CQRS 和交易寄件匣) 都是普遍瞭解的解決方案;資料網格提供工具和架構,讓這些模式可大規模可靠地重複。
除了微服務設計模式之外,企業整合的需求還延伸至其他 IT 系統,例如資料庫、業務流程、應用程式及所有類型的實體裝置。資料網格為整合移動中的資料提供基礎。
移動中的資料通常是事件導向。使用者動作、裝置事件、流程步驟或資料存放區確認都可透過資料有效負載來起始事件。這些資料有效負載對於整合物聯網 (IoT) 系統、業務流程和資料庫、資料倉儲以及資料湖至關重要。
資料網格為整個企業的即時整合提供基礎技術。例如:
大型組織理所當然會混合使用新舊系統、單體和微服務、作業和分析資料存放區;資料網格可協助跨不同業務和資料領域統一這些資源。
分析資料存放區可包括資料市集、資料倉儲、OLAP 立方體、資料湖及資料湖倉儲技術。
一般而言,將資料帶入這些分析資料存放區的方法只有兩種:
資料網格為串流資料擷取功能提供基礎。例如:
透過串流擷取事件可降低對來源系統的影響、改善資料的真確性 (對於資料科學至關重要),並實現即時分析。
擷取至分析資料存放區後,資料管線通常需要準備和轉換不同資料階段或資料區域的資料。下游分析資料產品通常需要此資料精簡流程。
資料網格可提供與分析資料存放區搭配運作的獨立控管資料管線層,以提供下列核心服務:
這些資料管線應該能夠跨不同的實體資料存放區 (例如市集、倉儲或湖) 運作,或是作為支援串流資料之分析資料平台內的「下推資料串流」運作 (例如 Apache Spark 和其他資料湖倉儲技術)。
事件會持續發生。串流中事件的分析對於瞭解最新動態至關重要。
這種以時間序列為基礎的即時事件串流分析,對於真實世界的 IoT 裝置資料,以及瞭解 IT 資料中心內或財務交易間的狀況 (例如詐騙監控) 可能很重要。
全功能資料網格會包含基礎功能,可分析多種不同事件時段的所有類型事件。例如:
與資料管線相同,串流分析可能會在已建立的資料湖倉儲基礎架構內執行,也可能會單獨作為雲端原生服務執行。
資料整合前緣領導者想從各種彈性資料存放區集合進行即時作業和分析資料整合。隨著資料架構演變為串流分析,創新已持續不斷快速發展。作業高可用性實現了即時分析,而資料工程自動化則簡化了資料準備,讓資料科學家和分析師可透過自助服務工具來達成。
在整個資料資產上建立作業和分析網格
將所有這些資料管理功能投入到統一架構會影響所有資料取用者。資料網格將協助改善您的全球記錄系統和業務開發系統以即時可靠地運作,讓即時資料符合業務部門經理、資料科學家和您客戶的需求。它也會簡化新一代微服務應用程式的資料管理。使用現代化分析方法和工具,您的終端使用者、分析師和資料科學家將能更提升回應客戶需求和競爭威脅的能力。若要閱讀詳加記載的範例,請參閱 Intuit 的目標和結果。
在重點專案上利用資料網格
當您採用新的資料產品思維和營運模型時,請務必發展每項支援技術的經驗。在您的資料網格旅程中,您可以將快速資料架構演變為串流分析、將作業高可用性投資運用在即時分析,並為資料科學家和分析師提供即時自助服務分析,藉此增加效益。
資料結構 | 應用程式開發整合 | 分析資料存放區 | |||||
---|---|---|---|---|---|---|---|
資料網格 | 資料整合 | 中繼目錄 | 微服務 | 訊息傳送 | 資料湖倉儲 | 分散式資料倉儲 | |
人員、流程和方法: | |||||||
資料產品重點 | 可用 |
可用 |
可用 |
提供 1/4 |
提供 1/4 |
提供 3/4 |
提供 3/4 |
技術架構特性: | |||||||
分散式架構 | 可用 |
提供 1/4 |
提供 3/4 |
可用 |
可用 |
提供 1/4 |
提供 3/4 |
事件導向分類帳 | 可用 |
無法使用 |
提供 1/4 |
可用 |
可用 |
提供 1/4 |
提供 1/4 |
ACID 支援 | 可用 |
可用 |
無法使用 |
無法使用 |
提供 3/4 |
提供 3/4 |
可用 |
串流導向 | 可用 |
提供 1/4 |
無法使用 |
無法使用 |
提供 1/4 |
提供 3/4 |
提供 1/4 |
分析資料重點 | 可用 |
可用 |
可用 |
無法使用 |
無法使用 |
可用 |
可用 |
作業資料重點 | 可用 |
提供 1/4 |
可用 |
可用 |
可用 |
無法使用 |
無法使用 |
實體與邏輯網格 | 可用 |
可用 |
無法使用 |
提供 1/4 |
提供 3/4 |
提供 3/4 |
提供 1/4 |
更快速的資料導向創新週期
降低關鍵任務資料作業的成本
多雲資料流動性
- 釋放資料資本以自由流動
即時資料共用
- 作業對作業,以及作業對分析
邊緣、位置型資料服務
- 關聯 IRL 裝置/資料事件
值得信任的微服務資料交換
- 具有正確資料的事件來源
- DataOps 和資料的 CI/CD
不中斷的持續性
- >99.999% 的正常運作時間 SLA
- 雲端移轉
自動化和簡化資料產品
- 多模型資料集
時間序列資料分析
- 差異/變更的記錄
- 依事件區分的真確性
排除作業資料存放區的完整資料複本
- 以日誌為基礎的分類帳和管線
分散式資料湖和倉儲
- 混合/多雲/全球
- 串流整合/ETL
預測分析
- 資料貨幣化,適用於銷售的新資料服務
數位轉型非常困難,不幸的是,大多數公司的轉型都會失敗。多年來,由於現代化技術不再高度集中和採用單體式,因此技術、軟體設計和資料架構變得越來越分散。
資料網格是資料的新概念,刻意轉向高度分散式和即時資料事件,而不是單體式、集中式和批次式資料處理。資料網格的核心是文化思維轉變,將資料取用者的需求放在首位。這也是一項真正的技術轉變,提升平台和服務以強化分散式資料架構。
資料網格的使用案例涵蓋作業資料和分析資料,這是與傳統資料湖/資料湖倉儲和資料倉儲的主要差異。這種作業和分析資料領域的一致性是實現提升資料取用者自助能力需求的關鍵因素。現代化資料平台技術可協助移除中間人,讓資料產生者直接連接至資料取用者。
Oracle 長期以來一直是任務關鍵資料解決方案的產業領導者,並已推出一些最現代化的功能來強化值得信任的資料網路: