Oracle Cloud Free Tier

免費在 Oracle Cloud 上建構、測試及部署應用程式。

什麼是資料湖?

資料湖的定義

以下是簡單的定義:資料湖是儲存結構化和非結構化資料的地方,以及組織不同來源大量不同資料的方法。

資料湖逐漸變得越來越重要,尤其是業務和技術人員,也想執行開發資料探索及探索。將資料合併到單一位置,或是存放在單一位置,讓資料變得更簡單。

視您的平台而定,資料湖可能會更簡單。可處理許多資料結構,例如非結構化和多管控的資料,然後協助您發揮資料的價值。

資料湖與資料倉儲

資料湖與資料倉儲

資料湖與資料倉儲之間的主要差異在於,資料湖通常傾向於快速擷取資料,並在稍後進行存取時立即準備。另一方面,藉由資料倉儲,您就能將資料倉儲提前做好準備,讓資料倉儲搬移至資料倉儲。

使用者通常希望儘快將資料擷取至資料湖,因此處理有作業使用案例的公司,特別是作業報告、分析及業務監控,都採用最新的資料。這可讓他們存取最新資料,並查看最新資訊。

藉由資料湖,使用者通常會以原始格式擷取資料,無須加以更改。這可以是基於速度的原因,但也可以是其他原因,包括希望執行進階分析,這取決於詳細的來源資料。這是根據任何種類的採礦進行分析,無論:

  • 文字探勘
  • 資料探勘
  • 統計分析
  • 包含叢集的任何內容
  • 圖表分析

資料湖使用案例

為了提供資料湖能夠提供的各種好處,適當的解決方案應該能夠提供更好的方法:

  • 最佳和轉換:移動及轉換不同的資料種類和格式
  • 保留與存取:確保資料安全、可快速找到、可視需要輕鬆進行擴充,並可視需要跨產品進行存取
  • 分析及使用資料科學:發掘資料內的洞見和趨勢

資料湖是更大的資料管理平台的一部分,它應該和現有的資料和工具完美整合,提供更強大的資料湖功能。

全通路行銷資料湖

使用資料湖來延伸資料倉儲是一件全通路行銷的事物,有時稱為多通路行銷。行銷資料生態系統思考的方法,在於每個通路都可以各自獨立的資料庫,而且每個接觸點也都能夠相同。同時許多行銷人員也會向第三方購買資料。

例如,行銷人員可能想要購買具有客戶與準客戶相關之其他人口統計與消費者喜好資訊的資料,並協助行銷人員填寫每個客戶的完整檢視,進而協助建立更個人化的行銷宣傳活動。

這是一個複雜的資料生態系統,而且它隨時變得更大、更複雜。資料湖經常被帶來,用來擷取來自多個通路和接觸點的資料。有些事件實際上是串流資料。

對客戶提供智慧型手機 App 的公司,在客戶使用該應用程式時,可能會即時或接近該 App 的資料接收。許多時候,公司真正不需要全職工作。可以是一小時或兩歲。但它可讓行銷部門對業務進行精細的監控,並創造特殊、獎勵、折扣及微促銷活動。

數位供應鏈資料湖

數位供應鏈是等式不同的資料環境,而資料湖也有助於兩者,尤其是 Hadoop 上的資料湖時。Hadoop 主要是檔案式系統,因為它們最初是針對來自 Web 伺服器的非常大且大量的日誌檔所設計。在供應鏈中,經常有大量的檔案型資料。思考一下電子資料交換系統、XML 及今日 JSON 出現在數位供應鏈中非常強勁的檔案型和文件式資料。這非常多元。

還需要考慮內部資訊。製造商通常都具有從現場管理的資料,以及與供應鏈高度相關的出貨與帳單資訊。湖可協助製造商將資料整合在一起,並以檔案方式管理。

物聯網資料湖

物聯網目前幾乎每天在某些公司建立新的資料來源。當然,就像這些來源一樣,它們會建立更多資料,雖然越來越多,每次使用更多機械時都會有更多的感測器。現在,在某些部門或 IT 計畫中,是以公平方式使用資料湖的範例,但集中式 IT 則提供多租用戶的單一大型資料湖。它是否安全操作?是否以相對於燃料消耗的最佳方式運作?來自這些地方的資料量龐大,而資料湖大受歡迎,因為它提供所有資料的儲存區域。

單一資料湖

現在,在某些部門或 IT 計畫中,是以公平方式使用資料湖的範例,但集中式 IT 則提供多租用戶的單一大型資料湖。它可供許多不同部門、業務單位和技術方案使用。隨著人們用來湖泊,他們了解如何加以最佳化,以便用於各種用途與作業、分析及甚至符合規範。

不同種類的資料湖平台

資料湖可以使用許多方法,而且還有許多平台可以加以使用。Hadoop 是最常用的平台,但不是唯一平台。

Hadoop

Hadoop 的功能很吸引人。它證明具有線性擴充性。相較於關聯式資料庫,擴充性成本較低。但 Hadoop 不只是便宜的儲存空間,它也是功能強大的處理平台。對於嘗試進行演算法分析的人,Hadoop 可以很有用。

關聯式資料庫管理系統

關聯式資料庫管理系統也可以是資料湖的平台,因為有些人有大量資料,要放入結構性及關聯性的湖中。因此,如果資料在本質上相互關聯,則進行資料湖的 DBMS 方法就變得更完美。此外,如果您有想要執行關聯功能的使用案例 (例如 SQL 或複雜的表格結合),RDBMS 就是最佳的。

雲端型儲存空間

但潮流指向雲端系統,尤其是雲端儲存裝置。雲端的絕佳優點是靈活的擴充性。它們可以在工作負載縱向擴充時,將伺服器資源與其他資源封殺。相較於許多內部部署系統,雲端環境成本可能低廉。其中一部分是因為沒有系統整合。

如果您想要在內部部署環境中進行某件事,您或其他人必須執行多月的系統整合,而且在許多系統中,這個雲端提供者已經整合完畢。通常您購買授權,而且可以在幾小時內啟動並執行。此外,我們在資料湖最佳實務的上一個文章中提到雲端的物件存放區方法也有許多優點。

當然,您可以搭配使用平台與資料湖。如果您熟悉邏輯資料倉儲的呼叫方式,您也可以將邏輯資料倉儲類似,而且這是邏輯資料湖。資料實際分散在多個平台的地方。對於這類需求來說,像是需要適用於同盟查詢或資料虛擬化功能的特殊工具,才能進行遠方的分析查詢。

但在工具層次仍可採用該技術,而且許多人也正在使用該技術。

資料湖,資料湖的未來?

在尋求從資料中提取更多價值的過程中,公司總是在不斷地挑戰極限。透過啟用雲端運算,通常可將資料湖技術和資料倉儲結合成稱為「資料湖中心」的單一架構。資料湖庫的優點包括更好的整合、更少的資料移動、更佳的資料治理及支援更多使用案例。

建立資料湖

資料湖是您的答案,可整理各種不同來源的所有大量不同資料。如果您已準備好開始享受資料湖的美好,我們可以提供您 Oracle Free Tier 讓您開始使用。