結構化與非結構化資料類型

瞭解結構化和非結構化資料類型之間的差異

結構化和非結構化資料之間有何差異?為什麼應該小心?對許多企業和組織而言,這類區別可能只屬於處理大數據的 IT 部門。

雖然有些事實真相,但只要您抓取結構化資料與非結構化資料的定義 (以及資料存留的位置以及如何處理資料),就值得讓所有人瞭解差異,如此一來,您就能瞭解如何運用這些來改善任何資料導向的流程。

銷售、行銷、營運、人力資源等所有群組都會產生資料。即使是小型企業的最小規模 (例如實體庫存的實體商店和當地客戶群),也可從電子郵件、信用卡交易、庫存採購及社群媒體等項目產生結構化與非結構化資料。您的企業所產生資料的優勢,在於瞭解兩者如何共同運作。

什麼是結構化資料?

結構化資料是使用預先定義和預期格式的資料。這可以來自許多不同的來源,但常見因素是欄位是固定的,如同儲存欄位的方式 (hence ,structured)。這個預先決定的資料模型可讓您輕鬆輸入、查詢及分析。

例如,考量線上購買的交易資料。在此資料中,每筆記錄都有時間戳記、採購金額、相關帳戶資訊 (或來賓帳戶)、採購項目、付款資訊及確認編號。由於每個欄位都有定義的目的,因此可輕鬆手動查詢 (等同於在 Excel 試算表上按一下 CTRL+F) 此資料。此外,機器學習演算法也能輕鬆識別模式,而且在許多情況下,也能識別這些模式以外的異常。

結構化資料會向下探鑽至已建立與預期的元素。時戳將以定義的格式送達;不會 (或無法) 傳送字詞中描述的時間戳記,因為該時間戳記不在結構內。預先定義的格式可讓您輕鬆進行擴充與處理,即使最終是以手動層級處理也一樣。

只要來源定義結構,結構化資料即可用於任何項目。部分業務最常用的用途包括 CRM 表單、線上交易、股票資料、公司網路監視資料,以及網站表單。

什麼是非結構資料?

就像結構化資料一樣,定義了非結構化資料缺少定義。非結構化資料可不是用途格式的預先定義欄位,而是可以包含所有資源配置和大小。雖然通常是文字 (例如表單中的開啟文字欄位),但非結構化資料可以有許多形式儲存為物件:影像、音訊、視訊、文件檔案和其他檔案格式。包含所有非結構化資料的共用執行緒是缺乏定義。

非結構化資料較為常見 (如下所述),而欄位的字元或空間限制可能與結構化資料不同。鑑於各種包含非結構化資料的格式,這種類型通常佔組織資料約 80%。

媒體檔案是非結構化資料的範例。Podcast 類似的內容沒有結構。依照預設,搜尋 Podcast 的 MP3 檔案並不容易;描述資料 (例如檔案名稱、時戳和手動指派的標記) 可能有助於搜尋,但音訊檔案本身缺少環境,而無需進一步分析或關係。

這也適用於視訊檔案。從社群媒體的簡短片段到大型檔案 (展示完整的網路研討會或討論),視訊資產在這些日無所不在。與 podcast MP3 檔案一樣,此資料的內容在中繼資料外缺乏特定性。您無法根據特定視訊檔案在資料庫中的實際內容來搜尋。

結構化與非結構化資料如何共同運作?

在現今的資料導向商業世界中,同時使用結構化和非結構化資料是開發洞察力的好方法。讓我們回到公司的社交媒體貼文的範例,特別是張貼某種形式的媒體附件。組織如何開發行銷互動的洞察力?

首先,使用結構化資料依最高互動排序社交媒體貼文,然後篩選出與行銷無關的主題標籤 (例如,移除任何具有客戶服務相關主題標籤的高參與貼文)。從此處,可以檢查相關的非結構化資料 - 實際社交媒體張貼內容 - 查看訊息、媒體類型、語調和其他元素,以瞭解貼文產生互動的原因。

這聽起來可能牽涉到許多人工,在數年前就是真的。然而,機器學習人工智慧的進步使自動化程度得以提高。例如,如果音訊檔是透過自然語言處理執行以建立語音至文字輸出,則可針對關鍵字模式或正 / 負向訊息分析文字。由於大數據越來越大,而且大數據的絕大部分都是非結構化,因此這些見解加速了。

資料的來源及其所在位置

現在,資料是從許多不同的來源產生。讓我們看看有標準電子商務設定的中型公司。在此情況下,資料可能來自下列領域:

  • 交易資料
  • 客戶帳戶資料
  • 庫存採購
  • 物流追蹤
  • 社群媒體參與
  • 內部 HR 資料
  • 搜尋引擎蒐集關鍵字

而且可以有許多資料來源。事實上,任何公司在這些日子所提取的資料量還不變。您不必是大企業,也能參與大數據革命。但是,要如何處理這些資料是能充分利用的關鍵。在許多情況下,最好的解決方案是資料湖

資料湖是接收結構化與非結構化資料的儲存庫。將多個資料輸入整合到單一來源的能力,使資料湖成為任何大數據基礎架構不可或缺的一部分。當資料進入資料湖時,會去除任何固有的結構,使其成為原始資料,使其可輕鬆擴展且具有彈性。讀取和處理資料之後,就會視需要提供結構和綱要,以平衡磁碟區和效率。

探索 Oracle Big Data

Powered by Oracle Cloud,Oracle Big Data 服務加速原始資料的管理和處理。從區塊儲存到資料湖,Oracle 提供了可處理結構化和非結構化資料的靈活解決方案。