結構化與非結構化資料類型

瞭解結構化和非結構化資料類型之間的差異

結構化和非結構化資料之間有何差異？為什麼應該小心？對許多企業和組織而言，這類區別可能只屬於處理大數據的 IT 部門。

雖然有些事實真相，但只要您抓取結構化資料與非結構化資料的定義 (以及資料存留的位置以及如何處理資料)，就值得讓所有人瞭解差異，如此一來，您就能瞭解如何運用這些來改善任何資料導向的流程。

銷售、行銷、營運、人力資源等所有群組都會產生資料。即使是小型企業的最小規模 (例如實體庫存的實體商店和當地客戶群)，也可從電子郵件、信用卡交易、庫存採購及社群媒體等項目產生結構化與非結構化資料。您的企業所產生資料的優勢，在於瞭解兩者如何共同運作。

什麼是結構化資料？

結構化資料是使用預先定義和預期格式的資料。這可以來自許多不同的來源，但常見因素是欄位是固定的，如同儲存欄位的方式 (hence ，structured)。這個預先決定的資料模型可讓您輕鬆輸入、查詢及分析。

例如，考量線上購買的交易資料。在此資料中，每筆記錄都有時間戳記、採購金額、相關帳戶資訊 (或來賓帳戶)、採購項目、付款資訊及確認編號。由於每個欄位都有定義的目的，因此可輕鬆手動查詢 (等同於在 Excel 試算表上按一下 CTRL+F) 此資料。此外，機器學習演算法也能輕鬆識別模式，而且在許多情況下，也能識別這些模式以外的異常。

結構化資料會向下探鑽至已建立與預期的元素。時戳將以定義的格式送達；不會 (或無法) 傳送字詞中描述的時間戳記，因為該時間戳記不在結構內。預先定義的格式可讓您輕鬆進行擴充與處理，即使最終是以手動層級處理也一樣。

只要來源定義結構，結構化資料即可用於任何項目。部分業務最常用的用途包括 CRM 表單、線上交易、股票資料、公司網路監視資料，以及網站表單。

什麼是非結構資料？

就像結構化資料一樣，定義了非結構化資料缺少定義。非結構化資料可不是用途格式的預先定義欄位，而是可以包含所有資源配置和大小。雖然通常是文字 (例如表單中的開啟文字欄位)，但非結構化資料可以有許多形式儲存為物件：影像、音訊、視訊、文件檔案和其他檔案格式。包含所有非結構化資料的共用執行緒是缺乏定義。

非結構化資料較為常見 (如下所述)，而欄位的字元或空間限制可能與結構化資料不同。鑑於各種包含非結構化資料的格式，這種類型通常佔組織資料約 80%。

媒體檔案是非結構化資料的範例。Podcast 類似的內容沒有結構。依照預設，搜尋 Podcast 的 MP3 檔案並不容易；描述資料 (例如檔案名稱、時戳和手動指派的標記) 可能有助於搜尋，但音訊檔案本身缺少環境，而無需進一步分析或關係。

這也適用於視訊檔案。從社群媒體的簡短片段到大型檔案 (展示完整的網路研討會或討論)，視訊資產在這些日無所不在。與 podcast MP3 檔案一樣，此資料的內容在中繼資料外缺乏特定性。您無法根據特定視訊檔案在資料庫中的實際內容來搜尋。

結構化與非結構化資料如何共同運作？

在現今的資料導向商業世界中，同時使用結構化和非結構化資料是開發洞察力的好方法。讓我們回到公司的社交媒體貼文的範例，特別是張貼某種形式的媒體附件。組織如何開發行銷互動的洞察力？

首先，使用結構化資料依最高互動排序社交媒體貼文，然後篩選出與行銷無關的主題標籤 (例如，移除任何具有客戶服務相關主題標籤的高參與貼文)。從此處，可以檢查相關的非結構化資料 - 實際社交媒體張貼內容 - 查看訊息、媒體類型、語調和其他元素，以瞭解貼文產生互動的原因。

這聽起來可能牽涉到許多人工，在數年前就是真的。然而，機器學習和人工智慧的進步使自動化程度得以提高。例如，如果音訊檔是透過自然語言處理執行以建立語音至文字輸出，則可針對關鍵字模式或正 / 負向訊息分析文字。由於大數據越來越大，而且大數據的絕大部分都是非結構化，因此這些見解加速了。

資料的來源及其所在位置

現在，資料是從許多不同的來源產生。讓我們看看有標準電子商務設定的中型公司。在此情況下，資料可能來自下列領域：

交易資料
客戶帳戶資料
庫存採購
物流追蹤
社群媒體參與
內部 HR 資料
搜尋引擎蒐集關鍵字

而且可以有許多資料來源。事實上，任何公司在這些日子所提取的資料量還不變。您不必是大企業，也能參與大數據革命。但是，要如何處理這些資料是能充分利用的關鍵。在許多情況下，最好的解決方案是資料湖。

資料湖是接收結構化與非結構化資料的儲存庫。將多個資料輸入整合到單一來源的能力，使資料湖成為任何大數據基礎架構不可或缺的一部分。當資料進入資料湖時，會去除任何固有的結構，使其成為原始資料，使其可輕鬆擴展且具有彈性。讀取和處理資料之後，就會視需要提供結構和綱要，以平衡磁碟區和效率。

探索 Oracle Big Data

深入瞭解 Oracle Big Data