What is document understanding?

Document understanding is an automated process that draws information out of a text file, such as a PDF or scan of a paper document, and passes it into a business application. It helps minimize—and potentially even eliminate—manual data entry while improving accuracy. Document understanding is made possible by sophisticated machine learning (ML) algorithms. ML is key to several steps, beginning with image processing, where relevant information, such as price, name, and invoice or purchase order (PO) number, is discovered, extracted, and stored in a database for integration into relevant business systems.

How does document understanding differ from traditional OCR?

OCR is a core capability that makes a document understanding process possible—it’s what converts text in an image or PDF into editable text. From there, document understanding processing makes the text available to business applications.

What types of documents can be processed using document understanding?

A document understanding process scans documents, such as PDFs or image files such as .jpg or .png files and turns the text it finds into an editable form. It scans fields in documents, such as receipts, invoices, or loan applications; recognizes names, amounts, dates, and other important details; and makes that information available to business applications.

How secure is the data processed with document understanding solutions?

The security of the data in a document understanding process comes down to the architecture and the data security measures taken as part of the process. Is the data encrypted at rest and in transit? Is it backed up? Are adequate access controls in place? All these can make any data process more secure.

國家/地區

什麼是文件理解？AI 文件處理詳解

Jeffrey Erickson | 資深撰稿人 | 2025 年 7 月 31 日

文章概覽

什麼是文件理解？
文件處理詳解
文件理解的運作方式
文件理解為企業帶來的好處
文件理解的主要用途
文件理解的常見使用案例和應用
運用 Oracle 的進階解決方案提高文件處理效率
文件理解常見問題

可能有人會說：「我想要花時間閱讀書面文件或 PDF 中的資訊，並將資訊輸入會計應用程式。」這就是 AI 驅動的文件理解如此有用的原因，能代替忙碌的工作人員處理最想擺脫的繁重工作。這項功能也可加快文件處理速度並協助降低成本，同時提高準確性。您會發現文件理解技術常被融入 SaaS 應用程式工作流程中，而最近這項技術被用來為 AI 訓練資料加上標籤文字，並提供 AI 代理完成多步驟任務所需的資訊。如此一來，人類就可以回頭處理喜歡的思考、建造和溝通工作。

什麼是文件理解？

文件理解是從文字檔 (例如 PDF 或紙本文件掃描檔) 中提取資訊，並將資訊傳遞至業務應用程式的自動化流程。這項功能有助於盡可能降低 (甚至完全免除) 手動資料輸入的必要性，同時提高準確度。文件理解可透過複雜的機器學習 (ML) 演算法進行。機器學習是數個步驟的關鍵，從圖片處理開始，這項技術能用來在資料庫中尋找、擷取並儲存相關資訊 (例如價格、名稱和發票或採購單 (PO) 編號)，以整合至相關業務系統。

例如，製造商可能會使用文件理解從採購單擷取資訊，並自動將資訊輸入會計分類帳和庫存控制系統中，以大幅提高銷售流程的速度和準確性。同樣地，公司可能會部署費用報銷系統，從收據圖片中提取相關資訊，然後自動為員工建立費用報表。

文件理解是 AI 和機器學習的早期成功使用案例。您會發現這項功能已整合至業務應用程式中，以便自動化執行工作流程，並為原本需費心處理這些手動資料輸入和文件處理步驟的專業人員節省更多時間。文件理解與自然語言處理 (NLP) 和檢索增強生成 (RAG) 結合時，可做為系統不可或缺的一部分，有助於瞭解文件的語意意義，協助進行文件分類和資訊探索。

重點精華

文件理解是 AI 驅動的流程，會從各種文字檔案中擷取資料，以協助自動化執行資料輸入和文件處理作業。
結構化欄位 (例如價格、日期、名稱、簽名及訂單編號) 可正確整合至業務工作流程中。
文件辨識功能通常會整合至熱門的業務應用程式，包括 ERP、CRM 和產業專屬系統。
AI 運用文件理解功能，協助自動化執行訓練資料集的資料收集和標籤作業，並提供 AI 代理執行複雜任務時所需的資訊。

文件處理詳解

文件處理是文件理解的核心元件，會從各種檔案類型擷取資料、將資料設為結構化格式，然後在資料庫中進行分類，以便用來填入線上表單欄位並提取用於業務職責中，例如發票處理、薪資、銷售及費用會計。

為了完成這些任務，文件處理系統需要預先定義的規則。機器學習演算法接著可以識別並擷取文字區塊、資料表和欄位中的資料，這些資料包括價格、日期、名稱、地址、相關備註、帳號和其他業務資料。組織透過自動執行手動資料輸入流程，可以大幅加快業務運作速度，同時減少錯誤。

文件理解的運作方式

文件理解軟體和雲端服務使用進階機器學習和 AI 從各種文件類型 (例如發票和收據) 中擷取資料，並將資料提供給為業務流程提供資訊的應用程式和工作流程。此自動化功能可為文件分類和資料輸入等任務帶來新的效率和準確性。

文件理解流程可以識別和擷取不同格式文件 (包括 PDF、掃描檔和 JPEG) 中的文字、表格和簽名。接著所擷取的資料會以結構化格式 (例如 JSON 有效負載) 傳回，其中包含欄位類型和值，讓您輕鬆整合至應用程式和工作流程中。文件理解在生成式 AI 服務和 AI 代理領域變得很重要，因為這項功能可將文件轉換成這些 AI 系統可用於輸出的機器可讀取和可編輯文字。

AI 代理程式是可被指派任務、檢查其所處環境、依角色規定採取行動，並根據經驗進行調整的軟體實體。這些任務可能很複雜，包含多個步驟，且通常需要具有文字資料的存取權。例如，供應鏈管理代理可以透過分析各種來源和多種格式 (包括書面表單掃描檔) 的採購單，來協助打造最佳化物流。

文件理解服務也可以為資料標籤工具饋送資訊，讓使用者直接在文件樣本上以視覺方式強調並標示特定欄位；這是建立訓練資料集的重要步驟，可用來微調自訂大型語言模型 (LLM)。這是一個正向循環，可改善模型未來從類似文件理解和擷取資訊的能力。

文件理解通常可透過 ERP、供應鏈、CRM 和其他業務應用程式 (尤其是 SaaS 系統) 存取，是提高使用者效率的重要方式。應用程式建置人員可以透過 API (例如文字擷取 API、表格識別 API 和文件分類 API) 存取文件理解雲端服務，以便在自己建置的應用程式內自動執行文件處理工作。

文件理解流程包含三個關鍵步驟：擷取、理解及使用。

文件理解為企業帶來的好處

企業導入文件理解後，可充分降低成本及人為錯誤帶來的風險，同時加快處理速度。以下是享有這些優勢的方法。

流程自動化培訓：透過適當的策略和工具 (包括文件理解)，讓團隊有能力建置、部署和管理自動化工作流程。擁有輕鬆存取資料的能力，這是建立環境以在整個企業推行自動化的關鍵。
提高效率並減少手動工作：讓企業自動從各種文件 (例如發票、合約和表單) 擷取和分類資料，以減少手動輸入資料的需求，並讓員工專注於更具策略性的任務。
增強資料準確性和可靠性：文件理解可自動化執行繁瑣且容易出錯的資料擷取和分類流程，有助於加快作業速度，並可產生更一致且可靠的資料。只要自動化文件理解系統經實證能以高精準度處理文字，就更適合由企業領導者用來做決策。
更快的處理時間：自動化文件系統的其中一項主要優點，是處理文件的速度比人力更快，有助於加速許多業務流程，例如發票輸入、費用和索賠處理。
自動化所節省的成本：自動化所節省的成本主要來自於效率，但減少錯誤也有助於節省成本。自動化文件處理可讓員工避免手動輸入和處理資料，進而降低人工成本。自動化有助於更順暢、更快、更有效率且更準確地處理作業，進而提高獲利能力。
改善合規性和風險管理：文件理解可以提高所分析文件的準確性，將潛在的法律和財務風險降到最低，並降低違反監管要求的風險。
系統整合：文件理解最常用於業務應用程式中，以增強文件工作流程。文件理解解決方案藉由與 ERP 系統、CRM 平台及其他業務工具整合，可協助讓各種系統運用同一組準確的最新資料來運作。開發人員可透過 API 將此應用程式整合到現有雲端服務，協助確保能立即在企業現有基礎架構內取得所擷取和處理的資訊。
靈活部署：可在雲端、內部部署或混合設定中導入文件理解，以滿足不同的業務需求。雲端部署提供可擴展性和廣泛的存取權，內部部署設定則為需遵守嚴格資料隱私權法規的產業提供更大控制權和更少安全疑慮。混合模式可讓企業運用雲端的擴展性，同時保有對機密資料的控制。
即時處理：企業可將文件理解設為即時流程的一部分，以立即存取所擷取的資訊並採取行動，協助減少延遲情形並提升回應速度。在分秒必爭的環境中 (例如物流、製造和財務)，這項好處非常寶貴。

涉及的主要技術

生成式 AI 透過補充傳統方法的不足之處 (例如光學字元辨識 (OCR) 和規則型系統)，大幅提升文件理解能力。但這並不是這個領域唯一掀起波瀾的新技術。

生成式 AI：生成式 AI 協助強化文件理解，不只從欄位擷取文字，還能饋送資訊給資料庫。這項技術允許根據所擷取的資料建立新的情境相關內容，並可產生摘要、報表，甚至全新的文件。這種能夠自動建立衍生內容的擴充能力，正在許多領域發揮用途。此外，檢索增強生成還提供根據查詢從文件集擷取相關資訊的方式，而不是從特定欄位提取資訊並外掛到既定流程。檢索增強生成讓大型語言模型不只會進行簡單的關鍵字擷取，而能針對單一文件或文件集中的文字，提供更豐富的情境及語意理解。
用於文字分析的自然語言處理：自然語言處理可讓系統以模擬人類理解的方式，來理解和解讀文件內容。自然語言處理技術可以識別關鍵資訊；擷取數字、日期和名稱等資料，甚至瞭解文字的內容和情感。如此可協助系統將文件分類以供儲存與檢索、擷取相關資料，以及彙總內容。
用於資料擷取的機器學習：機器學習可讓系統隨著時間學習並改善。您可以訓練機器學習演算法來辨識模式，並以高準確度從文件中擷取特定類型的資訊，即使格式和內容差異極大也能順利處理。這項不可思議的資料擷取功能是文件理解的核心能力，長期以往可降低手動介入的需求以加快處理速度，同時呈現可靠且一致的擷取資料。
用於文字轉換的光學字元辨識：光學字元辨識是文件理解的另一項基礎技術，一向用於將掃描文字檔轉換成可機讀文字。例如，這項技術可將數位化實體文件中的文字轉換為可搜尋且可編輯。光學字元辨識讓許多企業能夠轉換為數位工作流程，並將擷取的文字整合至各種其他自動化流程。AI 讓光學字元辨識有了更多進展，包括更佳的手寫辨識、更快的處理速度和多語言支援。

文件理解的主要用途

由於生成式 AI 和自然語言處理使文件理解系統更有能力支援文件內的圖片、瞭解複雜的配置、以良好的準確性擷取資訊 (即使是非結構化資料)，因此這種更類似人類的理解方式正在大幅擴展使用案例範圍。以下列出我們所知能更深入運用文件理解系統的一些領域。

文件分類：將文件分類為預先定義的種類或類別，有助於有效管理大量文件。組織可藉由自動識別及排序文件的功能，快速將文件交給適當的人員、部門或業務流程，節省手動排序及改善整體工作流程的時間與人力。
資訊擷取：意思是指文件理解流程從文件識別並擷取特定資料點，也就是提取重要資訊，例如名稱、日期、地址、價格及其他相關詳細資料，並將其外掛到適當的業務流程中。如此有助於降低產生錯誤的風險、加速資料處理，以及傳遞準確可靠的資訊。
語意分析：這是更複雜的文件理解應用。這項功能涉及解譯文件中的文字意義與情境，並包含額外的步驟 (例如檢索增強生成)，同時不只會進行簡單的關鍵字辨識，還能使用更複雜的大型語言模型來瞭解內容的細微差異與影響。例如，當組織想要判斷文件的情緒語氣，或識別複雜的關係和模式，以便更精確地解譯文件的內容時，此功能就很有用。

文件理解的一般使用案例和應用

無論是哪個產業，只要公司可以準確處理和理解文件內容，就能透過更明智的決策、高效的工作流程、增強的客戶服務來改善業務功能，以及梳理出隱藏在文字資料中的寶貴洞察。有效的文件理解最終能節省時間和成本、減少錯誤，並打造更加資料導向、更有競爭力的組織。

為金融業自動化執行發票處理作業和財務報告
文件理解可用於自動從對帳單、發票和其他財務文件中擷取和驗證資料，以減少因手動資料輸入而產生的作業時間和錯誤。如此可加快核准和付款流程，並協助確保財務報表維持準確和最新狀態。文件理解能與現有的財務系統整合，以增強法規遵循，並提供財務績效的即時洞察力。
為醫療照護業簡化病例與帳單流程
自動化的文件理解流程可協助醫院和診所管理和處理病例、醫療表單和帳單文件。這種方式透過擷取和整理病患資料，讓病患的供應商團隊能夠準確記錄並輕鬆存取病患資料，以提高醫療照護的效率和效果。
為法律業管理合約與管制文件
文件理解流程可協助律師事務所與法務部門分析、分類及擷取文件中的關鍵資訊，例如合約、協議及管制申報。法律團隊透過自動化執行這些流程，可以降低產生錯誤的風險、改善文件管理，並讓法律從業人員有更多時間與客戶來往和進行策略思考。
為零售業提供最佳化的庫存與供應鏈文件
物流和零售組織使用文件理解來處理和分析庫存清單、採購單和供應鏈文件。這讓零售商能夠自動追蹤庫存量、監控供應鏈活動，並協助確保快速準確地處理訂單，以提高客戶滿意度和營運效率。

運用 Oracle 的進階解決方案提高文件處理效率

如果要將文件理解導入您的應用程式中，Oracle Cloud Infrastructure (OCI) 文件理解可為您提供強大且符合成本效益的解決方案。您的應用程式可以運用簡單的 API 和指令行介面工具，透過預先建置的 AI 模型從多語言文件中擷取文字、表格和其他關鍵資料，我們也提供更多可自訂的文件擷取工具來滿足您的需求。

示範：藉助新的 OCI Document Understanding 實現自動化和創新 (46:57)

OCI 文件理解採用 Oracle 電腦視覺和自然語言處理技術，適用於核心企業工作，例如應付帳款處理、費用及內容管理。為了協助您的組織充分利用這項服務，Oracle Cloud 提供直觀的介面，供您上傳和標註資料，以便在最先進的 AI 服務中訓練自訂模型。文件理解只是 OCI 所提供整套 AI 服務的其中一項服務，這些服務的價格極具競爭力，因此您所有的應用程式使用者都可以使用。

文件理解是使用機器學習來自動化執行業務流程的早期成功案例。隨著經濟中各個領域的資訊量不斷增加，這項服務將透過有效率地處理資料和採取相應行動來協助企業，並讓員工做更有價值的工作。此外，這項功能也將繼續發揮關鍵作用，讓生成式 AI 在訓練過程和改善輸出時更加實用，特別是在 AI 代理要執行更多任務時。

文件理解是協助 AI 更順利存取更多資料、改善結果並簡化使用流程的關鍵。這只是 2025 年雲端使用量增加的其中一個驅動因素。

獲取電子書

文件理解常見問題

文件理解與傳統光學字元辨識有何不同？

光學字元辨識是推動文件理解流程的核心功能，能將圖片或 PDF 中的文字轉換為可編輯文字。接著，文件理解處理就能為業務應用程式提供這些文字。

使用文件理解可以處理哪些類型的文件？

文件理解流程會掃描 PDF 或圖片檔 (例如 .jpg 或 .png 檔案) 等文件，並將找到的文字轉換為可編輯的形式。這道流程會掃描文件中的收據、發票或貸款申請等欄位，以及辨識名稱、金額、日期和其他重要詳細資料，並將這些資訊提供給業務應用程式。

透過文件理解解決方案處理的資料是否安全？

文件理解流程中的資料安全性，有賴流程中所採取的架構和資料安全性措施。資料在靜態中和傳輸時是否經過加密？資料是否經過備份？是否採取了足夠的存取控制措施？這些做法都能讓任何資料流程更加安全。