什么是文档理解?AI 文档处理详解

Jeffrey Erickson | 高级撰稿人 | 2025 年 7 月 31 日

如今,不再有人说“我要看纸质文档和 PDF 文件,再手动把信息录入会计应用。”这就是 AI 文档理解的意义和价值:处理会消耗大量时间的、人们避之不及的繁琐工作。它能够帮助企业加快文档处理速度,在提高准确性的同时降低成本。未来,您会经常在 SaaS 应用工作流中看到文档理解技术的身影。近期,文档理解技术已被用于为 AI 训练数据标注文本,为 AI agent 提供可赖以执行多步骤工作的信息。由此,人们可以回归到思考、构建、沟通这类更有吸引力的工作上。

什么是文档理解?

文档理解是一种可从文本文件(例如 PDF 文件或纸质文档扫描件)中提取信息,然后将信息传送到业务应用的自动化过程。它有助于在提高准确性的同时尽可能减少(甚至完全消除)手动数据录入工作。文档理解之所以能走进现实,要归功于高级机器学习 (ML) 算法。机器学习在文档理解的多个步骤中都发挥着关键作用,其中排在首位的是图像处理,即发现、提取,以及将价格、名称、发票、采购订单 (PO) 编号等高度相关信息存储到数据库,以供将信息集成到相关业务系统。

例如,制造商可以使用文档理解技术来从采购订单中提取所需信息,然后自动化将信息录入会计分类账和库存控制系统,由此显著提高销售流程的速度和准确性。在费用报销系统上,企业可以利用文档理解技术来从收据图像中提取高度相关信息,然后自动化为相关员工构建费用报告。

文档理解也是 AI 和机器学习在早期阶段大获成功的应用场景之一。您会发现很多业务应用都集成了文档理解技术,通过它来自动化运行工作流,将专业人员从手动数据录入和文档处理工作中解放出来。而在与自然语言处理 (NLP)检索增强生成 (RAG) 技术结合后,文档理解更是能提供强大的文档分类和信息发现支持,在为帮助用户理解文档语义的系统中发挥不可或缺的重要作用。

关键要点

  • 文档理解是一种可从各类文本文件中提取数据,进而驱动自动化数据录入和文档处理的 AI 驱动的过程。
  • 文档理解技术可准确提取结构化字段中的信息,例如价格、日期、名称、签名和订单编号,使其可集成到业务工作流。
  • 如今常见业务应用(例如 ERP、CRM 和行业特定系统)一般都集成了文档识别功能。
  • 文档理解技术使用 AI 来执行许多工作,包括自动化采集数据,标注训练数据集,为 AI agent 提供可赖以执行复杂工作的信息等。

文档处理详解

文档处理是文档理解过程中的一个核心要素,它意味着从各类文档中提取数据,以结构化格式组织数据,然后在数据库中对数据分类,以便可用以填充在线表单字段或满足业务职能(例如发票处理、薪资、销售和费用会计)需求。

具体而言,文档处理系统首先运行预定义规则。随后,机器学习算法识别并从文本区域、表格和字段中提取价格、日期、名称、地址、备注、帐户以及其他数据。通过使用文档处理技术来自动化运行以往的手动数据录入流程,企业可以在减少错误的同时,显著提高业务职能的运转速度。

文档理解的工作原理

文档理解软件和云技术服务使用高级机器学习和 AI 来从各类文档(例如发票和收据)中提取数据,然后向业务流程中的应用和工作流提供数据。这种自动化方法可以提高文档分类和数据录入等工作的效率和准确性。

具体而言,文档理解过程可以从不同格式的文档(包括 PDF 文件、扫描件、JPEG 图像)中识别和提取文本、表格、签名。随后,所提取的数据将被重新组织为包含字段类型和字段值的结构化格式,例如 JSON Payload,以便轻松集成到应用和工作流。如今,文档理解正日益成为生成式 AI 服务和 AI agent 不可或缺的一部分,它能够将文档转换为机器可读和可编辑的文本,供 AI 系统使用和输出结果。

其中,AI agent 是一种可接受工作任务、观测环境、按照自身角色采取行动,以及基于自身经历进行相应调整的软件程序。它们可以处理多步骤的复杂工作,一般需要访问文本型数据。例如,供应链管理 AI agent 可以分析多种来源、多种格式(包括纸质文档扫描件)的采购订单信息,帮助企业优化物流工作。

文档理解服务还可以为数据标注工具输送数据,由此用户能够直接在文档样本上,可视化地突出展示和标记特定字段 — 这是创建训练数据集,调优自定义大语言模型 (LLM) 的重要一步。这是一种良性循环:文档理解依赖 AI 技术,反过来又能增强 LLM 模型,使之更好地理解和提取类似文档的信息。

如今,普通用户一般可在 ERP、供应链管理、CRM 以及其他业务应用,尤其是 SaaS 系统中使用文档理解服务,发挥其重要价值来提高效率。应用开发人员可通过 API(例如文本提取 API、表格识别 API、文档分类 API)来使用文档理解服务,进而在所构建应用中实现自动化文档处理。

文档理解过程分为三个重要步骤:摄取数据、理解数据和使用数据。

企业场景下文档理解的优势

企业可通过实施文档理解技术,在加快处理速度的同时降低成本,尽可能消除人为错误风险。文档理解技术通过以下方式为企业赋能。

  • 驱动流程自动化:各团队可以采用适当的策略和工具来更好地构建、部署、管理自动化工作流,而文档理解就是其中之一。归根到底,要想将自动化力量注入整个企业,轻松访问数据是不可或缺的重要一环。
  • 提高效率和减少手动工作:文档理解技术支持企业自动从各类文档(例如发票、合同、表单)中提取数据并进行数据分类。这能够减少手动数据录入需求,解放员工时间,使员工专注于更有战略价值的工作。
  • 提高准确性和可靠性:文档理解技术可自动化运行繁琐、易于出错的数据提取和数据分类流程,加快处理速度并提高数据的一致性和可靠性。在确认自动化文档理解系统能够高精度地处理文本后,企业管理层将更乐于在其帮助下制定决策。
  • 加快处理速度:自动化文档系统的一大主要优势是能够以远胜于人的速度处理文档,这有助于为很多业务流程提速增效,例如发票录入、费用管理和索赔处理。
  • 通过自动化驱动成本节约:在节约成本上,自动化除了减少错误外,另一个重要优势是提高效率。自动化文档处理可避免手动数据录入和数据处理工作消耗员工的宝贵时间,由此降低人力成本。另外,自动化还可以驱动更流畅、更快速、更有效、更精确的企业运营,提高企业盈利能力。
  • 提高合规性和改善风险管理:文档理解技术可提高文档准确性,尽可能减少潜在的法律、财务和不合规风险。
  • 系统集成:文档理解技术常被应用于业务应用,增强文档工作流。在与 ERP 系统、CRM 平台以及其他业务工具集成后,文档理解解决方案可确保各种系统基于一致、准确的最新数据运行。这种应用集成(由开发人员使用面向既有云技术服务的 API 完成)还有助于确保所提取和所处理的信息在企业的现有基础设施中即时可用。
  • 灵活部署:企业可按照自身需求,在云端、本地或混合环境下部署文档理解服务。其中,云端部署可提供出色的可扩展性和更广泛的可访问性,本地部署则可提供更出色的控制力和减少安全问题,有助于满足严苛的数据隐私监管要求。混合模式部署支持企业在有效控制敏感数据的同时,充分利用云端部署的可扩展性优势。
  • 实时处理:通过在实时流程中部署文档理解服务,企业可以即时访问所提取的信息,采取行动,由此减少延迟和提高响应能力。在物流、制造和金融这类时间就是金钱的业务环境下,这一点尤为重要。

文档处理中的关键技术

生成式 AI 消除了光学字符识别 (OCR) 和基于规则型系统等传统方法的不足和局限性,有力促进了文档理解技术的发展。其实,生成式 AI 只是推动文档理解技术发展的关键技术之一。

  • 生成式 AI:GenAI 使文档理解不再停留在从字段中提取和向数据库输入文本的阶段。它能够基于所提取的数据来创建新的、情境化的高度相关内容,可以生成摘要和报告,甚至是全新文档。这种衍生内容创建能力可在很多领域为人们提供重要帮助。除此之外,RAG 技术能够基于查询请求,从一个文档集合中检索高度相关信息,而不是简简单单地拉取一个特定字段的数据,将数据填充到特定流程。它使 LLM 不再是简单地提取关键字,而是能提供更丰富的上下文,理解文档或文档集合中文本的语义。
  • 面向文本分析的自然语言处理 (NLP):NLP 技术能够使系统像人一样理解和解读文档内容。它们可以识别关键信息,提取编号、日期和名称等数据,甚至理解文本上下文和情绪。这有助于系统执行文档分类(以便存储和检索)、提取高度相关数据,以及总结文档内容。
  • 面向数据提取的机器学习:机器学习支持系统持续学习和改进。经过适当训练后,机器学习算法可以识别模式,准确地从文档中提取特定类型的信息 — 即使内容和内容格式纷乱复杂。这种不可思议的数据提取能力是文档理解的一大重要元素,可以在提交可靠、一致的数据的同时加快处理速度,逐渐减少人为干预的需要。
  • 面向文本转换的光学字符识别 (OCR):OCR 长期被应用于将文档扫描件转换为机器可读文本,是文档理解的另一重要基石。例如,它可以处理实体文档的数字化副本,使其中文本可搜索和可编辑。至今为止,OCR 已帮助很多企业实现了工作流数字化,将所提取的文本集成到各种自动化流程。如今,在 AI 的加持下,OCR 能够更好地识别手写文本,不仅处理速度更快,还支持多种语言。

文档理解的主要用途

随着 GenAI 和 NLP 增强文档理解系统,例如处理文档中图像、理解复杂布局、准确提取(甚至是非结构化数据的)信息,文档理解系统具有了更接近人的理解能力,其应用范围也得到了显著扩展。文档理解系统主要应用于以下工作。

  • 文档分类:按预定义类别进行文档分类有助于高效处理海量文档。而通过自动化识别文档和进行文档分类,企业可以节约时间和减轻工作负担,改进整体工作流,快速向适当人员、部门和流程提供适当文档。
  • 信息提取:文档理解系统可以识别和提取文档中的特定数据点,例如名称、日期、地址、价格和其他高度相关的详细信息,然后将信息输送到适当的业务流程。这有助于降低出错风险,加快数据处理速度,传递准确、高度相关的信息。
  • 语义分析:这是文档理解的一项高级应用。它涉及解读文档中文本的意义和上下文,要求企业执行 RAG 等额外工作以及使用高级 LLM 来理解文档内容的细微意义和含义 — 而不仅仅是简单地识别关键字。例如,企业可通过语义分析来判断一个文档的情绪基调或识别复杂关系和模式,由此准确解读文档内容。

文档理解的常见使用场景和应用

无论在哪个行业中,当能够准确处理和理解文档内容时,企业可以制定更明智的决策、提高工作流效率、改善客户服务、从文本数据中挖掘宝贵洞察,进而优化业务职能。凭借切实有效的文档理解系统,企业最终可以节约时间和成本,减少错误,进一步发挥数据价值,成为一个更富竞争力的强大组织。

  • 财务领域:自动化执行发票处理和财务报告工作
    文档理解技术可以自动化地从报表、发票以及其他财务文档中提取数据并加以验证,相比手动数据录入能够节约时间和减轻工作负担。这可以加快审批和付款流程速度,确保财务报告始终处于最新状态。此外,在与现有财务系统集成后,文档理解技术还有助于增强合规性,提供实时财务绩效洞察。
  • 医疗卫生:简化患者记录和计费工作
    自动化的文档理解流程可帮助医院和诊所高效管理和处理患者记录、医疗表单、计费文档。它能够提取并组织患者数据,确保患者数据准确无误且医疗服务团队能够轻松访问,最终推动医疗卫生行业更高效、更有效地为患者服务。
  • 法律工作:管理合同和监管文档
    文档理解流程可帮助律师事务所和法务部门更好地分析、分类和提取合同、协议、监管文件等文档中的关键信息。通过自动化处理上述工作,法务团队可以降低出错风险,优化文档管理,使从业者投入更多时间来与客户会面以及进行战略性思考。
  • 零售业:优化库存和供应链文档
    物流和零售业组织可以使用文档理解技术来处理和分析库存清单、采购订单以及供应链文档。由此,零售商能够自动化跟踪库存水平,监视供应链活动,快速、准确地处理订单,最终提高客户满意度和运营效率。

利用 Oracle 的高级解决方案提高文档处理效率

想要将文档理解技术融入您的应用?Oracle Cloud Infrastructure (OCI) Document Understanding 可为您提供一个强大且成本高效的文档理解解决方案。您可以使用简单易用的 API 和命令行工具为您的应用赋予文档理解能力,助其利用预构建 AI 模型从多种语言的文档中提取文本、表格以及其他关键数据,还可以使用丰富的定制化文本提取工具来满足您的特殊需求。

演示:使用 OCI Document Understanding 实现自动化并快速创新 (46:57)

OCI Document Understanding 运用 Oracle 计算机视觉和自然语言处理技术执行核心企业任务,例如应付账款处理、费用处理和内容管理。为帮助您充分释放其潜力,Oracle Cloud 还提供直观的界面来帮助您轻松上传和标注数据,进而使用前沿的 AI 服务来训练您的自定义模型。此外,OCI Document Understanding 还是 OCI AI 服务套件的一部分。OCI AI 服务套件的定价极富竞争力,您的所有应用用户都可以使用。

总而言之,文档理解是机器学习技术在早期阶段驱动业务流程自动化的成功案例之一。随着各个领域中的数据规模持续增长,它能够帮助企业高效处理并基于数据采取行动,赋能员工将时间投入到更有价值的工作上,以此为企业强势赋能。未来,尤其是在 AI agent 将承担更多职责的背景下,文档理解不仅能优化 GenAI 训练方案,还能优化 GenAI 输出,将持续在释放 GenAI 价值方面发挥重要作用。

文档理解技术在驱动 AI 更好地访问更多数据、优化 AI 结果以及简化 AI 使用方面具有重要价值。它也是 2025 年云技术使用增长的一大重要推手。

文档理解常见问题解答

文档理解与传统的 OCR 有何不同?

OCR 是文档理解流程中的一个核心要素,它能够将图像或 PDF 文件中的文本转换为可编辑格式。随后,文档理解过程可使可编辑格式的文本对业务应用可用。

文档理解流程适用于处理哪些类型的文档?

文档理解流程可以扫描 PDF 文档以及 .jpg 和 .png 等格式的图像文件,将其中文本转换为可编辑格式。它能够扫描文档(例如收据、发票和贷款申请书)中的字段,识别名称、账户、日期以及其他重要信息,然后使所识别的信息对业务应用可用。

使用文档理解解决方案处理的数据在安全性上表现如何?

在文档理解流程中,数据的安全性取决于架构设计和所采取的数据安全性措施。静态数据和传输中数据是否经过加密?是否已备份?是否有适当的访问控制?所有这些措施都有助于提高数据流程的安全性。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。