Jeffrey Erickson | 高级撰稿人 | 2025 年 7 月 31 日
如今,不再有人说“我要看纸质文档和 PDF 文件,再手动把信息录入会计应用。”这就是 AI 文档理解的意义和价值:处理会消耗大量时间的、人们避之不及的繁琐工作。它能够帮助企业加快文档处理速度,在提高准确性的同时降低成本。未来,您会经常在 SaaS 应用工作流中看到文档理解技术的身影。近期,文档理解技术已被用于为 AI 训练数据标注文本,为 AI agent 提供可赖以执行多步骤工作的信息。由此,人们可以回归到思考、构建、沟通这类更有吸引力的工作上。
文档理解是一种可从文本文件(例如 PDF 文件或纸质文档扫描件)中提取信息,然后将信息传送到业务应用的自动化过程。它有助于在提高准确性的同时尽可能减少(甚至完全消除)手动数据录入工作。文档理解之所以能走进现实,要归功于高级机器学习 (ML) 算法。机器学习在文档理解的多个步骤中都发挥着关键作用,其中排在首位的是图像处理,即发现、提取,以及将价格、名称、发票、采购订单 (PO) 编号等高度相关信息存储到数据库,以供将信息集成到相关业务系统。
例如,制造商可以使用文档理解技术来从采购订单中提取所需信息,然后自动化将信息录入会计分类账和库存控制系统,由此显著提高销售流程的速度和准确性。在费用报销系统上,企业可以利用文档理解技术来从收据图像中提取高度相关信息,然后自动化为相关员工构建费用报告。
文档理解也是 AI 和机器学习在早期阶段大获成功的应用场景之一。您会发现很多业务应用都集成了文档理解技术,通过它来自动化运行工作流,将专业人员从手动数据录入和文档处理工作中解放出来。而在与自然语言处理 (NLP) 和检索增强生成 (RAG) 技术结合后,文档理解更是能提供强大的文档分类和信息发现支持,在为帮助用户理解文档语义的系统中发挥不可或缺的重要作用。
关键要点
文档处理是文档理解过程中的一个核心要素,它意味着从各类文档中提取数据,以结构化格式组织数据,然后在数据库中对数据分类,以便可用以填充在线表单字段或满足业务职能(例如发票处理、薪资、销售和费用会计)需求。
具体而言,文档处理系统首先运行预定义规则。随后,机器学习算法识别并从文本区域、表格和字段中提取价格、日期、名称、地址、备注、帐户以及其他数据。通过使用文档处理技术来自动化运行以往的手动数据录入流程,企业可以在减少错误的同时,显著提高业务职能的运转速度。
文档理解软件和云技术服务使用高级机器学习和 AI 来从各类文档(例如发票和收据)中提取数据,然后向业务流程中的应用和工作流提供数据。这种自动化方法可以提高文档分类和数据录入等工作的效率和准确性。
具体而言,文档理解过程可以从不同格式的文档(包括 PDF 文件、扫描件、JPEG 图像)中识别和提取文本、表格、签名。随后,所提取的数据将被重新组织为包含字段类型和字段值的结构化格式,例如 JSON Payload,以便轻松集成到应用和工作流。如今,文档理解正日益成为生成式 AI 服务和 AI agent 不可或缺的一部分,它能够将文档转换为机器可读和可编辑的文本,供 AI 系统使用和输出结果。
其中,AI agent 是一种可接受工作任务、观测环境、按照自身角色采取行动,以及基于自身经历进行相应调整的软件程序。它们可以处理多步骤的复杂工作,一般需要访问文本型数据。例如,供应链管理 AI agent 可以分析多种来源、多种格式(包括纸质文档扫描件)的采购订单信息,帮助企业优化物流工作。
文档理解服务还可以为数据标注工具输送数据,由此用户能够直接在文档样本上,可视化地突出展示和标记特定字段 — 这是创建训练数据集,调优自定义大语言模型 (LLM) 的重要一步。这是一种良性循环:文档理解依赖 AI 技术,反过来又能增强 LLM 模型,使之更好地理解和提取类似文档的信息。
如今,普通用户一般可在 ERP、供应链管理、CRM 以及其他业务应用,尤其是 SaaS 系统中使用文档理解服务,发挥其重要价值来提高效率。应用开发人员可通过 API(例如文本提取 API、表格识别 API、文档分类 API)来使用文档理解服务,进而在所构建应用中实现自动化文档处理。
企业可通过实施文档理解技术,在加快处理速度的同时降低成本,尽可能消除人为错误风险。文档理解技术通过以下方式为企业赋能。
生成式 AI 消除了光学字符识别 (OCR) 和基于规则型系统等传统方法的不足和局限性,有力促进了文档理解技术的发展。其实,生成式 AI 只是推动文档理解技术发展的关键技术之一。
随着 GenAI 和 NLP 增强文档理解系统,例如处理文档中图像、理解复杂布局、准确提取(甚至是非结构化数据的)信息,文档理解系统具有了更接近人的理解能力,其应用范围也得到了显著扩展。文档理解系统主要应用于以下工作。
无论在哪个行业中,当能够准确处理和理解文档内容时,企业可以制定更明智的决策、提高工作流效率、改善客户服务、从文本数据中挖掘宝贵洞察,进而优化业务职能。凭借切实有效的文档理解系统,企业最终可以节约时间和成本,减少错误,进一步发挥数据价值,成为一个更富竞争力的强大组织。
想要将文档理解技术融入您的应用?Oracle Cloud Infrastructure (OCI) Document Understanding 可为您提供一个强大且成本高效的文档理解解决方案。您可以使用简单易用的 API 和命令行工具为您的应用赋予文档理解能力,助其利用预构建 AI 模型从多种语言的文档中提取文本、表格以及其他关键数据,还可以使用丰富的定制化文本提取工具来满足您的特殊需求。
OCI Document Understanding 运用 Oracle 计算机视觉和自然语言处理技术执行核心企业任务,例如应付账款处理、费用处理和内容管理。为帮助您充分释放其潜力,Oracle Cloud 还提供直观的界面来帮助您轻松上传和标注数据,进而使用前沿的 AI 服务来训练您的自定义模型。此外,OCI Document Understanding 还是 OCI AI 服务套件的一部分。OCI AI 服务套件的定价极富竞争力,您的所有应用用户都可以使用。
总而言之,文档理解是机器学习技术在早期阶段驱动业务流程自动化的成功案例之一。随着各个领域中的数据规模持续增长,它能够帮助企业高效处理并基于数据采取行动,赋能员工将时间投入到更有价值的工作上,以此为企业强势赋能。未来,尤其是在 AI agent 将承担更多职责的背景下,文档理解不仅能优化 GenAI 训练方案,还能优化 GenAI 输出,将持续在释放 GenAI 价值方面发挥重要作用。
文档理解技术在驱动 AI 更好地访问更多数据、优化 AI 结果以及简化 AI 使用方面具有重要价值。它也是 2025 年云技术使用增长的一大重要推手。
文档理解与传统的 OCR 有何不同?
OCR 是文档理解流程中的一个核心要素,它能够将图像或 PDF 文件中的文本转换为可编辑格式。随后,文档理解过程可使可编辑格式的文本对业务应用可用。
文档理解流程适用于处理哪些类型的文档?
文档理解流程可以扫描 PDF 文档以及 .jpg 和 .png 等格式的图像文件,将其中文本转换为可编辑格式。它能够扫描文档(例如收据、发票和贷款申请书)中的字段,识别名称、账户、日期以及其他重要信息,然后使所识别的信息对业务应用可用。
使用文档理解解决方案处理的数据在安全性上表现如何?
在文档理解流程中,数据的安全性取决于架构设计和所采取的数据安全性措施。静态数据和传输中数据是否经过加密?是否已备份?是否有适当的访问控制?所有这些措施都有助于提高数据流程的安全性。
注:为免疑义,本网页所用以下术语专指以下含义: