Outside In Clean ContentOutside In Clean Content 解决原始文件处理方面极具挑战性的问题。其特别针对广泛使用的格式(Microsoft Office 和 PDF),其扩展的提取功能可提供原始文件中内嵌的所有文本、属性、隐藏信息和系统数据。其扩展的提取功能包括对格式不正确的文档进行分析和处理的能力,这种能力对于从 PDF 文件中正确提供文本来说非常重要。Clean Content 还可通过编程修改原始文件,提供诸如清除、属性更改和文档组装等功能。Outside In Clean Content 是一个纯 Java 的技术,它提供 Java、C/C++ 和 .NET API。

  • 从 Microsoft Office(Word、Excel 和 PowerPoint,版本 97-2007)和 PDF 文档中提取文本、元数据和隐藏信息
  • 识别、报告、(可选)删除或修改 40 多种元数据和隐藏数据元素
  • 对来自多个 PowerPoint 演示文稿的幻灯片进行分页和重组
  • 提供准确的文本偏移信息,以便自动进行 Adobe Reader 中对 PDF 的原始搜索突出显示。
  • 为大多数性能敏感环境所需的高文档吞吐量而设计
  • 可通过一个 Java API 轻松集成以用于 Java 环境或任何 Java 兼容环境(如 JSP 和 J2EE),或通过一个 C/C++ 或 .NET API 与传统语言集成
  • 任何 Microsoft Office 相关性都不会消除自动化 Office 应用程序以处理大量文件时出现的可靠性、可伸缩性和平台相关性问题
  • 可通过 Java、C/C++、.NET 接口在 Windows 上使用,通过 Java 和 C/C++ 接口在 Linux x86 上使用,还可通过 Java 接口在 Solaris SPARC 上使用。在任何 Java 1.5 或更高版本的兼容 JVM 上均受支持

入门
 入门指南

数据表和白皮书
 元数据和隐藏信息的风险

 

Left Curve
热门下载
Right Curve
Left Curve
更多融合中间件下载
Right Curve