跳到主要内容

文档抽取

OPL 数据空间中的文档抽取

OPL 数据空间提供了强大的文档抽取能力,方便你在 RAG(Retrieval Augmented Generation)流程中处理和分析各种类型的文档。文档抽取的目标,是把非结构化文档转换为语言模型更容易使用的结构化内容。

什么是文档抽取?

文档抽取是指从多种文件格式中自动识别并提取文本与数据的过程,包括:

  • PDF(文本型或扫描型)
  • 含文字的图片
  • 手写文档
  • 以及更多类型

借助合适的文档抽取能力, OPL 数据空间可以帮助你:

  • 将图像型文档转换为可搜索文本
  • 尽量保留文档结构与版面信息
  • 以结构化形式提取数据,便于进一步处理
  • 支持多语言内容识别
临时聊天中的隐私

Temporary Chat 模式下,文档抽取会仅在浏览器中执行,以避免数据被保存到后端或在后端处理。出于这种严格的隐私约束,某些依赖后端解析器的复杂格式(例如部分 DOCX)可能无法被正确处理。

可用抽取方法

OPL 数据空间支持多种文档抽取引擎,以适配不同需求和文档类型。每种抽取方式都有自己的优势,适用于不同场景。

请继续查阅各个抽取引擎的专页,了解如何为你的 OPL 数据空间实例配置并使用它们。