跳到主要内容

文档抽取

OPL 数据空间中的文档抽取

OPL 数据空间提供了强大的文档抽取能力，方便你在 RAG（Retrieval Augmented Generation）流程中处理和分析各种类型的文档。文档抽取的目标，是把非结构化文档转换为语言模型更容易使用的结构化内容。

什么是文档抽取？

文档抽取是指从多种文件格式中自动识别并提取文本与数据的过程，包括：

PDF（文本型或扫描型）
含文字的图片
手写文档
以及更多类型

借助合适的文档抽取能力， OPL 数据空间可以帮助你：

将图像型文档转换为可搜索文本
尽量保留文档结构与版面信息
以结构化形式提取数据，便于进一步处理
支持多语言内容识别

临时聊天中的隐私

在 Temporary Chat 模式下，文档抽取会仅在浏览器中执行，以避免数据被保存到后端或在后端处理。出于这种严格的隐私约束，某些依赖后端解析器的复杂格式（例如部分 DOCX）可能无法被正确处理。

可用抽取方法

OPL 数据空间支持多种文档抽取引擎，以适配不同需求和文档类型。每种抽取方式都有自己的优势，适用于不同场景。

请继续查阅各个抽取引擎的专页，了解如何为你的 OPL 数据空间实例配置并使用它们。

OPL 数据空间中的文档抽取
什么是文档抽取？
可用抽取方法