文档抽取
OPL 数据空间中的文档抽取
OPL 数据空间提供了强大的文档抽取能力,方便你在 RAG(Retrieval Augmented Generation)流程中处理和分析各种类型的文档。文档抽取的目标,是把非结构化文档转换为语言模型更容易使用的结构化内容。
什么是文档抽取?
文档抽取是指从多种文件格式中自动识别并提取文本与数据的过程,包括:
- PDF(文本型或扫描型)
- 含文字的图片
- 手写文档
- 以及更多类型
借助合适的文档抽取能力, OPL 数据空间可以帮助你:
- 将图像型文档转换为可搜索文本
- 尽量保留文档结构与版面信息
- 以结构化形式提取数据,便于进一步处理
- 支持多语言内容识别
临时聊天中的隐私
在 Temporary Chat 模式下,文档抽取会仅在浏览器中执行,以避免数据被保存到后端或在后端处理。出于这种严格的隐私约束,某些依赖后端解析器的复杂格式(例如部分 DOCX)可能无法被正确处理。
可用抽取方法
OPL 数据空间支持多种文档抽取引擎,以适配不同需求和文档类型 。每种抽取方式都有自己的优势,适用于不同场景。
请继续查阅各个抽取引擎的专页,了解如何为你的 OPL 数据空间实例配置并使用它们。