配置
OPL 数据空间 同时支持本地、浏览器内和远程 Speech-to-Text。

云端 / 远程 STT Provider
当前支持:
| 服务 | 是否需要 API Key | 指南 |
|---|---|---|
| Local Whisper(默认) | ❌ | 内建,见 环境变量 |
| OpenAI(Whisper API) | ✅ | OpenAI STT 指南 |
| Mistral(Voxtral) | ✅ | Mistral Voxtral 指南 |
| Deepgram | ✅ | — |
| Azure | ✅ | — |
此外,Web API 模式可直接使用浏览器内置的语音识别,不需要 API Key,由用户级设置控制。
配置 STT Provider
要配置 STT:
- 进入管理设置
- 选择 Audio
- 填写 API Key,并在下拉中选择模型

用户级设置
除了管理员层面的实例配置之外,用户还有额外设置:
- STT 设置:语音转文字相关设置
- Speech-to-Text Engine:选择 Default 或 Web API

使用 STT
点击麦克风图标即可开始用语音输入提示词:

开始录音后,界面会显示动态音频波形:

录音过程中的操作
录音开始后:
- 点击勾号保存录音
- 若启用了自动发送,则会直接发送
- 若想取消录音并重来,可点击
x

故障排查
int8 compute type not supported
如果看到类似:
Requested int8 compute type, but the target device or backend do not support efficient int8 computation通常说明当前 GPU 不支持所需的 int8 计算方式。
解决方法:
- 升级到较新的 OPL 数据空间版本
- 改用标准 Docker 镜像,而不是
:cuda - 通过
WHISPER_COMPUTE_TYPE指定:
environment:
- WHISPER_COMPUTE_TYPE=float16提示
对 Whisper 这种相对小模型来说,CPU 模式在很多场景下已经够用,而 :cuda 镜像对 STT 性能提升未必明显。
麦克风不能用
- 检查浏览器权限
- 确保使用 HTTPS
- 尝试换浏览器
识别准确率不佳
- 明确设置
WHISPER_LANGUAGE - 若需要多语言,开启
WHISPER_MULTILINGUAL=true - 改用更大的 Whisper 模型
更多细节见 音频排障指南。