配置

OPL 数据空间同时支持本地、浏览器内和远程 Speech-to-Text。

alt text

云端 / 远程 STT Provider

当前支持：

服务	是否需要 API Key	指南
Local Whisper（默认）	❌	内建，见环境变量
OpenAI（Whisper API）	✅	OpenAI STT 指南
Mistral（Voxtral）	✅	Mistral Voxtral 指南
Deepgram	✅	—
Azure	✅	—

此外，Web API 模式可直接使用浏览器内置的语音识别，不需要 API Key，由用户级设置控制。

配置 STT Provider

要配置 STT：

进入管理设置
选择 Audio
填写 API Key，并在下拉中选择模型

alt text

用户级设置

除了管理员层面的实例配置之外，用户还有额外设置：

STT 设置：语音转文字相关设置
Speech-to-Text Engine：选择 Default 或 Web API

alt text

使用 STT

点击麦克风图标即可开始用语音输入提示词：

alt text

开始录音后，界面会显示动态音频波形：

alt text

录音过程中的操作

录音开始后：

点击勾号保存录音
若启用了自动发送，则会直接发送
若想取消录音并重来，可点击 x

alt text

故障排查

`int8 compute type not supported`

如果看到类似：

Requested int8 compute type, but the target device or backend do not support efficient int8 computation

通常说明当前 GPU 不支持所需的 int8 计算方式。

解决方法：

升级到较新的 OPL 数据空间版本
改用标准 Docker 镜像，而不是 :cuda
通过 WHISPER_COMPUTE_TYPE 指定：

environment:
  - WHISPER_COMPUTE_TYPE=float16

提示

对 Whisper 这种相对小模型来说，CPU 模式在很多场景下已经够用，而 :cuda 镜像对 STT 性能提升未必明显。

麦克风不能用

检查浏览器权限
确保使用 HTTPS
尝试换浏览器

识别准确率不佳

明确设置 WHISPER_LANGUAGE
若需要多语言，开启 WHISPER_MULTILINGUAL=true
改用更大的 Whisper 模型

更多细节见音频排障指南。

云端 / 远程 STT Provider​

配置 STT Provider​

用户级设置​

使用 STT​

录音过程中的操作​

故障排查​

int8 compute type not supported​

麦克风不能用​

识别准确率不佳​

云端 / 远程 STT Provider

配置 STT Provider

用户级设置

使用 STT

录音过程中的操作

故障排查

`int8 compute type not supported`

麦克风不能用

识别准确率不佳