跳到主要内容

配置

OPL 数据空间同时支持本地、浏览器内和远程 Speech-to-Text。

alt text alt text

云端 / 远程 STT Provider

当前支持:

服务是否需要 API Key指南
Local Whisper(默认)内建,见 环境变量
OpenAI(Whisper API)OpenAI STT 指南
Mistral(Voxtral)Mistral Voxtral 指南
Deepgram
Azure

此外,Web API 模式可直接使用浏览器内置的语音识别,不需要 API Key,由用户级设置控制。

配置 STT Provider

要配置 STT:

  • 进入管理设置
  • 选择 Audio
  • 填写 API Key,并在下拉中选择模型

alt text

用户级设置

除了管理员层面的实例配置之外,用户还有额外设置:

  • STT 设置:语音转文字相关设置
  • Speech-to-Text Engine:选择 Default 或 Web API

alt text

使用 STT

点击麦克风图标即可开始用语音输入提示词:

alt text

开始录音后,界面会显示动态音频波形:

alt text

录音过程中的操作

录音开始后:

  • 点击勾号保存录音
  • 若启用了自动发送,则会直接发送
  • 若想取消录音并重来,可点击 x

alt text

故障排查

int8 compute type not supported

如果看到类似:

Requested int8 compute type, but the target device or backend do not support efficient int8 computation

通常说明当前 GPU 不支持所需的 int8 计算方式。

解决方法:

  • 升级到较新的 OPL 数据空间版本
  • 改用标准 Docker 镜像,而不是 :cuda
  • 通过 WHISPER_COMPUTE_TYPE 指定:
environment:
  - WHISPER_COMPUTE_TYPE=float16
提示

对 Whisper 这种相对小模型来说,CPU 模式在很多场景下已经够用,而 :cuda 镜像对 STT 性能提升未必明显。

麦克风不能用

  1. 检查浏览器权限
  2. 确保使用 HTTPS
  3. 尝试换浏览器

识别准确率不佳

  • 明确设置 WHISPER_LANGUAGE
  • 若需要多语言,开启 WHISPER_MULTILINGUAL=true
  • 改用更大的 Whisper 模型

更多细节见 音频排障指南