在 OPL 数据空间中使用 Mistral Voxtral 做语音转文字

本指南介绍如何把 Mistral 的 Voxtral 模型用于 OPL 数据空间的 Speech-to-Text。

需要 TTS？

对应的语音合成说明见 Using Mistral for Text-to-Speech。

前提

一个可用的 Mistral API Key
正在运行的 OPL 数据空间

快速配置（UI）

点击左下角头像
进入 管理员面板
打开 设置 → 语音
设置：

设置项	值
Speech-to-Text Engine	`MistralAI`
API Key	你的 Mistral API Key
STT Model	`voxtral-mini-latest`，也可留空使用默认值

点击 Save

可用模型

模型	说明
`voxtral-mini-latest`	推荐的默认转写模型

环境变量配置

services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    environment:
      - AUDIO_STT_ENGINE=mistral
      - AUDIO_STT_MISTRAL_API_KEY=your-mistral-api-key
      - AUDIO_STT_MODEL=voxtral-mini-latest

常用变量

变量	说明	默认值
`AUDIO_STT_ENGINE`	设为 `mistral`	空
`AUDIO_STT_MISTRAL_API_KEY`	Mistral API Key	空
`AUDIO_STT_MISTRAL_API_BASE_URL`	Mistral API 地址	`https://api.mistral.ai/v1`
`AUDIO_STT_MISTRAL_USE_CHAT_COMPLETIONS`	是否走 chat completions	`false`
`AUDIO_STT_MODEL`	STT 模型	`voxtral-mini-latest`

转写方式

Mistral 支持两种方式：

标准转写（默认）

使用专门的 transcription endpoint，通常是推荐方式。

Chat Completions 方式

如果设置 AUDIO_STT_MISTRAL_USE_CHAT_COMPLETIONS=true，就会通过 chat completions 做转写：

要求音频为 mp3 或 wav（系统会尝试自动转换）
输出结果可能与标准接口略有不同

使用方式

点击聊天输入框旁的麦克风图标
说话
再次点击麦克风，或等待静音检测
转写结果会填入输入框

支持的音频格式

默认接受 audio/* 和 video/webm。如果走 chat completions 方式，系统会自动尝试转成 mp3。

故障排查

API Key 错误

如果看到 “Mistral API key is required”：

检查 API Key 是否填对
检查 Key 是否已过期
确认账号具备 API 访问权限

转写无结果

查看容器日志：docker logs open-webui -f
确认 STT 引擎确实设置为 MistralAI
优先尝试标准转写方式

音频格式问题

如果 chat completions 方式下转换失败：

确认容器内有 FFmpeg
尝试录制成 wav 或 mp3
或切回标准转写方式

更多问题见音频排障指南。

前提​

快速配置（UI）​

可用模型​

环境变量配置​

常用变量​

转写方式​

标准转写（默认）​

Chat Completions 方式​

使用方式​

支持的音频格式​

故障排查​

API Key 错误​

转写无结果​

音频格式问题​

前提