在 OPL 数据空间中使用 OpenAI 做语音转文字

本指南介绍如何把 OpenAI 的 Whisper API 用作 OPL 数据空间的 STT。它适合不想依赖本地 GPU 的云端转写场景。

需要 TTS？

前提

一个有 Audio API 权限的 OpenAI API Key
正在运行的 OPL 数据空间

快速配置（UI）

点击左下角头像
进入 管理员面板
打开 设置 → 语音
设置：

设置项	值
Speech-to-Text Engine	`OpenAI`
API Base URL	`https://api.openai.com/v1`
API Key	你的 OpenAI API Key
STT Model	`whisper-1`
Supported Content Types	可留空，或显式填 `audio/wav,audio/mpeg,audio/webm`

点击 Save

可用模型

模型	说明
`whisper-1`	OpenAI 托管的 Whisper large-v2

环境变量配置

services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    environment:
      - AUDIO_STT_ENGINE=openai
      - AUDIO_STT_OPENAI_API_BASE_URL=https://api.openai.com/v1
      - AUDIO_STT_OPENAI_API_KEY=sk-...
      - AUDIO_STT_MODEL=whisper-1

常用变量

变量	说明	默认值
`AUDIO_STT_ENGINE`	设为 `openai`	空
`AUDIO_STT_OPENAI_API_BASE_URL`	OpenAI API 地址	`https://api.openai.com/v1`
`AUDIO_STT_OPENAI_API_KEY`	OpenAI API Key	空
`AUDIO_STT_MODEL`	STT 模型	`whisper-1`
`AUDIO_STT_SUPPORTED_CONTENT_TYPES`	允许的 MIME 类型	`audio/*,video/webm`

支持格式

OpenAI Whisper API 支持：mp3、mp4、mpeg、mpga、m4a、wav、webm。

使用方式

点击输入框的麦克风图标
开始说话
再次点击麦克风，或等待静音检测
转写结果会填入输入框

OpenAI Whisper 与本地 Whisper 对比

特性	OpenAI Whisper API	本地 Whisper
延迟	取决于网络	短音频通常更快
成本	按分钟计费	免费，但消耗本地资源
隐私	音频会发送给 OpenAI	音频留在本地
GPU	不需要	推荐有 GPU
模型选项	仅 `whisper-1`	tiny、base、small、medium、large

适合选 OpenAI 的情况：

没有 GPU
想要稳定一致的性能
隐私不是主要顾虑

适合选本地 Whisper 的情况：

想免费使用
希望音频完全留在本地
已有可用 GPU

故障排查

麦克风不能用

确保当前站点是 HTTPS 或 localhost
检查浏览器麦克风权限
查看 Microphone Access Issues

转写错误

检查 OpenAI API Key 是否有效
确认 API Base URL 正确
查看容器日志

语言问题

OpenAI Whisper 默认自动检测语言。如果你需要强制指定语言，通常应考虑本地 Whisper + WHISPER_LANGUAGE。

更多问题见音频排障指南。

前提​

快速配置（UI）​

可用模型​

环境变量配置​

常用变量​

支持格式​

使用方式​

OpenAI Whisper 与本地 Whisper 对比​

故障排查​

麦克风不能用​

转写错误​

语言问题​

前提