在 OPL 数据空间中使用 OpenAI 做语音转文字
本指南介绍如何把 OpenAI 的 Whisper API 用作 OPL 数据空间的 STT。它适合不想依赖本地 GPU 的云端转写场景。
需要 TTS?
前提
- 一个有 Audio API 权限的 OpenAI API Key
- 正在运行的 OPL 数据空间
快速配置(UI)
- 点击左下角头像
- 进入 管理员面板
- 打开 设置 → 语音
- 设置:
| 设置项 | 值 |
|---|---|
| Speech-to-Text Engine | OpenAI |
| API Base URL | https://api.openai.com/v1 |
| API Key | 你的 OpenAI API Key |
| STT Model | whisper-1 |
| Supported Content Types | 可留空,或显式填 audio/wav,audio/mpeg,audio/webm |
- 点击 Save
可用模型
| 模型 | 说明 |
|---|---|
whisper-1 | OpenAI 托管的 Whisper large-v2 |
环境变量配置
services:
open-webui:
image: ghcr.io/open-webui/open-webui:main
environment:
- AUDIO_STT_ENGINE=openai
- AUDIO_STT_OPENAI_API_BASE_URL=https://api.openai.com/v1
- AUDIO_STT_OPENAI_API_KEY=sk-...
- AUDIO_STT_MODEL=whisper-1常用变量
| 变量 | 说明 | 默认值 |
|---|---|---|
AUDIO_STT_ENGINE | 设为 openai | 空 |
AUDIO_STT_OPENAI_API_BASE_URL | OpenAI API 地址 | https://api.openai.com/v1 |
AUDIO_STT_OPENAI_API_KEY | OpenAI API Key | 空 |
AUDIO_STT_MODEL | STT 模型 | whisper-1 |
AUDIO_STT_SUPPORTED_CONTENT_TYPES | 允许的 MIME 类型 | audio/*,video/webm |
支持格式
OpenAI Whisper API 支持:mp3、mp4、mpeg、mpga、m4a、wav、webm。
使用方式
- 点击输入框的麦克风图标
- 开始说话
- 再次点击麦克风,或等待静音检测
- 转写结果会填入输入框
OpenAI Whisper 与本地 Whisper 对比
| 特性 | OpenAI Whisper API | 本地 Whisper |
|---|---|---|
| 延迟 | 取决于网络 | 短音频通常更快 |
| 成本 | 按分钟计费 | 免费,但消耗本地资源 |
| 隐私 | 音频会发送给 OpenAI | 音频留在本地 |
| GPU | 不需要 | 推荐有 GPU |
| 模型选项 | 仅 whisper-1 | tiny、base、small、medium、large |
适合选 OpenAI 的情况:
- 没有 GPU
- 想要稳定一致的性能
- 隐私不是主要顾虑
适合选本地 Whisper 的情况:
- 想免费使用
- 希望音频完全留在本地
- 已有可用 GPU
故障排查
麦克风不能用
- 确保当前站点是 HTTPS 或 localhost
- 检查浏览器麦克风权限
- 查看 Microphone Access Issues
转写错误
- 检查 OpenAI API Key 是否有效
- 确认 API Base URL 正确
- 查看容器日志
语言问题
OpenAI Whisper 默认自动检测语言。如果你需要强制指定语言,通常应考虑本地 Whisper + WHISPER_LANGUAGE。
更多问题见 音频排障指南。