跳到主要内容

在 OPL 数据空间中使用 OpenAI 做语音转文字

本指南介绍如何把 OpenAI 的 Whisper API 用作 OPL 数据空间的 STT。它适合不想依赖本地 GPU 的云端转写场景。

需要 TTS?

前提

  • 一个有 Audio API 权限的 OpenAI API Key
  • 正在运行的 OPL 数据空间

快速配置(UI)

  1. 点击左下角头像
  2. 进入 管理员面板
  3. 打开 设置 → 语音
  4. 设置:
设置项
Speech-to-Text EngineOpenAI
API Base URLhttps://api.openai.com/v1
API Key你的 OpenAI API Key
STT Modelwhisper-1
Supported Content Types可留空,或显式填 audio/wav,audio/mpeg,audio/webm
  1. 点击 Save

可用模型

模型说明
whisper-1OpenAI 托管的 Whisper large-v2

环境变量配置

services:
  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    environment:
      - AUDIO_STT_ENGINE=openai
      - AUDIO_STT_OPENAI_API_BASE_URL=https://api.openai.com/v1
      - AUDIO_STT_OPENAI_API_KEY=sk-...
      - AUDIO_STT_MODEL=whisper-1

常用变量

变量说明默认值
AUDIO_STT_ENGINE设为 openai
AUDIO_STT_OPENAI_API_BASE_URLOpenAI API 地址https://api.openai.com/v1
AUDIO_STT_OPENAI_API_KEYOpenAI API Key
AUDIO_STT_MODELSTT 模型whisper-1
AUDIO_STT_SUPPORTED_CONTENT_TYPES允许的 MIME 类型audio/*,video/webm

支持格式

OpenAI Whisper API 支持:mp3mp4mpegmpgam4awavwebm

使用方式

  1. 点击输入框的麦克风图标
  2. 开始说话
  3. 再次点击麦克风,或等待静音检测
  4. 转写结果会填入输入框

OpenAI Whisper 与本地 Whisper 对比

特性OpenAI Whisper API本地 Whisper
延迟取决于网络短音频通常更快
成本按分钟计费免费,但消耗本地资源
隐私音频会发送给 OpenAI音频留在本地
GPU不需要推荐有 GPU
模型选项whisper-1tiny、base、small、medium、large

适合选 OpenAI 的情况:

  • 没有 GPU
  • 想要稳定一致的性能
  • 隐私不是主要顾虑

适合选本地 Whisper 的情况:

  • 想免费使用
  • 希望音频完全留在本地
  • 已有可用 GPU

故障排查

麦克风不能用

  1. 确保当前站点是 HTTPS 或 localhost
  2. 检查浏览器麦克风权限
  3. 查看 Microphone Access Issues

转写错误

  1. 检查 OpenAI API Key 是否有效
  2. 确认 API Base URL 正确
  3. 查看容器日志

语言问题

OpenAI Whisper 默认自动检测语言。如果你需要强制指定语言,通常应考虑本地 Whisper + WHISPER_LANGUAGE

更多问题见 音频排障指南