跳到主要内容

环境变量

环境变量列表

信息

完整环境变量列表请查看 环境变量配置

本页汇总语音转文字(STT)与文字转语音(TTS)相关环境变量。

UI 配置

大部分设置也可以在 管理员面板 → 设置 → 语音 中直接配置。启动时环境变量优先生效,但之后可被管理界面中的持久化配置覆盖。

组织作用域音频设置

启用了组织的部署里,音频默认值可能会来自当前选中的管理组织,而不只是实例级默认值。如果某个租户可以正常 STT/TTS、另一个租户却不行,请先检查 管理作用域

STT 环境变量

预处理

变量说明默认值
BYPASS_PYDUB_PREPROCESSING跳过 pydub 预处理,如 MP3 转码、压缩和切块false

本地 Whisper

变量说明默认值
WHISPER_MODELWhisper 模型尺寸base
WHISPER_MODEL_DIR模型文件目录{CACHE_DIR}/whisper/models
WHISPER_COMPUTE_TYPE推理计算类型int8
WHISPER_LANGUAGEISO 639-1 语言代码,留空则自动检测
WHISPER_MULTILINGUAL是否使用多语言 Whisperfalse
WHISPER_MODEL_AUTO_UPDATE自动下载模型更新false
WHISPER_VAD_FILTER启用 VAD 过滤false
WHISPER_COMPUTE_TYPE 常见值
  • int8:CPU 默认
  • float16推荐 CUDA / GPU
  • int8_float16:混合模式
  • float32:兼容性最高,速度最慢

OpenAI 兼容 STT

变量说明默认值
AUDIO_STT_ENGINESTT 引擎:空(本地 Whisper)、openaiazuredeepgrammistral
AUDIO_STT_MODEL外部 provider 使用的 STT 模型
AUDIO_STT_OPENAI_API_BASE_URLOpenAI 兼容 API 地址https://api.openai.com/v1
AUDIO_STT_OPENAI_API_KEYOpenAI API Key
AUDIO_STT_SUPPORTED_CONTENT_TYPES允许的音频 MIME 类型列表

Azure STT

变量说明默认值
AUDIO_STT_AZURE_API_KEYAzure Cognitive Services API Key
AUDIO_STT_AZURE_REGIONAzure 区域eastus
AUDIO_STT_AZURE_LOCALES多 locale 列表auto
AUDIO_STT_AZURE_BASE_URL自定义 Azure 地址
AUDIO_STT_AZURE_MAX_SPEAKERSdiarization 最大说话人数3

Deepgram STT

变量说明默认值
DEEPGRAM_API_KEYDeepgram API Key

Mistral STT

变量说明默认值
AUDIO_STT_MISTRAL_API_KEYMistral API Key
AUDIO_STT_MISTRAL_API_BASE_URLMistral API 地址https://api.mistral.ai/v1
AUDIO_STT_MISTRAL_USE_CHAT_COMPLETIONS是否走 chat completions 接口false

TTS 环境变量

通用 TTS

变量说明默认值
AUDIO_TTS_ENGINETTS 引擎:空、openaimistralelevenlabsazuretransformers
AUDIO_TTS_MODELTTS 模型tts-1
AUDIO_TTS_VOICE默认声音alloy
AUDIO_TTS_SPLIT_ON分句策略:punctuationparagraphsnonepunctuation
AUDIO_TTS_API_KEYElevenLabs 或 Azure TTS 的 API Key

OpenAI 兼容 TTS

变量说明默认值
AUDIO_TTS_OPENAI_API_BASE_URLOpenAI 兼容 TTS 地址https://api.openai.com/v1
AUDIO_TTS_OPENAI_API_KEYOpenAI TTS API Key
AUDIO_TTS_OPENAI_PARAMS额外 JSON 参数

Mistral TTS

变量说明默认值
AUDIO_TTS_MISTRAL_API_KEYMistral TTS API Key
AUDIO_TTS_MISTRAL_API_BASE_URLMistral API 地址https://api.mistral.ai/v1

Azure TTS

变量说明默认值
AUDIO_TTS_AZURE_SPEECH_REGIONAzure Speech 区域eastus
AUDIO_TTS_AZURE_SPEECH_BASE_URL自定义 Azure Speech 地址
AUDIO_TTS_AZURE_SPEECH_OUTPUT_FORMAT输出音频格式audio-24khz-160kbitrate-mono-mp3

配置建议

使用本地 Whisper

如果 GPU 或 CUDA 兼容性有问题,可尝试:

environment:
  - WHISPER_COMPUTE_TYPE=float16

使用外部 TTS

environment:
  - AUDIO_TTS_ENGINE=openai
  - AUDIO_TTS_OPENAI_API_BASE_URL=http://host.docker.internal:5050/v1
  - AUDIO_TTS_OPENAI_API_KEY=your-api-key

更多排障见 音频排障指南