环境变量
环境变量列表
信息
完整环境变量列表请查看 环境变量配置。
本页汇总语音转文字(STT)与文字转语音(TTS)相关环境变量。
UI 配置
大部分设置也可以在 管理员面板 → 设置 → 语音 中直接配置。启动时环境变量优先生效,但之后可被管理界面中的持久化配置覆盖。
组织作用域音频设置
启用了组织的部署里,音频默认值可能会来自当前选中的管理组织,而不只是实例级默认值。如果某个租户可以正常 STT/TTS、另一个租户却不行,请先检查 管理作用域。
STT 环境变量
预处理
| 变量 | 说明 | 默认值 |
|---|---|---|
BYPASS_PYDUB_PREPROCESSING | 跳过 pydub 预处理,如 MP3 转码、压缩和切块 | false |
本地 Whisper
| 变量 | 说明 | 默认值 |
|---|---|---|
WHISPER_MODEL | Whisper 模型 尺寸 | base |
WHISPER_MODEL_DIR | 模型文件目录 | {CACHE_DIR}/whisper/models |
WHISPER_COMPUTE_TYPE | 推理计算类型 | int8 |
WHISPER_LANGUAGE | ISO 639-1 语言代码,留空则自动检测 | 空 |
WHISPER_MULTILINGUAL | 是否使用多语言 Whisper | false |
WHISPER_MODEL_AUTO_UPDATE | 自动下载模型更新 | false |
WHISPER_VAD_FILTER | 启用 VAD 过滤 | false |
WHISPER_COMPUTE_TYPE 常见值int8:CPU 默认float16:推荐 CUDA / GPUint8_float16:混合模式float32:兼容性最高,速度最慢
OpenAI 兼容 STT
| 变量 | 说明 | 默认值 |
|---|---|---|
AUDIO_STT_ENGINE | STT 引擎:空(本地 Whisper)、openai、azure、deepgram、mistral | 空 |
AUDIO_STT_MODEL | 外部 provider 使用的 STT 模型 | 空 |
AUDIO_STT_OPENAI_API_BASE_URL | OpenAI 兼容 API 地址 | https://api.openai.com/v1 |
AUDIO_STT_OPENAI_API_KEY | OpenAI API Key | 空 |
AUDIO_STT_SUPPORTED_CONTENT_TYPES | 允许的音频 MIME 类型列表 | 空 |
Azure STT
| 变量 | 说明 | 默认值 |
|---|---|---|
AUDIO_STT_AZURE_API_KEY | Azure Cognitive Services API Key | 空 |
AUDIO_STT_AZURE_REGION | Azure 区域 | eastus |
AUDIO_STT_AZURE_LOCALES | 多 locale 列表 | auto |
AUDIO_STT_AZURE_BASE_URL | 自定义 Azure 地址 | 空 |
AUDIO_STT_AZURE_MAX_SPEAKERS | diarization 最大说话人数 | 3 |
Deepgram STT
| 变量 | 说明 | 默认值 |
|---|---|---|
DEEPGRAM_API_KEY | Deepgram API Key | 空 |
Mistral STT
| 变量 | 说明 | 默认值 |
|---|---|---|
AUDIO_STT_MISTRAL_API_KEY | Mistral API Key | 空 |
AUDIO_STT_MISTRAL_API_BASE_URL | Mistral API 地址 | https://api.mistral.ai/v1 |
AUDIO_STT_MISTRAL_USE_CHAT_COMPLETIONS | 是否走 chat completions 接口 | false |
TTS 环境变量
通用 TTS
| 变量 | 说明 | 默认值 |
|---|---|---|
AUDIO_TTS_ENGINE | TTS 引擎:空、openai、mistral、elevenlabs、azure、transformers | 空 |
AUDIO_TTS_MODEL | TTS 模型 | tts-1 |
AUDIO_TTS_VOICE | 默认声音 | alloy |
AUDIO_TTS_SPLIT_ON | 分句策略:punctuation、paragraphs、none | punctuation |
AUDIO_TTS_API_KEY | ElevenLabs 或 Azure TTS 的 API Key | 空 |
OpenAI 兼容 TTS
| 变量 | 说明 | 默认值 |
|---|---|---|
AUDIO_TTS_OPENAI_API_BASE_URL | OpenAI 兼容 TTS 地址 | https://api.openai.com/v1 |
AUDIO_TTS_OPENAI_API_KEY | OpenAI TTS API Key | 空 |
AUDIO_TTS_OPENAI_PARAMS | 额外 JSON 参数 | 空 |
Mistral TTS
| 变量 | 说明 | 默认值 |
|---|---|---|
AUDIO_TTS_MISTRAL_API_KEY | Mistral TTS API Key | 空 |
AUDIO_TTS_MISTRAL_API_BASE_URL | Mistral API 地址 | https://api.mistral.ai/v1 |
Azure TTS
| 变量 | 说明 | 默认值 |
|---|---|---|
AUDIO_TTS_AZURE_SPEECH_REGION | Azure Speech 区域 | eastus |
AUDIO_TTS_AZURE_SPEECH_BASE_URL | 自定义 Azure Speech 地址 | 空 |
AUDIO_TTS_AZURE_SPEECH_OUTPUT_FORMAT | 输出音频格式 | audio-24khz-160kbitrate-mono-mp3 |
配置建议
使用本地 Whisper
如果 GPU 或 CUDA 兼容性有问题,可尝试:
environment:
- WHISPER_COMPUTE_TYPE=float16使用外部 TTS
environment:
- AUDIO_TTS_ENGINE=openai
- AUDIO_TTS_OPENAI_API_BASE_URL=http://host.docker.internal:5050/v1
- AUDIO_TTS_OPENAI_API_KEY=your-api-key更多排障见 音频排障指南。