语音功能
SkyalyticClaw 支持语音输入和输出,让 AI 助手可以通过语音与你交互。
语音功能概述
| 功能 | 说明 | 默认状态 |
|---|---|---|
| STT(语音转文字) | 将语音输入转换为文字 | 关闭 |
| TTS(文字转语音) | 将 AI 回复转换为语音 | 关闭 |
提示
语音功能默认关闭,需要手动启用。
语音转文字(STT)
whisper 技能
通过 Whisper API 或本地模型转录音频:
- 转录会议录音
- 语音备忘录转文字
- 视频字幕生成
- 播客转录
- 多语言语音识别
使用方式
- 启用语音功能
- 在对话界面点击麦克风按钮
- 开始说话
- 语音会自动转换为文字并发送
文字转语音(TTS)
sag-tts 技能
通过 ElevenLabs 或 OpenAI TTS 生成语音:
- 文本转语音播报
- 生成语音通知
- 创建有声读物片段
- 多语言语音合成
- 自定义声音风格
sherpa-tts 技能
使用 sherpa-onnx 进行本地离线语音合成:
- 离线语音合成
- 隐私敏感场景的 TTS
- 嵌入式设备语音输出
- 批量文本转语音
提示
sherpa-tts 无需联网,适合对数据隐私有要求的场景。
注意事项
- 语音功能需要麦克风权限(系统授权)
- 在线 TTS/STT 需要网络连接
- 离线 TTS 首次使用需要下载模型
