第一步:配置 API 网关与密钥
网关仅做认证;TTS/ASR 流量直连千问服务器,不走网关
流式 TTS (语音合成) 直连沙盒
WebSocket Direct
声音克隆 (Zero-shot 实时体验)
▶ 点击展开
麦克风一键录制声音 (极简推荐)
就绪
请点击下方按钮,并朗读: “你好,这是我用于流式声音克隆的一段参考音频。”
— 或手动配置外部声线 —
提示:声音克隆在合成时实时匹配音色特征,非克隆场景请保持这两个输入框空白,直接使用上面的系统声线。
状态: 就绪
ASR (语音识别文字) 直连沙盒
HTTP Direct/Proxy
鼠标“长按”按钮开始说话
自动进行 16000Hz 单声道 PCM 转换后上传
语音识别结果:
说话内容将在此显示...
状态: 就绪
快速对接集成代码
只需要引入配套的 qwen-speech-sdk.js 客户端库,即可在前端网页直连阿里的语音合成及识别服务器。
HTML + JS
加载中...
实时调试日志
等待操作...