GitHub - agentem-ai/izwi-audio:用于 hugginface 音频模型的推理

GitHub
Izwi 是一个高性能、基于 Rust 的 TTS 推理引擎,使用 MLX 针对 Apple Silicon 上的 Qwen3-TTS 进行了优化。

内容摘要

Izwi 是一个基于 Rust 的高性能文本转语音 (TTS) 推理引擎,专门为在 Apple Silicon (M1+) 上运行的 Qwen3-TTS 模型设计,它利用 MLX 实现统一内存和 Metal GPU 加速。主要特点包括超低延迟流式传输、通过基于 React 的 UI 进行直接模型管理,以及兼容 OpenAI 的 REST API 端点。它支持用于基础语音生成和使用参考音频进行语音克隆的各种 Qwen3-TTS 模型,以及用于语音转文本转录的 Qwen3-ASR 模型。支持通过 Docker 或在 macOS/Linux 上进行原生安装进行部署,并为生产和开发环境提供了详细的快速入门指南。

(来源:GitHub)