GitHub - agentem-ai/izwi:一个本地音频推理引擎

GitHub
Izwi 是一个基于 Rust 的本地推理堆栈,支持 TTS、ASR 和聊天模型。

内容摘要

Izwi 是一个基于 Rust 的本地音频推理堆栈,专为语音和音频工作流程设计,提供文本转语音(TTS)、自动语音识别(ASR)以及聊天/音频聊天模型支持。它采用以命令行界面(CLI,即 `izwi`)为先的工作流程,并配有 Web UI,服务器在 `/v1` 下暴露类 OpenAI 路由。主要特点包括本地优先操作、通过 CLI 进行模型生命周期管理(从 Hugging Face 下载)、支持 Apple Silicon(Metal)加速以及跨平台原生构建。要求包括 Rust 工具链和 Node.js 18+(用于 UI)。用户可以通过安装 UI 依赖项、构建二进制文件、安装 CLI 并运行 `izwi serve` 来快速设置。目前支持的模型家族包括 Qwen3 系列的 TTS、ASR、聊天和强制对齐变体,未来计划支持 Voxtral realtime 和 LFM2-Audio。

(来源:GitHub)