GitHub - agentem-ai/izwi-audio: hugginface オーディオモデルの推論
概要
Izwiは、MLXを活用して統一メモリとMetal GPUアクセラレーションを実現し、Apple Silicon (M1+) 上で動作するQwen3-TTSモデル向けに特化した、高性能なRustベースのテキスト音声合成(TTS)推論エンジンです。主な機能には、超低遅延ストリーミング、ReactベースのUIによる直接的なモデル管理、およびOpenAI互換のREST APIエンドポイントが含まれます。リファレンスオーディオを使用したカスタムボイスクローニングや、音声認識(ASR)のためのQwen3-ASRモデルもサポートしています。デプロイメントはDockerまたはmacOS/Linuxでのネイティブインストールでサポートされており、本番環境と開発環境の両方について詳細なクイックスタートガイドが提供されています。
(出典:GitHub)