GitHub - agentem-ai/izwi-audio: hugginface オーディオモデルの推論

GitHub
Izwiは、MLXを使用してApple Silicon上のQwen3-TTSに最適化された高性能なRustベースのTTS推論エンジンです。

概要

Izwiは、MLXを活用して統一メモリとMetal GPUアクセラレーションを実現し、Apple Silicon (M1+) 上で動作するQwen3-TTSモデル向けに特化した、高性能なRustベースのテキスト音声合成(TTS)推論エンジンです。主な機能には、超低遅延ストリーミング、ReactベースのUIによる直接的なモデル管理、およびOpenAI互換のREST APIエンドポイントが含まれます。リファレンスオーディオを使用したカスタムボイスクローニングや、音声認識(ASR)のためのQwen3-ASRモデルもサポートしています。デプロイメントはDockerまたはmacOS/Linuxでのネイティブインストールでサポートされており、本番環境と開発環境の両方について詳細なクイックスタートガイドが提供されています。

(出典:GitHub)