介绍 Mercury 2 – Inception

Inceptionlabs Ai
Mercury 2 被推出,是世界上最快的推理语言模型,利用扩散式并行细化取代顺序解码,实现即时生产级 AI。

内容摘要

Inception 推出了 Mercury 2,被称为世界上最快的推理语言模型,旨在通过实现即时生产级 AI 来克服传统自回归解码的瓶颈。Mercury 2 采用基于扩散的方法,通过并行细化在少量步骤内生成响应,从而实现了比顺序方法快 5 倍以上的生成速度。这种架构使其能够在实时延迟预算内实现推理级别的质量,从而改变了生产部署的质量-速度曲线。关键规格包括在 NVIDIA Blackwell GPU 上的速度为 1,009 tokens/秒、具有竞争力的价格,以及可调谐的推理、128K 上下文、原生工具使用和模式对齐的 JSON 输出等功能。Mercury 2 擅长对延迟敏感的应用,例如编码/编辑、智能体循环、实时语音交互以及搜索/RAG 管道,早期采用者称赞其对响应速度和效率的影响。该模型现已可用,并且与 OpenAI API 兼容,可以轻松集成到现有堆栈中。

(来源:Inceptionlabs Ai)