Presentando Mercury 2 – Inception
Resumen
Inception ha presentado Mercury 2, promocionado como el modelo de lenguaje de razonamiento más rápido del mundo, diseñado para hacer que la IA de producción se sienta instantánea al superar el cuello de botella de la decodificación autorregresiva tradicional. Mercury 2 emplea un enfoque basado en difusión, generando respuestas a través de refinamiento paralelo en pocos pasos, lo que resulta en una generación más de 5 veces más rápida en comparación con los métodos secuenciales. Esta arquitectura le permite lograr calidad de nivel de razonamiento dentro de los presupuestos de latencia en tiempo real, cambiando la curva de calidad-velocidad para implementaciones de producción. Las especificaciones clave incluyen una velocidad de 1,009 tokens/seg en GPU NVIDIA Blackwell, precios competitivos y características como razonamiento ajustable, contexto de 128K, uso nativo de herramientas y salida JSON alineada con esquemas. Mercury 2 sobresale en aplicaciones sensibles a la latencia como codificación/edición, bucles agenticos, interacción de voz en tiempo real y pipelines de Búsqueda/RAG, y los primeros adoptantes elogian su impacto en la capacidad de respuesta y la eficiencia. El modelo está disponible ahora y es compatible con la API de OpenAI, lo que permite una fácil integración en las pilas existentes.
(Fuente:Inceptionlabs Ai)