Mejora de la jerarquía de instrucciones en LLMs de frontera

English 中文日本語

OpenAI Mar 5, 2026

Entrenar LLMs con tareas de jerarquía de instrucciones diseñadas mejora la capacidad de dirección de seguridad y la solidez contra ataques de inyección de indicaciones.

Leer Artículo Completo

Resumen

Los sistemas de IA deben priorizar de manera confiable las instrucciones de diversas fuentes, como mensajes del sistema, orientación del desarrollador, solicitudes del usuario y resultados de herramientas, de acuerdo con una jerarquía de confianza (Sistema > desarrollador > usuario > herramienta). Las fallas en esta priorización conducen a problemas de seguridad y confiabilidad, especialmente cuando surgen instrucciones conflictivas. Los autores presentan IH-Challenge, un conjunto de datos de entrenamiento de aprendizaje por refuerzo diseñado para entrenar a los modelos a priorizar correctamente las instrucciones al evitar obstáculos comunes como instrucciones demasiado complejas, calificación subjetiva y atajos para maximizar la recompensa como la sobre-negación. El entrenamiento con IH-Challenge resultó en un modelo interno, GPT-5 Mini-R, que mostró mejoras significativas en varios puntos de referencia de jerarquía de instrucciones sin colapsar en la sobre-negación. Esta jerarquía de instrucciones más sólida se traduce directamente en una mejor capacidad de dirección de seguridad, mejorando las tasas de rechazo ante contenido no permitido cuando hay especificaciones de seguridad presentes en los mensajes del sistema, y una mayor solidez contra ataques de inyección de indicaciones incrustados en resultados de herramientas no confiables, lo que sugiere que el entrenamiento específico en la jerarquía de instrucciones es un elemento fundamental para implementar agentes de IA más capaces y autónomos.

(Fuente：OpenAI)

English 中文日本語

Leer Artículo Completo

The Verge Apr 28, 2026

Selección del jurado en el caso Musk contra Altman: “A la gente no le agrada”

The Verge Apr 28, 2026

Google está probando la búsqueda con chatbot de IA para YouTube

The Verge Apr 27, 2026

Canonical presenta su plan para la IA en Ubuntu Linux

The Verge Apr 27, 2026

Empleados de Google piden a Sundar Pichai que diga no al uso de IA militar clasificada

TechCrunch Apr 27, 2026

OpenAI termina con el peligro legal de Microsoft sobre su acuerdo de 50 mil millones de dólares con Amazon

TechCrunch Apr 27, 2026

David Silver de DeepMind acaba de recaudar 1.100 millones de dólares para construir una IA que aprende sin datos humanos

The Verge Apr 27, 2026

El famoso acuerdo AGI de Microsoft y OpenAI ha muerto

TechCrunch Apr 27, 2026

Inversores respaldan la aplicación de pantalla de inicio de IA de Skye para iPhone antes de su lanzamiento

The Verge Apr 27, 2026

La batalla judicial entre Elon Musk y Sam Altman sobre el futuro de OpenAI

The Verge Apr 27, 2026

Canva se disculpa después de que su herramienta de IA reemplazara 'Palestine' en los diseños