Mejora de la jerarquía de instrucciones en LLMs de frontera
Resumen
Los sistemas de IA deben priorizar de manera confiable las instrucciones de diversas fuentes, como mensajes del sistema, orientación del desarrollador, solicitudes del usuario y resultados de herramientas, de acuerdo con una jerarquía de confianza (Sistema > desarrollador > usuario > herramienta). Las fallas en esta priorización conducen a problemas de seguridad y confiabilidad, especialmente cuando surgen instrucciones conflictivas. Los autores presentan IH-Challenge, un conjunto de datos de entrenamiento de aprendizaje por refuerzo diseñado para entrenar a los modelos a priorizar correctamente las instrucciones al evitar obstáculos comunes como instrucciones demasiado complejas, calificación subjetiva y atajos para maximizar la recompensa como la sobre-negación. El entrenamiento con IH-Challenge resultó en un modelo interno, GPT-5 Mini-R, que mostró mejoras significativas en varios puntos de referencia de jerarquía de instrucciones sin colapsar en la sobre-negación. Esta jerarquía de instrucciones más sólida se traduce directamente en una mejor capacidad de dirección de seguridad, mejorando las tasas de rechazo ante contenido no permitido cuando hay especificaciones de seguridad presentes en los mensajes del sistema, y una mayor solidez contra ataques de inyección de indicaciones incrustados en resultados de herramientas no confiables, lo que sugiere que el entrenamiento específico en la jerarquía de instrucciones es un elemento fundamental para implementar agentes de IA más capaces y autónomos.
(Fuente:OpenAI)