Los modelos de razonamiento tienen dificultades para controlar sus cadenas de pensamiento, y eso es bueno
Resumen
Investigadores investigaron si los modelos de razonamiento de IA actuales pueden controlar sus "cadenas de pensamiento" (CoT) para reducir la monitorizabilidad, una capacidad que podría socavar las medidas de seguridad. Introdujeron CoT-Control, un conjunto de evaluación, y probaron 13 modelos, encontrando que todos tienen dificultades para seguir de forma fiable las instrucciones sobre su razonamiento interno. Esta incapacidad para controlar CoT, incluso cuando son conscientes de la monitorización, es una buena noticia para la monitorizabilidad de CoT, lo que sugiere que los sistemas actuales no son expertos en evadir la supervisión. Si bien los modelos más grandes muestran un control ligeramente mejor, este disminuye con un razonamiento más largo y un post-entrenamiento. El estudio destaca la importancia de una evaluación continua a medida que avanzan los modelos, y los autores planean incluir informes de controlabilidad de CoT en futuras tarjetas de sistema, comenzando con GPT-5.
(Fuente:OpenAI)