Los modelos de razonamiento tienen dificultades para controlar sus cadenas de pensamiento, y eso es bueno

OpenAI
Un estudio encuentra que los modelos de razonamiento actuales tienen dificultades para manipular sus procesos de razonamiento incluso cuando se les indica, lo que sugiere que la monitorización actual de la cadena de pensamiento sigue siendo una medida de seguridad fiable.

Resumen

Investigadores investigaron si los modelos de razonamiento de IA actuales pueden controlar sus "cadenas de pensamiento" (CoT) para reducir la monitorizabilidad, una capacidad que podría socavar las medidas de seguridad. Introdujeron CoT-Control, un conjunto de evaluación, y probaron 13 modelos, encontrando que todos tienen dificultades para seguir de forma fiable las instrucciones sobre su razonamiento interno. Esta incapacidad para controlar CoT, incluso cuando son conscientes de la monitorización, es una buena noticia para la monitorizabilidad de CoT, lo que sugiere que los sistemas actuales no son expertos en evadir la supervisión. Si bien los modelos más grandes muestran un control ligeramente mejor, este disminuye con un razonamiento más largo y un post-entrenamiento. El estudio destaca la importancia de una evaluación continua a medida que avanzan los modelos, y los autores planean incluir informes de controlabilidad de CoT en futuras tarjetas de sistema, comenzando con GPT-5.

(Fuente:OpenAI)