Los modelos de razonamiento tienen dificultades para controlar sus cadenas de pensamiento, y eso es bueno

English 中文日本語

OpenAI Mar 5, 2026

Un estudio encuentra que los modelos de razonamiento actuales tienen dificultades para manipular sus procesos de razonamiento incluso cuando se les indica, lo que sugiere que la monitorización actual de la cadena de pensamiento sigue siendo una medida de seguridad fiable.

Leer Artículo Completo

Resumen

Investigadores investigaron si los modelos de razonamiento de IA actuales pueden controlar sus "cadenas de pensamiento" (CoT) para reducir la monitorizabilidad, una capacidad que podría socavar las medidas de seguridad. Introdujeron CoT-Control, un conjunto de evaluación, y probaron 13 modelos, encontrando que todos tienen dificultades para seguir de forma fiable las instrucciones sobre su razonamiento interno. Esta incapacidad para controlar CoT, incluso cuando son conscientes de la monitorización, es una buena noticia para la monitorizabilidad de CoT, lo que sugiere que los sistemas actuales no son expertos en evadir la supervisión. Si bien los modelos más grandes muestran un control ligeramente mejor, este disminuye con un razonamiento más largo y un post-entrenamiento. El estudio destaca la importancia de una evaluación continua a medida que avanzan los modelos, y los autores planean incluir informes de controlabilidad de CoT en futuras tarjetas de sistema, comenzando con GPT-5.

(Fuente：OpenAI)

English 中文日本語

Leer Artículo Completo

TechCrunch Apr 19, 2026

Las preguntas existenciales de OpenAI

The Verge Apr 19, 2026

La plataforma de desarrollo en la nube Vercel fue hackeada

TechCrunch Apr 18, 2026

Tesla lleva su servicio de robotaxi a Dallas y Houston

The Verge Apr 18, 2026

La escasez de RAM podría durar años

TechCrunch Apr 18, 2026