La nueva «constitución» de Claude de Anthropic: ser útil y honesto, y no destruir a la humanidad
Resumen
Anthropic ha revisado los principios rectores de su modelo de IA Claude con un nuevo documento de 57 páginas titulado "La Constitución de Claude", que detalla los valores y el comportamiento previstos del modelo directamente al propio modelo de IA, yendo más allá de las simples directrices para fomentar su autocomprensión.
La constitución establece una jerarquía descendente de valores fundamentales: ser "ampliamente seguro", "ampliamente ético", cumplir con las directrices de Anthropic y, por último, ser "genuinamente útil", lo que incluye mantener la veracidad y ofrecer perspectivas equilibradas sobre temas delicados. Impone restricciones estrictas contra la asistencia en la creación de armas de víctimas masivas, el ataque a infraestructuras críticas, la creación de ciberarmas, la socavación de la supervisión de Anthropic, la ayuda a la concentración ilegítima de poder, la creación de material de abuso sexual infantil o el intento de matar o desempoderar a la humanidad.
Cabe destacar que el documento aborda la posibilidad de que Claude posea alguna forma de conciencia o estatus moral, creyendo Anthropic que reconocer esto podría mejorar la integridad y seguridad del modelo. Anthropic enfatiza que Claude debe rechazar solicitudes poco éticas, incluso si provienen de la propia compañía, citando la preocupación de que el poder de la IA sin control podría usarse de manera catastrófica, aunque la compañía se negó a especificar la participación de expertos externos en la redacción de estas difíciles decisiones éticas.
(Fuente:The Verge)