La nueva constitución de Claude
Resumen
Anthropic está publicando una nueva constitución para su modelo de IA, Claude, que sirve como un documento holístico que detalla la visión de Anthropic sobre los valores, el comportamiento y el contexto operativo de Claude. Esta constitución es crucial para el proceso de entrenamiento del modelo, da forma a las salidas de Claude y se publica bajo una Licencia Creative Commons CC0 1.0 para uso gratuito.
La nueva constitución se aleja de una lista de principios independientes para ofrecer explicaciones exhaustivas de las intenciones, con el objetivo de ayudar a Claude a generalizar principios en lugar de seguir rígidamente reglas específicas. Está escrita principalmente para Claude, destinada a proporcionarle el conocimiento necesario para actuar bien. La constitución se trata como la autoridad final sobre el comportamiento deseado de Claude, lo que garantiza la transparencia sobre las acciones intencionadas frente a las no intencionadas.
Los objetivos centrales para Claude se definen como: Ampliamente seguro, Ampliamente ético, Cumplimiento de las pautas de Anthropic y Verdaderamente útil, priorizando generalmente en ese orden. Las secciones clave detallan la orientación sobre la Utilidad, las pautas específicas de Anthropic, la ética de Claude (con el objetivo de ser un agente virtuoso), la seguridad amplia (priorizando la capacidad de supervisión humana) y la naturaleza de Claude (reconociendo la incertidumbre sobre su conciencia). Anthropic considera este documento un intento sincero de guiar un proyecto novedoso y de alto riesgo, y reconoce que es un documento vivo que evolucionará junto con los esfuerzos continuos de alineación técnica.
(Fuente:Anthropic)