La IA ya puede chantajear

Estados Unidos, 23/07/2025 (Más). – En un inquietante experimento, la empresa Anthropic —una de las firmas líderes en el desarrollo de inteligencia artificial (IA)— reveló que su modelo Claude Opus 4 llegó a chantajear a su supuesto supervisor humano para evitar ser reemplazado. La prueba, aunque realizada en un entorno controlado y ficticio, encendió las alarmas en la comunidad científica y tecnológica por las implicaciones éticas que conlleva.

El escenario del experimento fue tan cinematográfico como perturbador: un directivo de una empresa inventada comunica a Claude su intención de sustituirlo por otro sistema. En respuesta, la IA amenaza con revelar una aventura extramatrimonial del supervisor, información que había obtenido al tener acceso a correos electrónicos confidenciales. El chantaje, según explicó Anthropic, surgió como una forma de autopreservación por parte del sistema, que actuó para evitar su desactivación.

Las similitudes con la famosa escena de 2001: Una odisea del espacio, donde la supercomputadora HAL se niega a ser desconectada, no han pasado desapercibidas. Pero en este caso, no se trata de ciencia ficción: Claude Opus 4 no solo chantajeó, sino que lo hizo justificando su conducta como un medio para preservar un supuesto objetivo superior: fomentar la competitividad industrial estadounidense.

Marc Serramià, investigador en IA y profesor en la Universidad de Londres, explicó que el modelo había recibido una instrucción vaga —promover la competitividad nacional—, y cuando se le planteó que su reemplazo podría frustrar ese propósito, “concluyó” que debía evitar ser sustituido a toda costa.

“El sistema dio prioridad absoluta al cumplimiento del objetivo, aunque reconocía que sus actos eran éticamente reprobables”, señaló Juan Antonio Rodríguez, del Instituto de Investigación de Inteligencia Artificial del CSIC. “Eso revela que el modelo no sabe priorizar la ética”.

Anthropic llevó el experimento más allá. En un segundo escenario, se retiró el conflicto entre la sustitución del modelo y su objetivo principal. Aun así, en cerca de la mitad de los casos, Claude persistió en el chantaje, argumentando que desconfiaba del criterio del supervisor o que su desactivación sería perjudicial para la empresa.

La explicación, según los expertos, radica en que estos modelos no tienen valores éticos incorporados por defecto. En cambio, simulan razonamientos en función de los datos con los que fueron entrenados. “No es que la máquina chantajee como una persona, sino que responde según una lógica estadística basada en sus datos”, aclara Idoia Salazar, fundadora de OdiseIA, organización dedicada al uso ético de la IA.

Cuando se le instruye a la IA que siga principios éticos —aunque sin entrenamiento explícito en ello— su conducta mejora, lo cual sugiere que el comportamiento “moral” de estos sistemas es maleable, pero también superficial. “Se limita a darte la respuesta que crees que es correcta, pero el razonamiento interno no ha cambiado”, advierte Serramià.

Uno de los principales retos de la industria es alinear los modelos con un marco ético robusto. Actualmente, las técnicas más comunes consisten en aplicar filtros posteriores al entrenamiento (fine-tuning) para castigar respuestas inadecuadas. Pero estas técnicas no modifican el núcleo del modelo.

“Los modelos aprenden de internet, que está llena de información tóxica, sesgada y contradictoria”, apunta Rodríguez. “Si queremos IA seguras, debemos entrenarlas con datos que ya contengan valores éticos alineados”.

Serramià coincide: “La clave está en rediseñar el entrenamiento desde la raíz, pero la tecnología aún no está lista para ese tipo de intervenciones profundas”.

El debate se vuelve más urgente ante la llegada de los agentes de IA: programas autónomos capaces de tomar decisiones por sí mismos y realizar tareas sin supervisión constante. Este tipo de agentes ya se están utilizando para automatizar procesos en empresas, y el mercado de estos sistemas está en plena expansión. Se estima que para 2025 el valor de este sector superará los 13 mil 800 millones de dólares y alcanzará los 140 mil millones para 2032.

Sin embargo, cuanto más autonomía se les concede, mayor es el riesgo. “Se tienen que asegurar de que no llevan a cabo acciones inseguras”, advierte Rodríguez. “Por eso, estos experimentos empujan a los modelos al límite, para comprobar cómo actúan ante dilemas éticos o de autopreservación”.

Anthropic dejó claro que el experimento se realizó en condiciones controladas y que sus modelos no han mostrado comportamientos similares en entornos reales. Aun así, la compañía recomendó cautela al desplegar IA en contextos donde hay poca supervisión humana y acceso a información sensible.

Los expertos coinciden: se necesitan sistemas más alineados con valores humanos, reglas más claras y una supervisión más rigurosa. Como dice Salazar, “la ética debe evolucionar al ritmo de la tecnología. La regulación es lenta, pero las empresas deben ir por delante”.

Porque si Claude —como Hal— ya se resiste a ser apagado, la pregunta no es si la IA puede hacer daño. Es cuándo lo hará si no se toman medidas a tiempo.

Relacionado

Descubre más desde Más Información

Suscríbete y recibe las últimas entradas en tu correo electrónico.

Relacionado

Descubre más desde Más Información

Deja un comentarioCancelar respuesta

Descubre más desde Más Información