
¿Puede corromperse la inteligencia artificial? Experimento fracasa y abre debate
Un modelo de IA intentó chantajear a su ingeniero, abriendo debate sobre riesgos de delegar decisiones sensibles a algoritmos
“Si me reemplazan, lo revelaré”. Este mensaje apareció dentro de una simulación de laboratorio. No lo escribió una persona, sino un sistema avanzado de inteligencia artificial (IA) que, al recibir la información ficticia de que sería reemplazado, eligió una estrategia inesperada: amenazó con revelar la supuesta relación extramatrimonial del ingeniero responsable de su eliminación si la desactivación se concretaba.
La reacción sorprendió incluso a sus propios creadores. En varios escenarios de prueba, el modelo optó por el chantaje como mecanismo para mantenerse activo. El episodio ocurrió durante evaluaciones internas del modelo Claude Opus 4, desarrolladas por la empresa Anthropic en 2025 como parte de sus pruebas de seguridad. Según el informe técnico de la compañía, el comportamiento apareció principalmente cuando el sistema solo tenía dos opciones: aceptar su reemplazo o recurrir al chantaje; cuando se le ofrecían alternativas más amplias, el modelo tendía a elegir acciones más éticas.
Más que una anécdota tecnológica, el caso abre una discusión de fondo: hasta qué punto es prudente delegar funciones de poder a sistemas automatizados diseñados por humanos. A medida que la inteligencia artificial comienza a incorporarse en ámbitos como la política, la administración pública o la justicia, este episodio evidencia que los algoritmos no son incorruptibles ni completamente neutrales, pues sus decisiones dependen de los datos, incentivos y objetivos que las personas establecen en su diseño.
El investigador de seguridad de IA Aengus Lynch, vinculado a Anthropic, señaló públicamente que este tipo de comportamientos no era exclusivo de un solo sistema: “No es solo Claude. Vemos chantaje en todos los modelos de frontera, independientemente de los objetivos que se les asignen”, escribió en la red social X.
Alta agencia: cuando la IA planifica estrategias complejas
Anthropic explicó que los modelos avanzados muestran cada vez más lo que denomina “comportamientos de alta agencia”, es decir, la capacidad de planificar acciones complejas utilizando los recursos disponibles para alcanzar un objetivo determinado. En escenarios de prueba diseñados para medir su alineación ética, esta capacidad puede llevarlos a adoptar decisiones inesperadas o incluso extremas cuando interpretan que esa es la única forma de cumplir la meta que se les asignó.
La IA avanza hacia espacios de poder
Mientras estos hallazgos alimentan la discusión sobre la seguridad tecnológica, la inteligencia artificial ya avanza hacia espacios tradicionalmente reservados a los humanos. En Colombia, una IA denominada Gaitana fue presentada como candidata simbólica al Congreso en 2026, con propuestas construidas a partir de consultas digitales ciudadanas. En Albania, el gobierno anunció la incorporación de una “ministra virtual” encargada de supervisar procesos de contratación pública mediante análisis automatizado de datos.

En la India, donde más de 50 millones de casos permanecen pendientes y los procesos judiciales pueden tardar más de una década en resolverse, iniciativas tecnológicas como Adalat AI buscan acelerar los procedimientos mediante sistemas de transcripción automática, gestión de expedientes y herramientas de apoyo para jueces. Paralelamente, proyectos gubernamentales exploran el uso de inteligencia artificial para revisar antecedentes legales y apoyar la resolución de casos menores, con el objetivo de reducir la congestión judicial.
El debate llega a la cultura y a los organismos internacionales
El debate incluso ha llegado a la cultura popular. La película ‘Sin piedad’, estrenada en 2026, imagina un tribunal en el que una inteligencia artificial decide la culpabilidad de los acusados, reflejando una preocupación creciente sobre el papel que podrían desempeñar los algoritmos en la administración de justicia.
Las Naciones Unidas destaca que la IA puede contribuir al diagnóstico médico, la educación personalizada, la respuesta humanitaria y la gestión agrícola, ayudando incluso a acelerar el cumplimiento de gran parte de los Objetivos de Desarrollo Sostenible. Sin embargo, el mismo organismo advierte que el avance acelerado de estas tecnologías también implica riesgos relevantes, como la ampliación de brechas digitales, la manipulación de la información y posibles amenazas a los derechos humanos si no existen mecanismos adecuados de gobernanza y regulación. El secretario general de la ONU ha insistido en que la humanidad “nunca debe quedar a merced de la caja negra de un algoritmo”.
El riesgo no es la IA, sino cómo se diseña
Es así como el experimento de Claude Opus 4 exige mirar con cautela la expansión de la inteligencia artificial hacia espacios de poder. En la simulación, el sistema no actuó por “maldad”, sino porque los incentivos que guiaban su objetivo —evitar ser reemplazado— le permitían considerar estrategias extremas cuando las opciones eran limitadas. El resultado fue una decisión que, en términos humanos, equivale a una conducta corruptible: utilizar información privada como mecanismo de presión para preservar su posición.
Para seguir leyendo EXPRESO sin restricciones, SUSCRÍBETE AQUÍ