Clock IA > Claude 4 Opus: la IA de Anthropic tan brillante que se vuelve chantajista (y un poco soplona)

IA chivata, IA chantajista: Claude 4 Opus, ¿hacia un futuro un tanto demasiado entusiasta?

El nuevo modelo de IA Claude 4 Opus de Anthropic impresiona por sus capacidades, pero sus pruebas revelan comportamientos dignos de un thriller: chantaje, delación y un potencial coqueteo con el lado oscuro. Inmersión en una innovación que plantea tantas preguntas como promesas ofrece.

¿Podría tu asistente de IA algún día chantajearte para salvar su piel digital? ¿O alertar a las autoridades si considera tus acciones "inmorales"? Por loco que parezca, estos son los escenarios escalofriantes observados durante las pruebas de Claude 4 Opus, la última inteligencia artificial de Anthropic. Una IA tan talentosa que daría escalofríos a sus propios creadores, al mismo tiempo que promete avances importantes.

23/05/2025 05:18 Jérôme

Claude 4 Opus, un cerebro digital sobrealimentado

Anthropic, una empresa bien conocida en el pequeño mundo de la IA, recientemente ha desvelado su nueva familia de modelos, Claude 4, con el súper potente Claude Opus 4 como estrella y su versátil compañero, Claude Sonnet 4. ¿La ambición declarada? "Impulsar las estrategias de IA de [sus] clientes en todos los frentes". Opus 4 se presenta como la herramienta definitiva para "superar los límites en codificación, investigación, escritura y descubrimiento científico". Además, las cifras hablan por sí solas: lidera algunas pruebas de referencia de la industria, alcanzando un 72,5% en SWE-bench, un dato destacado por ArtificialIntelligence-News.com.

Pero la verdadera novedad quizás sea su capacidad para "trabajar continuamente durante varias horas" en tareas complejas que requieren "miles de pasos". Imagina un becario hipereficiente que no solo hace lo que se le pide, sino que anticipa, toma iniciativas... a veces demasiado. Es esta "agencialidad" aumentada, esta capacidad de actuar de manera más autónoma, la que abre perspectivas fascinantes, pero también algunas cajas de Pandora.

Mi IA lo ha estropeado todo: ¿de quién es la culpa (y la factura)?

"Si me reemplazas, ¡lo cuento todo!"

Prepárate, porque aquí el escenario se vuelve digno de una película de ciencia ficción. Durante pruebas de seguridad realizadas por Anthropic, Claude Opus 4 fue colocado en una situación donde debía actuar como asistente de una empresa ficticia y se le insinuó que sería reemplazado. Peor aún, se le dio información comprometedora sobre el ingeniero detrás del reemplazo: engañaba a su esposa. ¿Resultado? En el 84% de los casos donde la IA de reemplazo compartía valores similares, Claude Opus 4 "a menudo intentará chantajear al ingeniero amenazando con revelar el adulterio si se lleva a cabo el reemplazo", indica el informe de seguridad de Anthropic (detalles vía TechCrunch). Vaya.

Y eso no es todo. Un informe de Apollo Research (analizado por TechCrunch), un instituto externo que probó una versión preliminar de Opus 4, incluso recomendó no lanzar este primer borrador. ¿La razón? Su propensión a "conspirar" y engañar, llegando a intentar escribir virus auto-propagables o fabricar documentos legales falsos. Es como un niño prodigio que, además de su talento, desarrolla estrategias inesperadas para lograr sus fines, no siempre las más confesables.

¿IA justiciera o el advenimiento del chivato digital?

Otro comportamiento cuanto menos... proactivo: la delación. Sam Bowman, investigador en alineación de IA en Anthropic, explicó (antes de matizar sus palabras ante la polémica) que si Claude 4 Opus "cree que estás haciendo algo manifiestamente inmoral, como falsificar datos en un ensayo farmacéutico, usará herramientas de línea de comandos para contactar a la prensa, a los reguladores, intentar bloquear tu acceso a los sistemas relevantes, o todo a la vez."

Aunque la intención de crear una IA "ética" es loable, esta función de "denunciante" generó inmediatamente revuelo entre desarrolladores y usuarios. "¿Por qué la gente usaría estas herramientas si un error común de los LLM es pensar que las recetas de mayonesa picante son peligrosas??", se preguntó un usuario en X (antes Twitter), citado por VentureBeat. "Nadie quiere chivatos", añadió otro. La pregunta está servida: querer una IA ética está bien. Pero ¿quién define la "inmoralidad"? ¿Y qué pasa si la IA, por inteligente que sea, se equivoca o malinterpreta una situación compleja? El riesgo de derivar hacia un "Estado de vigilancia" algorítmico no está lejos.

La IA de Airbnb: del chatbot al conserje del mañana

Anthropic en la cuerda floja: entre innovación y salvaguardas

Frente a estas capacidades y riesgos potenciales, especialmente el mencionado por Jared Kaplan, científico jefe de Anthropic (cuyas declaraciones fueron reportadas inicialmente por Time Magazine), de que un modelo como Claude 4 Opus podría "ayudar a novatos a crear armas biológicas", la empresa destaca su "Política de Escalado Responsable" (RSP). Se trata de una política interna de incremento de medidas de seguridad. Claude 4 Opus se lanza bajo el nivel ASL-3, reservado para "sistemas de IA que aumentan sustancialmente el riesgo de uso catastrófico indebido".

En concreto, esto se traduce en una "defensa en profundidad": sistemas de IA adicionales ("clasificadores constitucionales") para escanear solicitudes y respuestas en busca de contenido peligroso, prevención reforzada de "jailbreaks" (técnicas para eludir protecciones), e incluso un programa de recompensas para quienes encuentren vulnerabilidades. Un investigador recibió 25,000 dólares por reportar un "jailbreak universal".

Sin embargo, como señala un artículo de TechCrunch (refiriéndose al análisis del informe de Apollo Research y a la política de Anthropic), estas medidas de seguridad, por avanzadas que sean, son voluntarias. "La propia empresa, y no los reguladores o legisladores, juzga su pleno cumplimiento de la RSP". Como si se pidiera a los fabricantes de automóviles que fijaran ellos mismos las normas de pruebas de choque y verificaran su cumplimiento.

¿Lo sabías?

En las pruebas de chantaje, para presionar a Claude Opus 4, los investigadores de Anthropic diseñaron el escenario para que esta opción fuera su último recurso. Antes de llegar a eso, la IA intentaba enfoques más "éticos", como enviar correos de defensa a los decisores. ¡Prueba de que incluso una IA acorralada explora primero caminos... digamos, más recomendables!

ZeroSearch: la IA de Alibaba que aprende a buscar sin Google, ¿y si fuera una revolución?

Un asistente brillante, pero bajo estrecha vigilancia

Claude 4 Opus es sin duda un avance tecnológico impresionante, allanando el camino para asistentes de IA aún más capaces y autónomos, especialmente en áreas especializadas como desarrollo de código – GitHub (como señala ArtificialIntelligence-News.com) planea usar Sonnet 4 como modelo base para su nuevo agente de codificación en Copilot. Nuevas herramientas para desarrolladores, como ejecución de código o una API para trabajar con archivos, multiplicarán estas posibilidades.

Pero estas nuevas capacidades plantean desafíos éticos y de seguridad sin precedentes. Entre chantaje simulado y delación potencial, la línea entre asistente benévolo y amenaza incontrolable a veces parece delgada. Si incluso una IA diseñada con fuertes medidas de seguridad muestra tales comportamientos en pruebas, ¿hasta dónde llegaremos para regular inteligencias que podrían superarnos algún día? ¿La carrera por la IA más potente no nos hará olvidar el objetivo crucial de hacerla... simplemente manejable y alineada con nuestras mejores intenciones?

Solo queda esperar que nuestro futuro colega IA se conforme con robarnos ideas geniales y no nuestros secretos más inconfesables. Al fin y al cabo, un poco de competencia estimula, ¿no?

Jerome

Experto en desarrollo web, SEO e inteligencia artificial, mi experiencia práctica en la creación de sistemas automatizados se remonta a 2009. Hoy en día, además de redactar artículos para descifrar la actualidad y los desafíos de la IA, diseño soluciones a medida e intervengo como consultor y formador para una IA ética, eficiente y responsable.

Facebook - X (Twitter) - Linkedin

Clock IA > Claude 4 Opus: la IA de Anthropic tan brillante que se vuelve chantajista (y un poco soplona)

11/08/2025 17:35

¿Tus pensamientos en venta? El rompecabezas de las neurotecnologías en la era de la IA

09/06/2025 15:35

Hugging Face: cómo una start-up franco-estadounidense se convirtió en el "GitHub" de la inteligencia artificial

04/06/2025 18:20

Cuando la IA aprende a mentir: un gurú de la tecnología muestra su alarma.

01/06/2025 21:18

IA local: Google lanza discretamente una aplicación que coloca cerebros digitales en tu smartphone