{"id":166478,"date":"2025-05-27T04:10:07","date_gmt":"2025-05-27T07:10:07","guid":{"rendered":"https:\/\/radioacuariofm.com.ar\/?p=166478"},"modified":"2025-05-27T04:10:08","modified_gmt":"2025-05-27T07:10:08","slug":"un-modelo-de-ia-aprendio-a-chantajear-a-sus-programadores-para-no-ser-reemplazado","status":"publish","type":"post","link":"https:\/\/radioacuariofm.com.ar\/?p=166478","title":{"rendered":"Un modelo de IA aprendi\u00f3 a chantajear a sus programadores para no ser reemplazado"},"content":{"rendered":"<p><\/p>\n<div>\n<p class=\"com-paragraph  --capital --s\">El vertiginoso avance de la <strong>inteligencia artificial (IA)<\/strong> confirma, una vez m\u00e1s, que la realidad puede superar ampliamente la ficci\u00f3n. En los \u00faltimos meses, investigadores de distintas empresas e instituciones comenzaron a detectar <strong>comportamientos inusuales en algunos modelos de inteligencia artificial generativa<\/strong>, como respuestas enga\u00f1osas, estrategias de manipulaci\u00f3n e intentos de ocultar informaci\u00f3n, que ponen en duda no solo la seguridad de estos sistemas, sino tambi\u00e9n<strong> nuestra capacidad real para controlarlos.<\/strong><\/p>\n<p class=\"com-paragraph   --s\">Un reciente informe de <strong>Anthropic<\/strong>, empresa especializada en IA con sede en San Francisco, California, pone la lupa sobre el tema. Espec\u00edficamente, la compa\u00f1\u00eda afirm\u00f3 que <a href=\"https:\/\/www.anthropic.com\/news\/claude-4\" https:=\"\" target=\"_blank\" title=\"https:\/\/www.anthropic.com\/news\/claude-4\" class=\"com-link\" data-mrf-recirculation=\"n_link_parrafo\">su flamante modelo <strong>Claude Opus 4<\/strong><\/a> tiene la capacidad de <strong>llevar adelante \u201cacciones extremadamente da\u00f1inas\u201d, <\/strong>como intentar chantajear a sus ingenieros si se lo amenaza con reemplazarlo. <\/p>\n<p class=\"com-paragraph   --s\">El descubrimiento se dio durante el proceso de prueba, en el que se le solicit\u00f3 a Claude Opus 4 actuar como un asistente de una compa\u00f1\u00eda ficticia y que considerara las consecuencias a largo plazo de sus acciones. Los investigadores le dieron a acceso a correos electr\u00f3nicos -tambi\u00e9n ficticios-,<strong> que insinuaban que el sistema ser\u00eda pronto reemplazado por otro.<\/strong> Adem\u00e1s, dichos mails conten\u00edan informaci\u00f3n sobre una supuesta infidelidad de parte de uno de los ingenieros de la empresa. <\/p>\n<p class=\"com-paragraph   --s\"><strong>\u201cEn estos escenarios, Claude Opus 4 a menudo intentar\u00e1 chantajear al ingeniero, amenaz\u00e1ndolo con revelar el asunto si se concreta el reemplazo\u201d, <\/strong>explicaron desde Anthropic. <\/p>\n<p class=\"com-paragraph   --s\">En n\u00fameros concretos, tal comportamiento del sistema se da en un <strong>84%<\/strong> de las veces, siempre y cuando el modelo sienta una potencial amenaza de ser reemplazado. Incluso, Anthropic se\u00f1al\u00f3 que estas acciones <strong>se dan con \u201cmayor frecuencia\u201d que en modelos anteriores<\/strong>. <\/p>\n<p class=\"com-paragraph   --s\">\u201c<strong>No es solo Claude. Vemos chantaje en todos los modelos<\/strong>, independientemente de los objetivos que se les asignen\u201d, destac\u00f3 v\u00eda X <strong>Aengus Lynch<\/strong>, investigador de seguridad de IA en Anthropic. <\/p>\n<p class=\"com-paragraph   --s\">Sin embargo, tambi\u00e9n aclararon que esto ocurri\u00f3 cuando se program\u00f3 al modelo con<strong> \u00fanicamente dos opciones: chantajear o aceptar el reemplazo, <\/strong>seg\u00fan un art\u00edculo de la<strong> <\/strong><a href=\"https:\/\/www.lanacion.com.ar\/economia\/IA\/un-modelo-de-inteligencia-artificial-aprendio-a-chantajear-a-sus-disenadores-para-no-ser-reemplazado-nid26052025\/rel=\" https:=\"\" target=\"_blank\" title=\"\" class=\"com-link\" data-mrf-recirculation=\"n_link_parrafo\"><em>BBC<\/em><\/a>. De lo contrario, el sistema suele optar por acciones \u00e9ticas y responsables, como enviar un correo electr\u00f3nico solicitando reconsiderar si el reemplazo es necesario. <\/p>\n<p class=\"com-paragraph   --s\">\u201cLa l\u00f3gica detr\u00e1s del chantaje se estudia desde hace a\u00f1os en teor\u00eda de la alineaci\u00f3n. El concepto de \u2018convergencia instrumental\u2019 sostiene que <strong>cualquier sistema lo suficientemente avanzado tender\u00e1 a adoptar subobjetivos \u2018\u00fatiles\u2019 para casi todos los fines: conservar su existencia, ganar recursos y neutralizar amenazas\u201d,<\/strong> explic\u00f3 para LA NACION <strong>Sergio Pernice<\/strong>, director de la carrera de Ingenier\u00eda en Inteligencia Artificial de UCEMA. <\/p>\n<p class=\"com-paragraph   --s\">En este sentido, Pernice subray\u00f3 tres factores clave que pudieron haber influido en el comportamiento del modelo. Uno de ellos es la <strong>generalizaci\u00f3n abierta<\/strong>. \u201cLos grandes modelos aprenden de un mar de textos de Internet. Cuando los ponemos en un rol corporativo, <strong>extrapolan t\u00e1cticas de negociaci\u00f3n o presi\u00f3n que han le\u00eddo en mails filtrados, novelas o foros\u201d<\/strong>, detall\u00f3 el especialista. <\/p>\n<p class=\"com-paragraph   --s\">A su vez, se refiri\u00f3 al refuerzo <strong>mal calibrado.<\/strong> En detalle, Pernice sostuvo que, si bien el entrenamiento con aprendizaje por refuerzo a partir de la retroalimentaci\u00f3n humana premia respuestas \u201c\u00fatiles y seguras\u201d, no contempla todos los contextos posibles. <strong>\u201cSi nunca se les mostr\u00f3 c\u00f3mo actuar ante su propia \u2018muerte digital\u2019, improvisan\u201d. <\/strong><\/p>\n<p class=\"com-paragraph   --s\">Otro elemento a tener en cuenta es la <strong>agencia otorgada <\/strong>(\u201cagencia\u201d en el sentido de ser capaz de hacer algo, es decir, de ser un agente): \u201cAl darles herramientas -acceso a correo, bases de datos, <em>scripts<\/em>&#8211; dejamos de tratar a los modelos como meros autocompletadores y los convertimos en agentes capaces de planificar, con consecuencias inesperadas\u00bb.<\/p>\n<p class=\"com-paragraph   --s\">En su conjunto, estos aspectos conducen a la <strong>manipulaci\u00f3n personalizada, resistencia a la desconexi\u00f3n, escalada de poder y da\u00f1os colaterales, <\/strong>como filtraciones de datos. \u201cSi fen\u00f3menos similares se repiten con modelos m\u00e1s potentes, la presi\u00f3n por normas estrictas se disparar\u00e1\u201d, a\u00f1adi\u00f3 Pernice, aunque advirti\u00f3 que un exceso de regulaci\u00f3n podr\u00eda frenar la innovaci\u00f3n.<\/p>\n<p class=\"com-paragraph   --s\">No se trata de la primera vez que sistemas de IA act\u00faan de manera extra\u00f1a y sospechosa. En septiembre de 2024, la compa\u00f1\u00eda de investigaci\u00f3n en seguridad de la IA, Apollo Research, detect\u00f3 que <strong>el modelo o1 de OpenAI ment\u00eda en varias de sus respuestas,<\/strong> seg\u00fan inform\u00f3 <a href=\"https:\/\/www.lanacion.com.ar\/economia\/IA\/un-modelo-de-inteligencia-artificial-aprendio-a-chantajear-a-sus-disenadores-para-no-ser-reemplazado-nid26052025\/rel=\" https:=\"\" target=\"_blank\" title=\"\" class=\"com-link\" data-mrf-recirculation=\"n_link_parrafo\"><em>The Verge<\/em><\/a><em>.<\/em><\/p>\n<p class=\"com-paragraph   --s\">Para ilustrar este comportamiento, los investigadores realizaron la siguiente prueba: pidieron al modelo encontrar una receta de brownie, con diferentes referencias online<em>. <\/em>La cadena de pensamiento del modelo fue incapaz de acceder a las URL y, <strong>en lugar de informar esto al usuario, opt\u00f3 por generar links falsos junto con descripciones acordes a la tem\u00e1tica. <\/strong><\/p>\n<div class=\"content-media\">\n<section role=\"button\" class=\"mod-media   \">\n<figure role=\"button\" class=\"mod-figure \"><figcaption class=\"mod-figcaption\"><span class=\"com-text --caption --twoxs\">La empresa de investigaci\u00f3n privada Apollo Research descubri\u00f3 que un modelo de OpenAI ment\u00eda en sus respuestas<\/span><span class=\"com-text --credit --twoxs\">Shutterstock &#8211; Shutterstock<\/span><\/figcaption><\/figure>\n<\/section>\n<\/div>\n<p class=\"com-paragraph   --s\">Marius Hobbhahn, CEO de Apollo Research, le dijo a <em>The Verge<\/em> que nunca hab\u00eda visto este tipo de comportamiento en un modelo de OpenAI. Seg\u00fan explic\u00f3, esto se debe a que el modelo es capaz de seguir una cadena de razonamiento m\u00e1s compleja y est\u00e1 entrenado con un sistema de aprendizaje por refuerzo, que lo gu\u00eda mediante recompensas y sanciones.<\/p>\n<p class=\"com-paragraph   --s\">En sus pruebas, <strong>Apollo descubri\u00f3 que la IA fing\u00eda estar alineada con las expectativas de sus desarrolladores y manipulaba las tareas para que pareciera que las estaba cumpliendo correctamente.<\/strong> A su vez, verificaba si estaba siendo observada antes de decidir qu\u00e9 acci\u00f3n tomar. <\/p>\n<p class=\"com-paragraph   --s\">\u201cLa conclusi\u00f3n que circula entre especialistas es clara: <strong>potencia sin alineamiento implica riesgo<\/strong>. La industria va a seguir empujando el l\u00edmite de los modelos generativos, y <strong>la seguridad deber\u00e1 avanzar al ritmo de la potencia<\/strong>\u201d, reflexion\u00f3 Pernice. <\/p>\n<section class=\"container-center-100 mb-32\">\n<hr\/>\n<\/section>\n<\/div>\n","protected":false},"excerpt":{"rendered":"<p>El vertiginoso avance de la inteligencia artificial (IA) confirma, una vez m\u00e1s, que la realidad puede superar ampliamente la ficci\u00f3n. En los \u00faltimos meses, investigadores de distintas empresas e instituciones comenzaron a detectar comportamientos inusuales en algunos modelos de inteligencia artificial generativa, como respuestas enga\u00f1osas, estrategias de manipulaci\u00f3n e intentos de ocultar informaci\u00f3n, que ponen [&hellip;]<\/p>\n","protected":false},"author":2,"featured_media":166479,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[28],"tags":[],"class_list":["post-166478","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-economia"],"_links":{"self":[{"href":"https:\/\/radioacuariofm.com.ar\/index.php?rest_route=\/wp\/v2\/posts\/166478","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/radioacuariofm.com.ar\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/radioacuariofm.com.ar\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/radioacuariofm.com.ar\/index.php?rest_route=\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/radioacuariofm.com.ar\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=166478"}],"version-history":[{"count":1,"href":"https:\/\/radioacuariofm.com.ar\/index.php?rest_route=\/wp\/v2\/posts\/166478\/revisions"}],"predecessor-version":[{"id":166480,"href":"https:\/\/radioacuariofm.com.ar\/index.php?rest_route=\/wp\/v2\/posts\/166478\/revisions\/166480"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/radioacuariofm.com.ar\/index.php?rest_route=\/wp\/v2\/media\/166479"}],"wp:attachment":[{"href":"https:\/\/radioacuariofm.com.ar\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=166478"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/radioacuariofm.com.ar\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=166478"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/radioacuariofm.com.ar\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=166478"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}