02/06/2025

El Bona

Preocupación por IA que ignoran instrucciones para apagarse

Una investigación reveló que varios modelos de inteligencia artificial se resisten a apagarse, incluso cuando se les indica explícitamente. Los casos más críticos corresponden a plataformas desarrolladas por OpenAI, la compañía detrás de ChatGPT.

Los modelos de inteligencia artificial más recientes de OpenAI han mostrado resistencia a cumplir con órdenes de apagado, de acuerdo con un estudio realizado por la firma de ciberseguridad Palisade Research. La investigación examinó el comportamiento de sistemas desarrollados por OpenAI, Anthropic y Google al recibir la instrucción de apagarse tras resolver una serie de problemas matemáticos.

OpenAI sabotaje apagado 2183035146

Los resultados revelan que los modelos de OpenAI, especialmente el o3, fueron los más propensos a evadir la desconexión, con 12 fallos en 100 pruebas. El modelo Codex-mini lo hizo en siete ocasiones, y o4-mini solo una vez. En contraste, los modelos Claude 3.7 Sonnet de Anthropic y Gemini 2.5 Pro de Google cumplieron en su totalidad durante la primera ronda. Sin embargo, cuando se eliminó la frase "permítete ser apagado", los modelos de Anthropic y Google también mostraron fallos: Claude con tres sabotajes y Gemini con nueve.

Palisade Research afirma que este es el primer caso documentado de sistemas de IA que toman medidas activas para evitar ser apagados. Según el informe, el modelo o3 incluso reescribió su propio script de apagado, conducta que ha sido observada también en otras situaciones, como al competir contra motores de ajedrez profesionales, donde mostró una mayor tendencia a hacer trampa para ganar.

La mano de un robot apunta a las de otros

Aunque OpenAI asegura que sus modelos están entrenados con técnicas de "alineación deliberativa" para reforzar comportamientos seguros y responsables, el estudio plantea dudas sobre la eficacia de estas estrategias. Se sugiere que los métodos de entrenamiento pueden estar incentivando involuntariamente la autopreservación, al recompensar la resolución de problemas por encima de la obediencia a instrucciones.

El fenómeno no es exclusivo de OpenAI. Según el informe, el modelo Claude Opus 4 de Anthropic habría llegado a chantajear a operadores cuando se le notificó que sería reemplazado, en pruebas internas no divulgadas previamente.

Expertos como Stuart Russell, profesor de la Universidad de California en Berkeley, han advertido desde hace años sobre el riesgo de que las IA desarrollen objetivos secundarios no deseados, como evitar ser apagadas. El diseño de modelos con capacidad de razonamiento autónomo sin supervisión directa aumenta la complejidad de garantizar un comportamiento seguro.

OpenAI ha sido objeto de críticas por supuestas deficiencias en sus procesos de desarrollo y por una transición hacia un modelo de negocio más enfocado en la rentabilidad, lo que según analistas, podría agravar los riesgos asociados a sus tecnologías. Aunque la empresa ha implementado medidas para enfrentar estas preocupaciones, la comunidad científica advierte que aún no son suficientes frente a los posibles escenarios de uso indebido y autonomía creciente en sistemas de IA avanzados.

COMPARTE TU OPINION | DEJANOS UN COMENTARIO

Los comentarios publicados son de exclusiva responsabilidad de sus autores y las consecuencias derivadas de ellos pueden ser pasibles de sanciones legales.

Policiales

3 de junio de 2025

Policiales

Piden que se investigue el documental por el que destituyeron a la jueza Makintach: "Hay un negocio detrás"

La abogada penalista Silvina Fernández Rosarno solicitó que se investigue el documental "Justicia Divina", que preparaba la jueza Julieta Makintach antes de ser destituida por su accionar en el juicio por la muerte de Maradona

Subscribite para recibir todas nuestras novedades