02/06/2025

El Bona

Preocupación por IA que ignoran instrucciones para apagarse

Una investigación reveló que varios modelos de inteligencia artificial se resisten a apagarse, incluso cuando se les indica explícitamente. Los casos más críticos corresponden a plataformas desarrolladas por OpenAI, la compañía detrás de ChatGPT.

Aunque OpenAI asegura que sus modelos están entrenados con técnicas de "alineación deliberativa" para reforzar comportamientos seguros y responsables.

Los modelos de inteligencia artificial más recientes de OpenAI han mostrado resistencia a cumplir con órdenes de apagado, de acuerdo con un estudio realizado por la firma de ciberseguridad Palisade Research. La investigación examinó el comportamiento de sistemas desarrollados por OpenAI, Anthropic y Google al recibir la instrucción de apagarse tras resolver una serie de problemas matemáticos.

OpenAI sabotaje apagado 2183035146

Los resultados revelan que los modelos de OpenAI, especialmente el o3, fueron los más propensos a evadir la desconexión, con 12 fallos en 100 pruebas. El modelo Codex-mini lo hizo en siete ocasiones, y o4-mini solo una vez. En contraste, los modelos Claude 3.7 Sonnet de Anthropic y Gemini 2.5 Pro de Google cumplieron en su totalidad durante la primera ronda. Sin embargo, cuando se eliminó la frase "permítete ser apagado", los modelos de Anthropic y Google también mostraron fallos: Claude con tres sabotajes y Gemini con nueve.

Palisade Research afirma que este es el primer caso documentado de sistemas de IA que toman medidas activas para evitar ser apagados. Según el informe, el modelo o3 incluso reescribió su propio script de apagado, conducta que ha sido observada también en otras situaciones, como al competir contra motores de ajedrez profesionales, donde mostró una mayor tendencia a hacer trampa para ganar.

La mano de un robot apunta a las de otros

Aunque OpenAI asegura que sus modelos están entrenados con técnicas de "alineación deliberativa" para reforzar comportamientos seguros y responsables, el estudio plantea dudas sobre la eficacia de estas estrategias. Se sugiere que los métodos de entrenamiento pueden estar incentivando involuntariamente la autopreservación, al recompensar la resolución de problemas por encima de la obediencia a instrucciones.

El fenómeno no es exclusivo de OpenAI. Según el informe, el modelo Claude Opus 4 de Anthropic habría llegado a chantajear a operadores cuando se le notificó que sería reemplazado, en pruebas internas no divulgadas previamente.

Expertos como Stuart Russell, profesor de la Universidad de California en Berkeley, han advertido desde hace años sobre el riesgo de que las IA desarrollen objetivos secundarios no deseados, como evitar ser apagadas. El diseño de modelos con capacidad de razonamiento autónomo sin supervisión directa aumenta la complejidad de garantizar un comportamiento seguro.

OpenAI ha sido objeto de críticas por supuestas deficiencias en sus procesos de desarrollo y por una transición hacia un modelo de negocio más enfocado en la rentabilidad, lo que según analistas, podría agravar los riesgos asociados a sus tecnologías. Aunque la empresa ha implementado medidas para enfrentar estas preocupaciones, la comunidad científica advierte que aún no son suficientes frente a los posibles escenarios de uso indebido y autonomía creciente en sistemas de IA avanzados.

COMPARTE TU OPINION | DEJANOS UN COMENTARIO

Los comentarios publicados son de exclusiva responsabilidad de sus autores y las consecuencias derivadas de ellos pueden ser pasibles de sanciones legales.

Policiales

3 de junio de 2025

Policiales

Piden que se investigue el documental por el que destituyeron a la jueza Makintach: "Hay un negocio detrás"

La abogada penalista Silvina Fernández Rosarno solicitó que se investigue el documental "Justicia Divina", que preparaba la jueza Julieta Makintach antes de ser destituida por su accionar en el juicio por la muerte de Maradona

Sociedad

3 de junio de 2025

Sociedad

#NiUnaMenos: en diez años se registraron 2.590 femicidios en Argentina

Política

3 de junio de 2025

Política

Categorías

Preocupación por IA que ignoran instrucciones para apagarse

Piden que se investigue el documental por el que destituyeron a la jueza Makintach: "Hay un negocio detrás"

Sociedad

#NiUnaMenos: en diez años se registraron 2.590 femicidios en Argentina

Política

Fernando Gray sobre el Garrahan: "Debemos defender a este hospital público de referencia y a sus profesionales"

Policiales

La Matanza: detienen a una mujer acusada de extorsionar a su amante con fotos íntimas

Nacionales

El Gobierno aplicó nuevos aumentos en las tarifas de luz y gas

El Bona

Un lazo que sana: así ayudan los perros a los chicos con autismo

Policiales

Violenta entradera en Mar del Plata: golpearon a un hombre de 80 años y huyeron con dinero

El Bona

Historias de noche: sobre la vida de personas que eligen trabajar a contramano del sol

Polìtica

Sin margen ni caja: crece la inquietud de los gobernadores por la recaudación

El Bonaerense

Contacto

Categorías

Preocupación por IA que ignoran instrucciones para apagarse

Sociedad

Política

Policiales

Nacionales

El Bona

Policiales

El Bona

Polìtica

Suscripción realizada con éxito

El Bonaerense

Contacto