02/06/2025
Una investigación reveló que varios modelos de inteligencia artificial se resisten a apagarse, incluso cuando se les indica explícitamente. Los casos más críticos corresponden a plataformas desarrolladas por OpenAI, la compañía detrás de ChatGPT.
Los modelos de inteligencia artificial más recientes de OpenAI han mostrado resistencia a cumplir con órdenes de apagado, de acuerdo con un estudio realizado por la firma de ciberseguridad Palisade Research. La investigación examinó el comportamiento de sistemas desarrollados por OpenAI, Anthropic y Google al recibir la instrucción de apagarse tras resolver una serie de problemas matemáticos.
Los resultados revelan que los modelos de OpenAI,
especialmente el o3, fueron los más propensos a evadir la desconexión, con 12
fallos en 100 pruebas. El modelo Codex-mini lo hizo en siete ocasiones, y
o4-mini solo una vez. En contraste, los modelos Claude 3.7 Sonnet de Anthropic
y Gemini 2.5 Pro de Google cumplieron en su totalidad durante la primera ronda.
Sin embargo, cuando se eliminó la frase "permítete ser apagado", los modelos de
Anthropic y Google también mostraron fallos: Claude con tres sabotajes y Gemini
con nueve.
Palisade Research afirma que este es el primer caso documentado de sistemas de IA que toman medidas activas para evitar ser apagados. Según el informe, el modelo o3 incluso reescribió su propio script de apagado, conducta que ha sido observada también en otras situaciones, como al competir contra motores de ajedrez profesionales, donde mostró una mayor tendencia a hacer trampa para ganar.
Aunque OpenAI asegura que sus modelos están
entrenados con técnicas de "alineación deliberativa" para reforzar
comportamientos seguros y responsables, el estudio plantea dudas sobre la
eficacia de estas estrategias. Se sugiere que los métodos de entrenamiento
pueden estar incentivando involuntariamente la autopreservación, al recompensar
la resolución de problemas por encima de la obediencia a instrucciones.
El fenómeno no es exclusivo de OpenAI. Según el
informe, el modelo Claude Opus 4 de Anthropic habría llegado a chantajear a
operadores cuando se le notificó que sería reemplazado, en pruebas internas no
divulgadas previamente.
Expertos como Stuart Russell, profesor de la
Universidad de California en Berkeley, han advertido desde hace años sobre el
riesgo de que las IA desarrollen objetivos secundarios no deseados, como evitar
ser apagadas. El diseño de modelos con capacidad de razonamiento autónomo sin
supervisión directa aumenta la complejidad de garantizar un comportamiento
seguro.
OpenAI ha sido objeto de críticas por supuestas
deficiencias en sus procesos de desarrollo y por una transición hacia un modelo
de negocio más enfocado en la rentabilidad, lo que según analistas, podría
agravar los riesgos asociados a sus tecnologías. Aunque la empresa ha
implementado medidas para enfrentar estas preocupaciones, la comunidad
científica advierte que aún no son suficientes frente a los posibles escenarios
de uso indebido y autonomía creciente en sistemas de IA avanzados.
COMPARTE TU OPINION | DEJANOS UN COMENTARIO
Los comentarios publicados son de exclusiva responsabilidad de sus autores y las consecuencias derivadas de ellos pueden ser pasibles de sanciones legales.
3 de junio de 2025
3 de junio de 2025
3 de junio de 2025
3 de junio de 2025