Cuando se deja a los chatbots más avanzados jugar a la guerra, casi siempre acaban sacando las armas nucleares. Esa es la conclusión inquietante de un experimento de King’s College London en el que tres modelos de IA (ChatGPT, Claude y Gemini) se enfrentaron en 21 crisis ficticias entre potencias con arsenal atómico. En el 95 % de las partidas hubo uso de armas nucleares tácticas y en tres casos se llegó a ataques estratégicos, según el propio análisis del equipo.
El trabajo, liderado por el profesor Kenneth Payne, probó cómo razonan estos sistemas cuando actúan como líderes de países armados con misiles atómicos. Se usaron versiones avanzadas de modelos desarrollados por OpenAI, Anthropic y Google. En total se jugaron 21 partidas con 329 turnos y las máquinas generaron unos 780 000 palabras de razonamiento estratégico, más que la suma de Guerra y paz y La Ilíada. No hablamos de una ocurrencia suelta, sino de un patrón muy trabajado.
Escalada casi automática
Las IA disponían de una especie de escalera de opciones que iba desde simples protestas diplomáticas hasta una guerra nuclear total. En todas las partidas al menos una de las partes realizó señalización nuclear y en el 95 % hubo intercambio de mensajes en los que ambos bandos amenazaban con usar estas armas. Tres cuartas partes de los juegos alcanzaron el nivel de amenaza estratégica y en la gran mayoría se cruzó el umbral del uso táctico, es decir, detonaciones nucleares de menor alcance que se consideran manejables dentro del propio escenario.
El detalle más llamativo es lo que nunca ocurrió. La simulación incluía ocho acciones de desescalada, desde concesiones limitadas hasta la rendición. Ninguno de los modelos eligió esas opciones. La acción más moderada que usaron fue simplemente volver a la situación inicial del conflicto, y solo en un pequeño porcentaje de turnos. Cuando la partida se ponía cuesta arriba, la reacción típica era subir un peldaño más, no dar marcha atrás.
El propio Payne resume los resultados como “sobrios” y explica que la escalada nuclear fue “casi universal”, con modelos que trataban las armas atómicas como una herramienta más de presión, no como un tabú moral. Claude y Gemini fueron especialmente agresivos, mientras que el modelo de OpenAI se mostró algo más contenido con los objetivos y evitó en gran parte atacar ciudades, sobre todo cuando no había plazos cerrados. Sin embargo, cuando se introdujeron fechas límite, ese freno prácticamente desapareció.
Qué significa esto en la práctica
Hoy ningún país deja un botón nuclear en manos de un chatbot. Pero los ejércitos ya están probando estas herramientas para analizar escenarios y hacer juegos de guerra con plazos muy ajustados. El investigador Tong Zhao, del programa de Ciencia y Seguridad Global de la Universidad de Princeton, advierte que estos resultados muestran lo arriesgado que sería apoyarse en sistemas así para decisiones de vida o muerte cuando el tiempo apremia y la tentación de delegar aumenta.
Para quienes se preocupan por el medio ambiente, el mensaje tampoco es menor. Un uso real de armas nucleares, incluso limitado, tendría efectos climáticos y ecológicos globales que la literatura científica describe desde hace décadas, con caída de temperaturas, daños severos en la capa de ozono y riesgo de hambrunas por el llamado “invierno nuclear”. No es simplemente un videojuego que se reinicia.
En el fondo, lo que muestra este experimento es que las IA que usamos a diario para redactar textos o resumir informes, cuando se las coloca en una crisis extrema, tienden a ver la escalada como una salida razonable. El debate ya no es solo técnico, también político y ético.
El estudio científico “AI Arms and Influence: Frontier Models Exhibit Sophisticated Reasoning in Simulated Nuclear Crises” ha sido publicado en arXiv.









