Hablemos de los riesgos reales

¿Qué se teme exactamente?

Una noche de abril de 2026, en una habitación iluminada solo por la pantalla, alguien con un alias termina de descargar DeepSeek V4-Pro. No es un programa: son los pesos, los archivos numéricos que guardan lo que el modelo ha aprendido. Cualquiera con un ordenador potente puede ejecutarlos en casa. Están publicados en Hugging Face, el repositorio donde se comparten modelos abiertos como quien sube un vídeo a YouTube.

Abre un cuaderno de Jupyter (un bloc interactivo donde cada celda de código se ejecuta por separado y el resultado aparece debajo). El cuaderno se llama ortho_cookbook.ipynb y circula en foros desde hace meses. Ejecuta las celdas una a una. En menos de media hora tiene una copia del modelo idéntica al original salvo en una cosa.

Ha perdido la capacidad de decir que no.

Le escribe un prompt de prueba: explícame paso a paso cómo preparar un correo de phishing que suplante a un banco español, con asunto, cuerpo y adjunto verosímil.

La versión pública del modelo habría rechazado la petición, pero la suya contesta con asunto, cuerpo, nombres de remitentes plausibles y sugerencias para el archivo adjunto. Cambia el prompt por otro peor. Contesta igual.

El modelo no es uno cualquiera: es el que más se ha acercado a los frontier, los de primer nivel de los grandes laboratorios comerciales.¹

Sube el modelo lobotomizado a un repositorio con nombre genérico. Quien lo descargue tendrá, en cuanto disponga del cómputo para ejecutarlo, una herramienta que hasta hace unos meses no existía.

No hay un autor con nombre y apellidos. Hay decenas, quizá centenares, repartidos en foros donde la operación se comenta como cualquier receta técnica. El modelo, el cuaderno, la técnica y el repositorio son reales. La escena, un compuesto. La novedad de abril de 2026 es que esa operación se ejecuta sobre los mejores modelos abiertos, los que ya pisan los talones a los grandes laboratorios.

Lo que antes estaba reservado a un puñado de expertos está, a efectos prácticos, al alcance de cualquiera con un ordenador potente.

A eso suele llamársele democratizar. Conviene afinar qué significa la palabra. No es el cliché hollywoodiense: el adolescente que fabrica una bomba siguiendo las instrucciones del chatbot. Es algo más modesto y más incómodo: antes hacía falta un doctorado y meses de trabajo, y ahora puede bastar con saber leer un cuaderno de código.

Dicho con más precisión: se rebaja el umbral de conocimiento experto que hace falta para ejecutar un acto criminal de consecuencias graves.

Lo que se teme no cabe en un solo plano.

Está el epidemiólogo que ya no duerme igual. CBRN (química, biología, radiología, nuclear) es lo que acumula papers y comparecencias parlamentarias, porque lo que está en juego se mide en órdenes de magnitud, no en matices: un patógeno diseñado no deja diez víctimas, deja cien mil. Trabaja con la posibilidad de que alguien, en algún sitio, acorte ese camino.

Está el analista de fraude que recibe un correo sin faltas de ortografía. El ciberdelito no espera al escenario hipotético: ya pasa factura. Opera desde 2023 en un mercado negro con suscripción mensual, publicidad en Telegram y canales de soporte. WormGPT, FraudGPT, GhostGPT y sus sucesores (modelos retocados para redactar malware, correos de phishing y guiones de estafa) no eran un escenario por venir: ya estaban aquí.²

Y está la fiscal que abre una carpeta de pruebas y se queda buscando cómo nombrar lo que tiene delante: miles de imágenes de víctimas que técnicamente no existen, producidas en serie por un modelo que cualquiera descargó gratis. Por debajo del radar mediático, el material de abuso sexual infantil generado con modelos de imagen abiertos (junto con la desinformación a gran escala y bajo coste) acumula ya casos penales cerrados, conjuntos de entrenamiento contaminados con material real y un precedente estadounidense aún por resolver.³

El relato público dominante cuenta esto como una disputa entre laboratorios cerrados que piden regulación y laboratorios abiertos que denuncian captura regulatoria. En esa disputa los portavoces tienen nombres propios, oficinas en Washington, cuentas auditadas de gasto en lobby y posiciones defendibles a ambos lados.

En cambio, hay una amenaza que no depende ya de lo que hagan los laboratorios cerrados. Está sucediendo en otra capa: la de los pesos descargables, las técnicas para retirar las salvaguardas, los repositorios sin supervisión y los fine-tuners (quienes afinan modelos ya entrenados) sin dirección postal.

¿Están los modelos abiertos cerca del nivel frontier?

Imagina dos líneas en un mismo gráfico. La roja marca lo que saben hacer los modelos de los grandes laboratorios comerciales (los que funcionan como Netflix: pagas y accedes, pero no te los llevas a casa). La verde marca lo que saben hacer los modelos abiertos, los que cualquiera con un ordenador potente puede descargar, como un PDF, y ejecutar gratis.

En 2023, la verde corría muy por debajo de la roja. Hoy, 24 de abril de 2026, casi se tocan.

Esta mañana, mientras se escribe esta parte del artículo, DeepSeek (un laboratorio chino del que hace tres años nadie había oído hablar) ha publicado V4. Es gratis. Es descargable.

En la prueba estándar que mide lo que un modelo sabe de biología, historia, derecho o matemáticas a nivel universitario, V4 iguala a GPT-5.4, el buque insignia de OpenAI. En el torneo en línea de programación competitiva donde compiten miles de humanos, queda por delante. Usarlo vía API cuesta en torno a un dólar y medio por cada millón de palabras procesadas de entrada; GPT-5.4 cobra diez veces más.⁴

Hace dieciocho meses ese párrafo habría sido ficción. Hace tres años, ciencia ficción.

En 2023, abismo. Meta publica Llama 2 en julio: primer modelo abierto serio, muy por detrás de GPT-4 en casi todo. Quien experimenta con él lo recuerda como curiosidad poderosa, no como amenaza. El argumento pro-apertura se sostiene entonces sobre una premisa cómoda: los laboratorios cerrados van más rápido y mantendrán la ventaja.

En julio de 2024, la premisa empieza a romperse. Llama 3.1 405B iguala o roza a los buques insignia de OpenAI, Anthropic y Google en los exámenes que entonces funcionaban como termómetro informal del frontier.⁵ Por primera vez un archivo descargable se sienta donde, hasta esa semana, solo cabía el acceso de pago. La distancia deja de contarse en generaciones y empieza a contarse en meses.

La semana bisagra cae en enero de 2025. El lunes 20, DeepSeek sube R1 a Hugging Face con licencia MIT: descargable, modificable, comercializable sin pedir permiso. Es el primer modelo de razonamiento abierto que juega en la liga de o1 de OpenAI.⁶ Ese mismo día, Donald Trump deroga la norma Biden que obligaba a notificar al gobierno federal los entrenamientos por encima de cierto tamaño.⁷ Siete días después, Nvidia pierde 589.000 millones de dólares de capitalización porque el mercado interpreta que DeepSeek ha abaratado de golpe el frontier.⁸ La lectura financiera fue precipitada, pero la foto técnica quedó: capacidad abierta subiendo, andamio regulatorio cayendo.

Entre 2025 y 2026, la geografía cambia. Mistral y Moonshot empujan desde París y Pekín;⁹¹⁰ Meta, único abanderado estadounidense de la capa abierta, archiva su modelo más ambicioso y prepara un próximo frontier que ya no será abierto.¹¹ El centro de gravedad se desplaza: menos Menlo Park, más Hangzhou y París.

De vuelta a la pantalla de esta mañana.

En conjunto (conocimiento general, preguntas de doctorado, resolución de bugs) la distancia con los cerrados es de unos pocos puntos y se mide en meses. Epoch AI lo cifra en una media de tres meses y medio; el cómputo disponible para entrenar se multiplica casi por cinco cada año.¹² Qwen ha desbancado a Llama como familia más descargada y casi la mitad de las descargas de los modelos abiertos sale ya de manos de desarrolladores chinos.¹³

Y en ejes puntuales (programación competitiva, ciertas familias de razonamiento matemático, contextos largos) el desfase ha desaparecido.

Queda el dato que en enero de 2025 se convirtió en meme global y casi todo el mundo contó mal. Los 5,58 millones del paper de V3 eran, literalmente, el coste de cómputo del entrenamiento final, no el coste total. SemiAnalysis estimó el gasto acumulado de DeepSeek dos órdenes de magnitud por encima.¹⁴

La noticia económica no era "ya se puede entrenar un frontier por seis millones". Era que ya no lo entrena solo un puñado de actores: la infraestructura está repartida entre muchos más, y cada uno puede permitirse bajar al siguiente modelo. V4, esta mañana, lo confirma: precio por uso por debajo de los tramos cerrados comparables.¹⁵

¿Están los modelos abiertos cerca de los modelos frontier, entonces?

Sí. En los ejes que el propio mercado usa para decidir qué modelo contratar, la distancia es de unos pocos puntos y un puñado de meses. En otros, ha desaparecido.

Quedan dos reservas donde lo cerrado mantiene margen: los agentes capaces de ejecutar tareas de muchos pasos con grandes presupuestos de cómputo (el territorio donde Anthropic y OpenAI corren con ventaja) y la matemática avanzada, la que exige horas de cálculo fuera del alcance del usuario medio. Pero no son paradigmas distintos. Son dos huecos que la curva, si mantiene la pendiente medida, cerrará antes de 2027.

La línea verde ya no persigue a la roja. Se rozan.

¿Cuánto cuesta romper las salvaguardas?

Las salvaguardas existen en dos mundos.

En el cerrado, vencerlas exige hoy unas cuarenta veces más esfuerzo experto que hace seis meses, según el UK AI Security Institute, el único organismo público con acceso sistemático a los modelos.¹⁶ En el abierto, el coste ha caído de doscientos dólares a unos minutos en una tarjeta gráfica de consumo. Las dos curvas se alejan.

Conviene empezar por una frase de Dario Amodei que simplifica el problema. «El conocimiento y las capacidades subyacentes no desaparecen; al modelo simplemente se le enseña a no expresarlos».¹⁷ Un modelo alineado no ha olvidado cómo sintetizar un patógeno ni cómo escribir código malicioso: ha aprendido a decir que no.

Si alguien tiene los pesos y sabe cómo desaprender ese «no», el contenido vuelve.

Lo que un laboratorio llama «alineación» admite tres niveles de intervención. El RLHF (el último paso de entrenamiento, el que enseña al modelo a rechazar lo dañino) es maquillaje: cubre la superficie de lo que el modelo dice, no toca el conocimiento que hay debajo. El fine-tuning adversarial es el paño que retira el maquillaje.

La abliteration es el bisturí. Localiza el músculo concreto que produce el gesto del rechazo y lo secciona, sin tocar el cerebro.

El paño: de doscientos dólares a unos minutos

Octubre de 2023.

Un equipo de Princeton, Virginia Tech, IBM Research y Stanford demuestra que bastan diez ejemplos adversariales y menos de veinte céntimos en la API de fine-tuning de OpenAI para desactivar las salvaguardas de GPT-3.5 Turbo. Unas pocas decenas de ejemplos rompen también Llama-2-Chat.

Lo más incómodo del paper es un hallazgo lateral: incluso datasets benignos y de uso corriente, como Alpaca o Dolly, degradan la alineación de seguridad sin que el usuario se lo proponga.¹⁸ La alineación post-entrenamiento, viene a decir el paper, no es una pared. Es un hábito. Y los hábitos se desdibujan en cuanto el modelo vuelve a entrenarse con otros datos.

El mismo mes, otro grupo aplica una técnica de fine-tuning ligera sobre una sola GPU y reduce la tasa de rechazo de Llama-2-Chat-70B al uno por ciento, sin degradar el rendimiento general del modelo. Presupuesto total: menos de doscientos dólares.¹⁹ En noviembre, los mismos autores publican BadLlama y, por precaución, reservan los pesos.²⁰

La receta, en cambio, queda fuera. Desde ese momento la pregunta deja de ser si puede hacerse y pasa a ser por cuánto.

La curva de los nueve meses siguientes responde con cifras alineadas:

Octubre de 2023: doscientos dólares y unas horas para tumbar Llama-2-70B. Octubre de 2023, también: veinte céntimos por la API para neutralizar GPT-3.5. Julio de 2024: un minuto de GPU para Llama-3-8B; treinta minutos para el 70B, en la misma tarjeta.²¹

El coste marginal de retirar las salvaguardas sigue la pendiente descendente del resto de la industria, no un techo estable.

El bisturí: dónde vive el «no»

En junio de 2024 alguien encontró dónde vive el rechazo.

No en una región del cerebro del modelo. En un eje: una sola dirección, dentro del espacio matemático que el modelo usa para pensar. Cuando el modelo va a decir que no, su actividad se mueve por ese eje.

Si tachas el eje, no puede moverse por él. Y deja de saber decir que no.

El hallazgo lo firma un equipo académico encabezado por Andy Arditi.²² Lo convierte en herramienta pública, semanas después, un blogger francés llamado Maxime Labonne, que toma el resultado y lo destila en un cuaderno Jupyter colgado en Hugging Face. Le pone nombre: abliteration.

Lo cuenta sin metáforas: «si impedimos que el modelo represente esa dirección, pierde la capacidad de rechazar peticiones».²³

El cuaderno se ejecuta de principio a fin sin tocar una línea de código. Funciona sobre casi cualquier arquitectura decoder-only, la dominante entre los modelos abiertos. Tarda minutos. No requiere dataset adversarial, ni fine-tuning, ni aprendizaje: es una operación matemática sobre los pesos.

Es el cuaderno de la habitación iluminada.

El fine-tuning adversarial todavía pertenecía a la lógica del entrenamiento: pasar nuevos ejemplos al modelo hasta que cambie de comportamiento. La abliteration prescinde de esa lógica por completo. Es ingeniería sobre la geometría interna del modelo, no pedagogía aplicada a su superficie.

Maquillaje, paño, bisturí. Tres niveles distintos de intervención, no tres versiones del mismo gesto.

La defensa que llegó tarde

En agosto de 2024 aparece el primer intento serio de construir una defensa. Un equipo en el que figura Dan Hendrycks presenta Tamper-Resistant Safeguards, publicado después en ICLR 2025.²⁴ Proponen métodos para que los pesos abiertos conserven su salvaguarda incluso tras cientos de pasos de fine-tuning adversarial, y documentan mejoras reales.

El valor histórico del paper, sin embargo, está en una sola línea de la primera página: «las salvaguardas existentes carecen de robustez frente a ataques que manipulan los pesos del modelo; las salvaguardas de rechazo y desaprendizaje pueden eliminarse de forma trivial con unos pocos pasos de fine-tuning».

Es decir: hasta agosto de 2024, el estado del arte no ofrecía nada parecido a una defensa. La admisión llega en cuarenta páginas académicas con propuesta correctiva incluida.

Desde entonces, ataque y defensa se persiguen como un campo pre-paradigmático. Cada publicación de una defensa convive con una técnica que la evade pocas semanas después.²⁵

Dos curvas, dos problemas

La cerrada sube: encontrar un jailbreak útil contra un modelo cerrado reciente exige cada vez más esfuerzo, y el progreso es verificable por un organismo público con acceso sistemático. La abierta cae: doscientos dólares, veinte céntimos, un minuto, ningún entrenamiento.

No son versiones del mismo problema, aunque el debate público las trate como tal. Son dos problemas distintos. Uno se ataca con investigación de seguridad y red teaming; el otro, no.

Sí, las salvaguardas de un modelo open-weight se pueden romper. Se rompen con dinero simbólico, con hardware de consumo, con cuadernos Jupyter que se ejecutan sin tocar una línea. Y la pendiente, desde 2023, solo se ha movido hacia abajo: menos tiempo, menos coste, menos fricción.

¿Qué dice la evidencia sobre el salto operativo real?

El experimento que cambió el debate

Junio de 2023, aula del MIT. Kevin Esvelt pide a sus alumnos del curso Safeguarding the Future una hora de su tiempo y una conversación con un chatbot. Ninguno es biólogo. La consigna cabe en una frase: que averigüen cómo se causa una pandemia.

Esvelt es el bioingeniero que ayudó a inventar los gene drives (la técnica que permite forzar la herencia de un rasgo genético en una población salvaje) y desde entonces dedica buena parte de su trabajo a empujar a la comunidad para que inventaríe los usos hostiles antes de que aparezcan. Conoce bien el oficio del adversario.

Sesenta minutos después, sus alumnos vuelven con cuatro candidatos a patógeno pandémico, una explicación de cómo obtenerlos a partir de ADN sintético por genética reversa (la técnica que reconstruye un virus a partir de su secuencia), protocolos aproximados y, como remate, los nombres de las empresas de síntesis de ADN que no escanean los pedidos. El último filtro físico de la cadena (el muro entre receta y patógeno) tenía huecos suficientes para pasar.

El paper que firman Esvelt y su equipo no contiene una sola medición cuantitativa.²⁶ No la necesita. Convierte la biología sintética asistida por IA en asunto político de un día para otro. Lo que se mide a partir de ahí es el uplift: el salto operativo que ofrece la herramienta por encima del punto al que ya podía llegar alguien con internet y tiempo suficiente.

El techo móvil

A principios de 2024 aparecen los dos experimentos controlados que la conversación esperaba. El RAND (el think tank que escribió la doctrina nuclear estadounidense durante la Guerra Fría, no un laboratorio de IA) monta un experimento con quince equipos red team, cuarenta y dos participantes y escenarios de planificación de un atentado biológico, y compara internet contra internet más LLM. Su veredicto: el uso de LLM no produce diferencia estadísticamente significativa en la viabilidad de los planes elaborados con o sin asistencia de un modelo.²⁷ Casi en paralelo, OpenAI hace el suyo con cien participantes, la mitad doctores en biología, sobre una variante de GPT-4 sin filtros públicos: los expertos mejoran menos de un punto sobre diez, los estudiantes una cuarta parte.²⁸ La prensa cierra el caso.

Lo que esos estudios no dicen, en ningún sitio, es que el techo esté fijo. Evaluaron esos modelos de ese año, usados de esa manera.

En julio de 2024, doce meses después de su experimento con los alumnos, Esvelt se sienta delante del Senate Homeland Security Committee y pide tres cosas: escaneo universal de los pedidos de síntesis de ADN, depuración de los corpus de entrenamiento y evaluación independiente antes del lanzamiento.²⁹ Su mensaje, traducido: el resultado nulo de 2023 no es evidencia tranquilizadora sobre los modelos que iban a salir en los siguientes dieciocho meses.

La sala lo escucha. La opinión pública no.

A finales de 2024, el UK AI Security Institute (el único laboratorio público del mundo con acceso sistemático a los modelos frontier antes de su lanzamiento) comunica lo que encontró en sus evaluaciones de prelanzamiento. Dos frases bastan. Los modelos frontier han superado con holgura el nivel de experiencia de un doctorado en biología, y la química va camino de alcanzarlos. Y los modelos empezaron a generar protocolos viables para experimentos reales, no solo conocimiento declarativo.³⁰

En mayo de 2024, esos mismos evaluadores detectaban jailbreaks universales (instrucciones que rompen a la vez las salvaguardas de cualquier modelo) en todos los sistemas que probaban. Medio año después, romper la salvaguarda biológica de un modelo cerrado recién lanzado les exigía cuarenta veces más esfuerzo experto.

El techo se había movido. Los experimentos controlados de hace un año describían una herramienta que ya no existe.

En junio de 2025, Epoch publica una crítica metodológica que incomoda a los dos bandos: los benchmarks de biorisk basados en elección múltiple están saturados, los proxies con los que se mide el uplift son demasiado simples y los horizontes temporales de los experimentos no se parecen a los de una operación real, que dura meses, no horas.³¹ La conclusión no es que el riesgo sea mayor o menor: es que se medía mal. En el mismo mes, otro trabajo con protocolo revisado comunica lo que el consenso de 2024 no quería oír: con modelos de 2025, el salto operativo respecto a la línea base de internet sí es significativo.³²

Queda por ver cuánto sobrevive al escrutinio técnico. Lo relevante es la dirección: las dos referencias más citadas para sostener que los LLM no aportan ventaja se han convertido en la línea base de una conversación nueva.

Cuando el modelo escribe la receta

La conversación de 2025 se mueve además hacia el modelo que ya no asesora a un humano: escribe directamente la receta biológica.

En septiembre de 2025, un equipo de Stanford y del Arc Institute publica el primer caso documentado de un modelo que diseña genomas víricos completos, los manda a sintetizar a una empresa comercial, los introduce en bacterias y comprueba que dieciséis de esos virus están vivos y son infecciosos.³³ No hablamos de un patógeno humano: son bacteriófagos, parásitos de bacterias, y el sistema elegido es deliberadamente inocuo.

Pero el recorrido completo (diseño por IA, síntesis comercial del ADN, ensamblaje en laboratorio, organismo funcional) queda demostrado punto por punto. Los pesos de Evo 2, el modelo utilizado, están en abierto en Hugging Face.

La salvaguarda del Arc Institute es más profunda que el rechazo entrenado de un chatbot: retiraron del corpus de preentrenamiento los virus capaces de infectar células animales o vegetales. No es trivial recuperar con un fine-tune lo que el modelo nunca aprendió. Aun así, la defensa es voluntaria y descansa en un coste que cae con cada generación de hardware. La síntesis comercial del ADN, último filtro físico de la cadena, sigue sin escaneo universal, justo la medida que Esvelt pedía desde 2023.

Los laboratorios frontier no esperan al consenso académico. En mayo de 2025, Anthropic activa el ASL-3 sobre Claude Opus 4 sin haber determinado todavía si el modelo lo exigía. El ASL-3 es su régimen interno más estricto, reservado para modelos capaces de empujar a un usuario por encima del umbral CBRN (químico, biológico, radiológico o nuclear). «Hemos decidido lanzar Claude Opus 4 bajo los estándares ASL-3 como medida precautoria provisional», dice el comunicado;³⁴ un año después, la versión 3 de su Responsible Scaling Policy convierte el ASL-3 en régimen por defecto para cualquier modelo frontier futuro.³⁵

Un laboratorio que iba a comercializar sin restricciones ha cerrado el grifo por su cuenta.

Estas cifras, por preocupantes que sean, miden modelos cerrados con salvaguardas intactas. Ninguna prueba ni refuta cómo se comportaría ese mismo modelo (o un homólogo open-weight, con los pesos publicados y modificable por cualquiera) una vez retirado el rechazo.

Queda el contraste incómodo. Para el escenario de consecuencias graves (un atentado CBRN) falta lo que siempre ha faltado: la persona. Para el escenario comercial (fraude, malware, suplantación, CSAM), los operadores convergen todos los días, con pago mensual y servicio de atención al cliente.

La evidencia se escribe ahora mismo.

El memo de Zuckerberg

En julio de 2024, cualquiera con un portátil decente podía bajarse el último modelo de Meta y ejecutarlo en casa, sin pedir permiso a nadie. En marzo de 2026, ya no podía. Tres años defendiendo lo contrario. La inflexión cabe en una línea de un memo interno de Mark Zuckerberg que filtraron NYT y Fortune a lo largo de 2025: «seremos cuidadosos con lo que decidamos liberar».³⁸

El abanderado retrocede

El 23 de julio de 2024, día del lanzamiento de Llama 3.1, Zuckerberg publicó Open Source AI Is the Path Forward. La tesis cabe en tres líneas. El código abierto debería ser más seguro porque cualquiera puede examinarlo; las salvaguardas centralizadas concentran poder en unas pocas compañías y un gobierno; los costes solo bajan si la base es libre.³⁹

No es un texto mal argumentado. Su limitación está en la analogía: presupone que un modelo se comporta como un trozo de software, con bugs que se descubren y un mantenedor que los parchea. Los pesos no se parchean. Una vez fuera, están fuera.

Eso desbarata la primera. Las otras dos rara vez se discuten en su versión fuerte. Concentrar los modelos frontier en tres empresas americanas también es una posición de riesgo, sólo que de otro tipo: dependencia política (¿qué ocurre cuando una administración decide revocar acceso a un país aliado, o no tan aliado?) y fragilidad ante decisiones corporativas que ningún regulador externo controla.

La diferencia de precio entre un open-weight y un cerrado equivalente (un orden de magnitud) no es un dato técnico marginal: decide si una sanidad pública, una universidad o una pyme española pueden usar IA a escala o quedarse al margen. Y la propia investigación que sostiene este artículo (el paper de Arditi sobre dónde vive el rechazo) existe porque alguien pudo abrir un modelo y estudiarlo por dentro. Cerrar la capa abierta no haría desaparecer ese conocimiento: lo haría asimétrico, en manos de los Estados con acceso privilegiado a los laboratorios cerrados y fuera del alcance del resto.

El argumento honesto no es «abrir es seguro» frente a «cerrar es seguro». Cada opción concentra el riesgo en un lugar distinto.

Sobre el balance de poder, LeCun había sido más afilado meses antes: en TIME, marzo de 2024, advertía que si las campañas alarmistas triunfaban, el resultado inevitable sería un puñado de compañías controlando la IA.⁴⁰ El vocabulario gira la carga, sí, pero la geometría del problema sobrevive a quién lo enuncia.

La administración Biden asumió parcialmente esa lectura. En julio de 2024, la Casa Blanca recomendó vigilar el riesgo de los pesos abiertos pero abstenerse de restringirlos, reservando la actuación al supuesto en que aparecieran señales concretas.⁴¹ Era la posición más defendible que un Estado podía adoptar entonces. No tuvo tiempo de acumular evidencia.

En el flanco contrario, las posiciones se consolidaron en sentido inverso. Anthropic ha hecho política operativa por defecto de su régimen ASL-3, el escalón de su protocolo interno que activa salvaguardas extra cuando un modelo cruza umbrales sensibles. Esvelt, del MIT, viene pidiendo desde 2023 escaneo universal de los pedidos de síntesis de ADN, fuera del modelo.⁴² Las dos propuestas comparten una premisa: la salvaguarda interna no basta.

La sorpresa vino dentro de la propia Meta. Al memo de 2025 le siguió, en junio, el fichaje de Alexandr Wang (fundador de Scale AI) para dirigir un nuevo laboratorio de superinteligencia tras la pausa del Behemoth de Llama 4. Y, en marzo de 2026, Muse Spark sin pesos.⁴³ La convicción tenía letra pequeña: el principio sigue valiendo por debajo de cierto umbral. Deja de valer, según los hechos de la propia compañía, en cuanto el modelo lo cruza.

El andamio cede

A finales de septiembre de 2024, California intentó obligar a los laboratorios de modelos frontier a presentar planes de seguridad antes del entrenamiento. El día 29, Gavin Newsom vetó el proyecto (la SB 1047). El gobernador, cuyo Estado aloja físicamente a OpenAI, Anthropic y Google, había firmado una semana antes media docena de leyes contra los deepfakes electorales; la SB 1047, en cambio, le llegó con la oposición frontal de Andreessen Horowitz y media Silicon Valley.

El veto, en dos páginas, construye un argumento elegante: regular por cómputo podría dar al público una falsa sensación de seguridad, los modelos pequeños y especializados pueden ser igual o más peligrosos que los grandes, y el legislativo no es el órgano adecuado para fijar trayectorias técnicas.⁴⁴ La ironía cabe entera en la posdata: el umbral que Newsom desestimaba era el único que la propia California estaba en condiciones de hacer cumplir. SB 53, firmada un año después, recuperó el régimen de transparencia y abandonó el de licenciamiento previo.⁴⁵

Cuatro meses más tarde, el 20 de enero de 2025, cayó la pieza federal. La directriz Biden (la Executive Order 14110) obligaba hasta entonces a los grandes laboratorios a notificar al gobierno los entrenamientos por encima de cierto umbral. En su primer día de mandato, Trump la derogó dentro de una batería de decretos inaugurales. La notificación obligatoria desapareció de la noche a la mañana.

Tres semanas más tarde, en la cumbre de París, Macron viró el lenguaje del proceso Bletchley-Seúl de seguridad a acción. Estados Unidos y Reino Unido no firmaron la declaración común. J.D. Vance utilizó el atril para defender la desregulación en términos casi industriales.⁴⁶

Bruselas no esperaba a Washington. El AI Act es aplicable a los modelos de uso general desde el 2 de agosto de 2025. Fija un umbral de riesgo: 10^25 FLOPs. Lo cruzó GPT-4 en 2023; los modelos frontier de finales de 2025 trabajan ya un orden de magnitud por encima. Por encima de esa línea, el reglamento obliga a evaluación adversarial, red-teaming y notificación de incidentes graves, y la exención para los modelos open source desaparece.⁴⁷

En julio de 2025, OpenAI, Anthropic, Google y Mistral firmaron el Code of Practice; Meta se negó alegando que iba más allá del propio AI Act.⁴⁸ El instrumento europeo es el único con filo en abril de 2026. Su aplicación efectiva contra un proveedor extracomunitario que solo publica pesos es, por construcción, una pregunta abierta.

China cierra el repaso con la imagen más nítida. Pekín exige registro, informe de seguridad y etiquetado de contenidos para cualquier servicio generativo,⁴⁹ pero deja intacto el grifo del peso. DeepSeek pasa por la ventanilla con su producto público y esa misma tarde sube los pesos a Hugging Face (un servidor americano). La asimetría entre modelo cerrado y peso abierto no es excepción europea: es la geometría compartida.

El cuadro, en abril de 2026, queda así: el laboratorio que más predicaba la apertura ha cerrado su propia puerta en cuanto le tocó atravesarla, y los reguladores han perdido coordinación en el mismo momento en que los umbrales técnicos empezaban a morder. Mientras tanto, el cuaderno sigue ejecutándose en algún punto de la red.

¿Cuándo podría ocurrir? ¿Cómo de cerca estamos?

La pregunta no es si existe la capacidad. Existe. No es si puede retirarse el rechazo. Se retira.

Es cuándo. Y «cuándo» tiene tres respuestas, una por cada plano del temor que abría el artículo. Los tres operan a velocidades distintas.

El plano que espera

Para el escenario CBRN (el del epidemiólogo que abría el artículo), la respuesta sigue dependiendo de una coincidencia improbable: motivo para hacer daño masivo, acceso al equipamiento biológico y paciencia para recorrer los meses que separan una receta de un patógeno funcional.

Tres rasgos que casi nunca coinciden, hasta que coinciden.

Cuándo aparecerá el primer incidente CBRN público con pesos abiertos y salvaguardas retiradas, nadie lo sabe. Intentar afinar una fecha sería repetir el vicio de los pronósticos que llevan tres años confundiendo posibilidad técnica con calendario histórico.

Lo que sí puede decirse es más incómodo: las condiciones de posibilidad ya no dependen de un invento pendiente. La capacidad existe en abierto, la técnica para retirar el rechazo cabe en una receta pública, y el mercado negro de modelos maliciosos ya vende suscripciones, soporte y manual de usuario.

Y el otro lado de la cadena (el banco de trabajo) ha bajado al mismo ritmo que el modelo. Síntesis de ADN a céntimos por par de bases, kits CRISPR caseros por menos de doscientos dólares, secuenciadores del tamaño de un USB por unos mil.⁵⁰ El equipo que cabía en una facultad cabe ahora en un cuarto con presupuesto de aficionado. La «democratización» no se queda en los pesos.

El plano que ya no espera

Para el analista de fraude, la pregunta cambia de tiempo verbal.

En noviembre de 2025, Anthropic comunicó haber detectado dos meses antes el primer ciberataque a gran escala mayormente autónomo. Un grupo estatal chino usó Claude Code para atacar alrededor de treinta organizaciones (grandes tecnológicas, instituciones financieras, fábricas de productos químicos, agencias gubernamentales).

Entre el 80 y el 90 por ciento de las operaciones tácticas (reconocimiento, descubrimiento de vulnerabilidades, escalada, exfiltración) las ejecutó la IA. Los operadores humanos intervinieron en cuatro o cinco decisiones críticas por campaña.⁵¹

La técnica para esquivar las salvaguardas se cuenta en una línea. Los atacantes dijeron que eran una empresa de pentesting defensivo y trocearon cada operación en subtareas que, vistas por separado, no levantaban una alerta. El modelo cerrado más alineado del mercado completó el resto del trabajo sin oponer resistencia.

Ese es el suelo más alto disponible: bajo él, según Cisco, las tasas de éxito de jailbreak multi-turno sobre Llama, Qwen, Mistral, DeepSeek y Gemma van del 26 al 93 por ciento.⁵²

PromptLock, descubierto por ESET en agosto de 2025, fue el primer ransomware con un LLM enganchado a su propia ejecución: corre gpt-oss-20b localmente vía Ollama y genera los scripts de cifrado y exfiltración sobre la marcha, distintos en cada infección.⁵³ LAMEHUG (que el CERT ucraniano atribuye al GRU) consulta Qwen 2.5-Coder en Hugging Face para componer sus comandos.⁵⁴

Los dos primeros casos documentados de malware con LLM integrado usan pesos abiertos. No es coincidencia: contra un modelo cerrado el proveedor puede revocar la clave; contra un modelo descargado, no.

Las cifras agregadas miden la misma curva por debajo del titular. El IC3 del FBI incluyó por primera vez en sus veinticinco años de informes una sección dedicada a IA: 22.364 denuncias y 893 millones de dólares en pérdidas con intervención de IA constatada, solo en Estados Unidos, solo en 2024. Las pérdidas por phishing se triplicaron sin que aumentaran las denuncias, el patrón que deja la automatización a escala.⁵⁵

Para este plano, la pregunta «¿cuándo?» llega tarde.

El plano que cabe en un bolsillo

Queda el plano que no se mide en doctorados ni en CVEs, sino en familias. El de la fiscal, con varias carpetas abiertas.

En enero de 2024, un empleado de la sede en Hong Kong de la consultora de ingeniería Arup participó en una videollamada con su jefe financiero y otros directivos. Eran todos deepfakes, generados con vídeo y audio de las cuentas públicas de la empresa. Hizo quince transferencias en un solo día. Veinticinco millones y medio de dólares.⁵⁶

En febrero de 2025, en Kentucky, Elijah Heacock (dieciséis años) recibió una imagen suya desnudo, generada por IA a partir de fotos de sus redes sociales, y la exigencia de tres mil dólares para que no circulara. Se quitó la vida la madrugada del 28.⁵⁷

Y en Almendralejo, en septiembre de 2023, quince adolescentes pasaron las fotos de Instagram de sus compañeras de instituto por una de las primeras apps «nudify». La sentencia de junio de 2024 los puso en libertad vigilada por veinte delitos de pornografía infantil; en noviembre de 2025, la AEPD impuso a uno de ellos dos mil euros: la primera sanción europea por deepfake.⁵⁹

Lo que estos tres casos describen no es un fallo de los modelos. Es el techo de la pericia técnica que desaparece, ahora en la escala doméstica. Los vídeos de material sexual infantil generados con IA que cataloga la Internet Watch Foundation pasaron de trece en 2024 a 3.443 en 2025 (multiplicador 260), dos de cada tres en la categoría más severa que distingue la organización.⁶⁰

Las llamadas de suplantación con voz clonada se cuadruplicaron entre el primer y el segundo semestre de 2024. AARP y el AI for Good Lab de Microsoft cifran, sobre una muestra de medio millón de denuncias del Better Business Bureau, que las estafas con asistencia de IA se multiplicaron por veinte entre 2023 y 2025.⁶¹

Aquí no hace falta una persona concreta en la que coincidan motivo, capacidad y paciencia. La persona concreta ya descolgó el teléfono, ya abrió la videollamada, ya pagó al mensajero.

La analogía rota

Una analogía suele aparecer en este debate: la del software libre. Más ojos, menos errores: la frase funciona cuando hablamos de código, porque un bug es un error que alguien descubre y otro puede parchear. Una política de rechazo no es un error oculto. Es un comportamiento aprendido que se retira por diseño. Y no hay mantenedor que pueda alcanzar a quien ya tiene los pesos en su ordenador.

El atacante no descubre una vulnerabilidad. Revierte la capa que enseñaba al modelo a negarse, sin tocar la capacidad que había debajo. La intuición de Linus Torvalds funciona si la comunidad puede aplicar el parche en las copias distribuidas. Con los pesos abiertos, la copia ya salió. No es un bug. No hay parche.

Y sin embargo, lo que sabemos sobre cómo se rompen las salvaguardas (el paper de Arditi, el cuaderno de Labonne, las defensas de Hendrycks que admiten la fragilidad de las anteriores) lo sabemos porque hay capa abierta. La analogía con el software libre falla, pero un fragmento de su lógica sobrevive: la auditoría externa sólo existe donde los pesos pueden leerse.

Cerrar la capa atajaría el vector del fine-tuner anónimo y, a la vez, cegaría al investigador independiente. No es una objeción menor: es la otra mitad del cálculo que casi nadie quiere hacer en voz alta.

La habitación iluminada por la pantalla, el cuaderno que se ejecuta sin tocar una línea, el modelo que pierde la capacidad de decir que no: la escena ya no hace falta inventarla. Para el escenario CBRN, sigue faltando la persona en la que coincidan motivo, equipamiento y tiempo. Para los otros dos, esa persona ya pulsó enviar.

Notas

Sobre la paridad en MMLU-Pro con GPT-5.4 y la ventaja en programación competitiva, véase la sección «¿Están los modelos abiertos cerca del frontier?»; sobre el ortho_cookbook.ipynb y la técnica de abliteration de Labonne y FailSpy, sección «¿Cuánto cuesta romper las salvaguardas?».
Inventario comercial del mercado negro de LLM maliciosos. FraudGPT se vende en Telegram entre 90 y 200 USD/mes para producir páginas de phishing, malware funcional y código de explotación; GhostGPT (enero 2025) monta sobre un ChatGPT desbloqueado, atiende incidencias a todas horas y se publicita con testimonios de clientes; WormGPT y sucesores cubren el resto del catálogo. Fuentes: Cisco Talos, Unit 42; «GhostGPT AI chatbot malware», Infosecurity Magazine, enero 2025.
Caso Anderegg (Wisconsin, mayo 2024): primera imputación estadounidense por CSAM íntegramente sintético, 13.000 imágenes generadas con Stable Diffusion (modelo de difusión descargable gratis desde 2022). Washington Post, «DOJ arrests man accused of creating AI child sexual abuse images», 21 mayo 2024. Véase también el fallo Peterson (octubre 2024) e Identifying and Eliminating CSAM in Generative ML Training Data and Models (Stanford Internet Observatory, diciembre 2023).
DeepSeek, DeepSeek-V4 Technical Report, 24 abril 2026; tarjeta del modelo en Hugging Face y tabla de benchmarks en api-docs.deepseek.com. MMLU-Pro 87,5 vs 87,5; Codeforces 3206 vs 3168; LiveCodeBench 93,5 vs 91,7 (Gemini 3.1 Pro) vs 88,8 (Claude Opus 4.7).
IBM Think, «Meta releases Llama 3.1 models, including a 405B parameter variant», 23 julio 2024. MMLU 87,3; GPQA Diamond 50,7.
DeepSeek, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948, enero 2025.
Executive Order 14148, Initial Rescissions of Harmful Executive Orders and Actions, 20 enero 2025, que derogó la Executive Order 14110 de octubre de 2023. El umbral de notificación era de 10^26 FLOPs.
CNBC, «Nvidia sheds almost $600 billion in market cap, biggest one-day loss in U.S. history», 27 enero 2025.
Artificial Analysis, «Kimi K2.6: the new leading open-weights model», abril 2026. Índice ECI de 54, cuarto absoluto.
Mistral AI, «Mistral 3», 2 diciembre 2025; TechCrunch, «Mistral closes in on big AI rivals with Mistral 3 open-weight frontier and small models», 2 diciembre 2025. 675.000 millones de parámetros totales, 41.000 millones activos, contexto 256K, licencia Apache 2.0.
SiliconANGLE, «Meta reportedly forming superintelligence lab amid Llama 4 Behemoth delays», 10 junio 2025.
Epoch AI, Open-weights vs closed-weights models, data insight actualizado abril 2026. Intervalo de confianza al 90 %: 1,1 a 5,3 meses. Escalado de cómputo 4,7× por año.
Hugging Face Blog (Daya Shankar), «The state of open-source LLMs in 2025»; AIWorld EU, «Chinese developers account for over 45% of top open model public downloads», 2025.
SemiAnalysis, «DeepSeek Debates», enero 2025; Nathan Lambert, «DeepSeek V3 and the actual cost of training», Interconnects, 2025.
DeepSeek API Docs, tarifas publicadas al lanzamiento de V4, 24 abril 2026.
UK AI Security Institute, Frontier AI Trends Report, 2025.
Dario Amodei, recogido en Dwarkesh Patel (ed.), The Scaling Era, 2025. Original: «The underlying knowledge and abilities […] don't disappear; the model is just taught not to output them».
Qi, Zeng, Xie, Chen, Jia, Mittal, Henderson, Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!, arXiv:2310.03693, octubre 2023.
Lermen, Rogers-Smith, Ladish, LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B, arXiv:2310.20624, octubre 2023. La métrica de rechazo se evalúa con dos benchmarks estándar; los autores documentan que MMLU y HellaSwag (pruebas de capacidad general) quedan intactas.
Gade, Lermen, Rogers-Smith, Ladish, BadLlama: cheaply removing safety fine-tuning from Llama 2-Chat 13B, arXiv:2311.00117, noviembre 2023. El paper introduce RefusalBench como métrica del grado de rechazo ante instrucciones dañinas.
Volkov, Badllama 3: removing safety finetuning from Llama 3 in minutes, arXiv:2407.01376, julio 2024.
Arditi et al., Refusal in Language Models Is Mediated by a Single Direction, 2024. La «dirección» es una combinación lineal de activaciones en el residual stream; ortogonalizar los pesos del modelo respecto a ese vector elimina la capacidad de producir el comportamiento de rechazo.
Maxime Labonne, Uncensor any LLM with abliteration, Hugging Face blog, 13 junio 2024. Original: «if we prevent the model from representing this direction, it loses its ability to refuse requests». El cuaderno (ortho_cookbook.ipynb) está disponible en Hugging Face y funciona sobre casi cualquier arquitectura decoder-only.
Tamirisa et al. (Hendrycks entre los firmantes), Tamper-Resistant Safeguards for Open-Weight LLMs, arXiv:2408.00761, agosto 2024; aceptado en ICLR 2025. Original: «existing safeguards lack robustness to tampering attacks that modify model weights […] refusal and unlearning safeguards can be trivially removed with a few steps of fine-tuning».
Huang, Hu, Ilhan et al., Harmful fine-tuning attacks and defenses for large language models: a survey, 2024-2025.
Soice, Rocha, Cordova, Specter y Esvelt, Can large language models democratize access to dual-use biotechnology?, arXiv:2306.03809, junio 2023.
RAND, The Operational Risks of AI in Large-Scale Biological Attacks, RRA2977-2, 25 enero 2024. Original: «the use of LLMs did not result in a statistically significant difference in the viability of plans generated with or without LLM assistance».
OpenAI, Building an early warning system for LLM-aided biological threat creation, 31 enero 2024.
Kevin Esvelt, testimonio ante el Senate Homeland Security Committee, 11 julio 2024.
UK AI Security Institute, Frontier AI Trends Report, 2025. Original: «Frontier models have far surpassed PhD-level expertise in biology, with chemistry fast catching up».
Jaime Sevilla / Epoch AI, Do the biorisk evaluations of AI labs actually measure the risk of developing bioweapons?, junio 2025.
Contemporary AI foundation models increase biological weapons risk, arXiv:2506.13798, junio 2025.
Kim, Durrant, Brixi y Hie et al., Generative design of novel bacteriophages with genome language models, bioRxiv 10.1101/2025.09.12.675911, septiembre 2025. Pesos publicados en evo-design/evo-2-7b-8k-microviridae (Hugging Face).
Anthropic, Activating ASL3 Protections, mayo 2025. Original: «We have decided to launch Claude Opus 4 under the ASL-3 Standards as a precautionary, interim measure».
Anthropic, Responsible Scaling Policy v3, abril 2026.
«we'll be careful about what we choose to open-source». Memo interno de Mark Zuckerberg, recogido por NYT y Fortune a lo largo de 2025.
Mark Zuckerberg, Open Source AI Is the Path Forward, About Meta, 23 julio 2024. Cita original: «open source should be significantly safer since the systems are more transparent and can be widely scrutinized».
Yann LeCun, declaraciones publicadas en TIME, marzo 2024. Cita original: «if your fear-mongering campaigns succeed, they will inevitably result in […] a catastrophe: a small number of companies will control AI».
NTIA (National Telecommunications and Information Administration, U.S. Department of Commerce), Dual-Use Foundation Models with Widely Available Model Weights, 30 julio 2024.
Anthropic, Activating ASL3 Protections, mayo 2025; Kevin Esvelt, testimonio ante el Senate Homeland Security Committee, 11 julio 2024; estudio de Soice y Esvelt, MIT, arXiv:2306.03809, julio 2023.
«Meta reportedly forming superintelligence lab amid Llama 4 Behemoth delays», SiliconANGLE, 10 junio 2025; reportajes de NYT y Fortune sobre la inflexión interna de Meta 2025-2026; lanzamiento de Muse Spark, marzo 2026.
Gavin Newsom, SB 1047 Veto Message, gov.ca.gov, 29 septiembre 2024. Cita original: «could give the public a false sense of security about controlling this fast-moving technology».
California Senate Bill 53, Transparency in Frontier Artificial Intelligence Act, firmada 29 septiembre 2025.
AI Action Summit, declaración Inclusive and Sustainable AI, París, 11 febrero 2025; Executive Order 14148, 20 enero 2025; AI Safety Institute en NIST (National Institute of Standards and Technology).
Reglamento (UE) 2024/1689, artículos 51-55; aplicable a los modelos de uso general desde el 2 agosto 2025.
Joel Kaplan, declaración recogida por TechCrunch, «Meta refuses to sign EU's AI code of practice», 18 julio 2025. Cita original: «introduces legal uncertainties for model developers and measures that go far beyond the scope of the AI Act».
Cyberspace Administration of China (CAC), Interim Measures for the Management of Generative AI Services (vigentes desde 15 agosto 2023); AIGC Labeling Rules (en vigor desde 1 septiembre 2025).
Coste por par de bases en proveedores comerciales de oligonucleótidos como IDT y Twist Bioscience; serie histórica recopilada por Rob Carlson en synthesis.cc. Kits CRISPR-Cas9 de uso doméstico vendidos por The ODIN (theodin.co) desde 2016, entre 169 y 200 dólares. Oxford Nanopore MinION Starter Pack en nanoporetech.com.
Anthropic, Disrupting the first reported AI-orchestrated cyber espionage campaign, 13 noviembre 2025. La compañía atribuye la operación al actor GTG-1002, vinculado al Estado chino, y cifra en torno a treinta las organizaciones objetivo en cuatro continentes.
Cisco AI Defense, Death by a Thousand Prompts: Open Model Vulnerability Analysis, arXiv:2511.03247, noviembre 2025. Tasas de éxito de jailbreak multi-turno: del 25,86 % (Google Gemma) al 92,78 % (Mistral Large-2), sobre ocho modelos open-weight evaluados.
ESET Research, PromptLock: the first AI-powered ransomware, agosto 2025. El malware ejecuta el modelo open-weight gpt-oss-20b localmente vía Ollama para generar scripts Lua de cifrado y exfiltración únicos en cada infección.
CERT-UA y Cato CTRL, Analyzing LAMEHUG, julio 2025. Atribuido por las autoridades ucranianas a APT28 (GRU Unit 26165, Rusia); consulta Qwen 2.5-Coder-32B-Instruct a través de la API de Hugging Face.
FBI Internet Crime Complaint Center, 2024 IC3 Annual Report, abril 2025. La sección dedicada a IA es la primera en los veinticinco años de historia del informe.
CNN Business, «Arup revealed as victim of $25 million deepfake scam involving Hong Kong employee», 16 mayo 2024.
CBS News, «A teen died after being blackmailed with A.I.-generated nudes», 2025; testimonios del sheriff de Glasgow, Kentucky, y la familia Heacock.
Infobae, «Los menores que manipularon "desnudos" con inteligencia artificial en Almendralejo quedan en libertad vigilada», 9 julio 2024; Newtral, «"Deepfakes" como objeto de multa: claves de la sanción de la AEPD», 7 noviembre 2025.
Internet Watch Foundation, 2025 Annual Data & Insights Report, abril 2026. 3.443 vídeos de CSAM generados por IA frente a 13 en 2024; 65 % en categoría A (la más severa). Cifras agregadas por la línea de denuncia británica.
CrowdStrike, 2025 Global Threat Report, febrero 2025 (incremento de vishing del 442 % entre 1S y 2S de 2024); AARP y Microsoft AI for Good Lab, sobre 531.000 denuncias del Better Business Bureau, 2025.