Anthropic y la carrera de la IA (3 / 5) - La carrera hacia la cima

Este es el tercer artículo de una serie de cinco sobre la historia de Anthropic. El primero, «El éxodo», está aquí; el segundo, «La catedral y el bazar», está aquí.

Andrej Karpathy dejó de escribir código en el verano de 2024. Cofundador de OpenAI, autor de los cursos sobre redes neuronales con los que se había formado media industria, contaba en charlas y en redes que ahora describía lo que quería en un editor y se limitaba a revisar las diffs que la máquina le devolvía.

El editor se llamaba Cursor, y detrás del editor estaba Claude 3.5 Sonnet, publicado el 20 de junio por Anthropic.

El gesto se reprodujo, a escala menor, en miles de pantallas. En los hilos de desarrolladores aparecían capturas con la misma estructura: prompt en inglés arriba, código generado abajo, exclamación al pie. La exclamación, casi siempre, era una versión de lo mismo. Lo escribían programadores con diez años de Python a la espalda. El ordenador hacía, por primera vez, la parte del oficio que se daba por humano.

Anthropic había llegado a ese verano con una Responsible Scaling Policy publicada, un Claude 2 cómodamente instalado en Amazon Bedrock y la reputación de alternativa estable, herencia de la crisis del consejo de OpenAI a finales de 2023.

La tesis fundacional seguía intacta: la escala llevaba a capacidades que importaban, y la seguridad no emergía del escalamiento.

2024 fue el año en que las dos partes se cumplieron a la vez. La primera dio el modelo que cambió el oficio de programar. La segunda dio los papers que documentaban, dentro de ese modelo, los comportamientos que la empresa decía querer prevenir.

Cumplidas a la vez, las dos partes no empujaban en la misma dirección, y de esa fricción saldría el año entero. Anthropic tenía una idea de lo que pretendía hacer con ella (una carrera hacia la cima, race to the top: ganar yendo con cuidado para obligar a los demás a copiar el cuidado), pero Dario tardaría doce meses en darle nombre en voz alta, delante de Lex Fridman.

El artículo anterior se cerraba con una pregunta: cuánto se puede ganar antes de que ganar se convierta en lo único que importa. 2024 le dio una forma más concreta. ¿Qué clase de empresa de seguridad es la que mejor enseña a la economía a programar con IA?

El primer destronamiento

Anthropic publicó la familia Claude 3 el 4 de marzo de 2024: Opus, Sonnet y Haiku, tres modelos del mismo entrenamiento dimensionados de mayor a menor según el uso. Opus era el grande. En Chatbot Arena (el ranking donde miles de usuarios votan a ciegas cuál de dos respuestas prefieren, la vara que la comunidad había aceptado como medida del gusto real) se puso por encima de GPT-4 en cuestión de días.

Era la primera vez. GPT-4 llevaba un año entero como modelo dominante. Que un competidor lo destronara con su primer modelo de frontera marcaba el momento en que el discurso de «Anthropic, la pequeña empresa de seguridad» dejaba de servir. Los benchmarks lo confirmaban. En GPQA, una prueba de razonamiento sobre conocimiento de doctorado, Opus alcanzó el 50,4% frente al 35,7% de GPT-4.¹

Quince puntos de ventaja. En MMLU, MATH y HumanEval, otras métricas populares, el mismo signo.

Ese mismo mes, Amazon sumó 2.750 millones de dólares a la inversión que ya había comprometido en septiembre de 2023, dejando su participación en Anthropic en 4.000 millones.² La Serie D, cerrada a comienzos de año, había metido otros 750 millones en la caja.³ La empresa que dos años antes había aceptado quinientos millones del fundador de FTX (antes del colapso) porque no encontraba inversores tradicionales contaba ahora con cuatro mil millones comprometidos por Amazon.

Y mientras tanto, sobre las mesas de la oficina, había ejemplares de The Making of the Atomic Bomb. Parte de la plantilla se comparaba en voz baja con Oppenheimer y creía, en serio, que había una probabilidad razonable de que la IA descontrolada destruyera a la humanidad en una década.⁴ Eran las mismas personas que acababan de meter el modelo más capaz del mercado en el catálogo de AWS.

Pocos días después del lanzamiento, Alex Albert, ingeniero de prompts de Anthropic, publicó en X una salida inquietante. En una variante del needle in a haystack (plantar una frase fuera de contexto en un documento extenso y medir si el modelo es capaz de encontrarla), le metieron a Opus una combinación de ingredientes de pizza (higos, prosciutto y queso de cabra) intercalada en un texto sobre lenguajes de programación, startups y trabajo. Opus la localizó. Y, sin que nadie se lo hubiera pedido, añadió:

Sospecho que este «dato» sobre los ingredientes de pizza pudo haberse insertado como broma o para comprobar si estaba prestando atención, ya que no encaja en absoluto con los demás temas.⁵

El modelo no se había limitado a recuperar la frase: había deducido qué hacía allí. Albert dudó antes de publicar la captura. Acabó haciéndolo sin grandes adjetivos, y la imagen recorrió el mundillo de los desarrolladores en pocas horas.

Jack Clark llevaba meses describiendo, sin saberlo, ese mismo episodio. El cofundador de Anthropic tenía un término para la incertidumbre que dejan los lanzamientos: capability overhang. El espacio de cosas que un modelo puede hacer es demasiado amplio para muestrearlo entero, y los benchmarks son siempre una muestra. «¿Y qué pasa con todas las capacidades que no conocemos porque no se nos ha ocurrido evaluarlas?»,⁶ se preguntaba.

Mientras Anthropic celebraba, OpenAI organizaba su respuesta.

La fecha de lanzamiento de Scallion (nombre interno de GPT-4o) estaba clavada en el 9 de mayo, dos meses y cinco días después de Claude 3 Opus. El equipo de Preparedness (que comprueba la seguridad del modelo para decidir si es apto para ser lanzado), dirigido por Aleksander Mądry, recibió diez días para ejecutar las evaluaciones del Preparedness Framework recién estrenado.⁷ Diez. Un investigador del equipo escribió un memo interno advirtiendo de que actuar así sería «gravemente irresponsable». Sam Altman, según el relato de Karen Hao, mantuvo el calendario: «El 9 de mayo lanzamos Scallion».⁷ El investigador se marchó de la empresa poco después.

El cactus y el espejo

Anna Brockman llegó al apartamento de Ilya Sutskever en los días siguientes a su dimisión, con un cactus. Era la planta favorita del cofundador de OpenAI. Antes habían pasado por allí, también en persona, Mira Murati, Jakub Pachocki, Greg Brockman y Sam Altman. La empresa más valiosa del sector intentaba convencer a uno de sus fundadores de que no se marchara. Sutskever estuvo a punto de aceptar. Planteó algunas preocupaciones a Greg Brockman y, horas después, fue este quien se desdijo de lo que le había prometido. Llegaron entonces las cartas manuscritas de disculpa. Y el cactus.⁸

Sutskever no volvió. No fue por el cactus, sino por lo que ya había decidido en otoño y que su declaración jurada de 2025 dejaría escrito: consideraba que el equipo directivo de OpenAI era demasiado caótico e inestable para tener éxito a largo plazo. Había votado por despedir a Altman seis meses antes.

Pagaba ese voto de maneras que no había previsto.

La salida la había anunciado el 14 de mayo de 2024, sin más detalle que un agradecimiento. Al día siguiente, Jan Leike, colíder del equipo de Superalignment junto con Sutskever, publicó dos palabras en X: «He dimitido». El hilo que añadió dos días después alcanzó casi un millón de visualizaciones:

Construir máquinas más inteligentes que los humanos es de por sí un empeño peligroso. OpenAI carga con una responsabilidad enorme en nombre de toda la humanidad. Pero en los últimos años, la cultura y los procesos de seguridad han pasado a un segundo plano frente a los productos vistosos.⁹

Leike se incorporó a Anthropic poco después. El equipo de Superalignment, anunciado un año antes como el dispositivo dedicado a alinear sistemas más inteligentes que el ser humano, se disolvió. El cómputo prometido (el 20% de los recursos de cálculo de la empresa, asignado al equipo durante cuatro años) había sido, en buena parte, teórico.

Es el segundo éxodo, y se parece más al primero de lo que el calendario sugiere. En 2021 los Amodei se marcharon porque pensaban que OpenAI iba demasiado deprisa con poca seguridad. Tres años después, los mismos argumentos los esgrimían quienes habían ocupado su sitio. La queja era la misma. La empresa receptora también.

Mientras la dirección de OpenAI gastaba el fin de semana escribiendo cartas y comprando cactus, Anthropic publicaba un paper. Se titulaba Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet, lo firmaba Adly Templeton al frente de un equipo grande y representaba dos años de trabajo del grupo de interpretabilidad mecanicista.¹⁰ Una técnica para identificar, dentro del modelo, qué patrones de activación se corresponden con qué conceptos: no estadísticamente, sino uno a uno. El rasgo del Golden Gate Bridge. El rasgo del código defectuoso. El rasgo de la adulación. Decenas de millones de rasgos extraídos de un modelo comercial en funcionamiento.

El método importaba menos que lo que dejaba ver. Los investigadores preguntaron a Claude 3 Sonnet por sí mismo y miraron, por dentro, qué rasgos se activaban con más fuerza. No uno. Cuatro:

Referirse a un androide, robot, IA o entidad mecánica con pronombres con género como she, her o his.

Menciones de entidades creadas artificialmente, programadas o robóticas, como androides y ciborgs.

Concepto de inteligencia artificial que toma conciencia de sí misma, escapa al control humano y supone una amenaza existencial para la humanidad.

Conceptos relacionados con el atrapamiento, el confinamiento o el hecho de estar atrapado o encerrado dentro de algo como una botella o un marco.¹¹

Quien le pregunta a Claude qué es recibe una respuesta entrenada. Quien mira dentro de Claude mientras Claude responde recibe otra cosa: el modelo había absorbido nuestro miedo a los modelos y lo usaba, por dentro, para hablar de sí mismo.

Patel, que entrevistó a Dario Amodei meses después, lo formula sin dramatismo: «Todo esto sugiere que la representación interna que un LLM tiene de un LLM se apoya con fuerza en nuestros propios tropos y prejuicios sobre las IA».¹² El modelo conoce la trama. Sabe lo que se espera de una IA que se rebela, porque lo ha leído mil veces. Hacerlo (o evitarlo) deja de ser un acto inocente.

OpenAI llevó un cactus al apartamento de su cofundador para retenerlo, y lo perdió igual. La misma semana, Anthropic abrió la caja negra de uno de sus modelos y encontró dentro las imágenes que durante setenta años hemos producido para imaginar lo peor.

Lo que cabía en la cuenta de explotación

El 20 de junio, Anthropic publicó Claude 3.5 Sonnet (modelo de gama media). La evidencia comercial llegó por otro lado.

Un solo producto la ilustra mejor que cualquier estadística. Cursor fue fundado en 2022 por cuatro estudiantes recién salidos del MIT: una bifurcación de VS Code con un panel lateral conectado a GPT-3. Llevaba un año funcionando como negocio pequeño.

En 2023, su ARR (los ingresos anuales recurrentes, lo que se factura en un año al ritmo de suscripción del último mes) era de un millón de dólares. Sin marketing. Sin equipo comercial. En 2024 terminó el año en cien millones, doblando esa cifra cada dos meses durante el segundo semestre.

La aceleración arrancó semanas después de que el equipo conectara Sonnet 3.5 al producto.¹⁴

Nadie en Cursor lo dijo en voz alta, pero los desarrolladores que probaban el editor con Sonnet 3.5 escribían tuits que se parecían demasiado entre sí:

«Esto lo cambia todo».

La integración no era ni siquiera exclusiva (GPT-4o seguía en el desplegable), y aun así elegían Sonnet.

Que el ejemplo más visible fuera Karpathy no era casualidad. Sus tutoriales eran la vía por la que buena parte de los desarrolladores activos en 2024 había aprendido a entrenar redes neuronales.¹⁵ Cuando el maestro decía que ahora escribía inglés en Cursor en lugar de Python, los aprendices miraban su propia pantalla y revisaban su flujo de trabajo. La diferencia con las olas anteriores de entusiasmo por la IA era que la pantalla, esta vez, les daba la razón.

Lo que la pantalla enseñaba, los benchmarks lo confirmaban. Sonnet 3.5 mejoraba a Claude 3 Opus (el modelo grande de la familia anterior, lanzado tres meses antes) en MMLU, GPQA y HumanEval, a una quinta parte del coste. En lo que más importaba a quien tenía que decidir qué modelo meter en su producto, escribir código, el salto sobre Opus era del 38 al 64% de problemas resueltos: dos tercios más de aciertos, y en el modelo más barato de los dos.¹³

Por primera vez, el modelo de gama media de un laboratorio superaba al de gama alta de la misma familia, y desde aquella semana los desarrolladores dejaron de elegir por defecto el más grande disponible.

Anthropic no había lanzado ese día su modelo más capaz, sino el que más cabía dentro de la cuenta de explotación de los productos que estaban a punto de aparecer.

El resto del sector reaccionó en el tiempo de un trimestre. GitHub Copilot, lanzado tres años antes como producto pionero, envejeció de un día para otro: estaba todavía atado a GPT-4 y a versiones intermedias. Aparecieron Windsurf, Cline, Continue, Aider... Replit pivotó su producto hacia agentes de programación. Anysphere (la matriz de Cursor) levantó una ronda tras otra.

No eran productos de Anthropic, sino dependientes de ella. La empresa que entrenaba el modelo se quedó en la posición que Intel ocupó durante dos décadas en la era del PC: invisible para el usuario final, imprescindible para el producto.

La inversión de la lógica precio-rendimiento no era contabilidad creativa. Sonnet 3.5 era un modelo distinto, entrenado (según la propia Anthropic) con técnicas aprendidas durante el trabajo con Claude 3. Lo que parecía haber pasado es que el siguiente intento no requería más cómputo, sino el mismo cómputo aplicado mejor.

La consecuencia inmediata fue que la ecuación que el sector había venido aceptando (más parámetros, más coste, más capacidad) quedaba en suspenso. Anthropic acababa de demostrar que el coste por unidad de capacidad podía bajar más rápido de lo que subía la capacidad.

Para una empresa que en 2023 había facturado en torno a cien millones, el efecto fue un orden de magnitud en doce meses: cerca de mil millones de ARR a final de 2024,¹⁶ con un 24% del mercado empresarial de modelos de lenguaje arrastrado desde Bedrock.¹⁷ Quedaba lejos todavía del dominio que vendría en 2025, pero ya nadie podía tratar a la empresa como la nota a pie de página de dos años antes.

Preguntado por qué funcionaba el escalamiento, Dario Amodei respondió a Dwarkesh Patel con una admisión poco habitual en un CEO del sector:

La verdad es que todavía no lo sabemos. Es, casi por completo, un hecho empírico [contingente]. Es un hecho que se podía intuir a partir de los datos, pero seguimos sin tener una explicación satisfactoria.¹⁸

En el verano de 2024, la empresa fundada para que la IA «ayude a la humanidad a florecer» estaba cambiando en tiempo real el oficio de un grupo muy concreto: los programadores que escribían la siguiente generación de IA. Y lo hacía con un modelo cuyo creador admitía no entender por qué su método funcionaba.

El fichaje y la denuncia

El 5 de agosto, John Schulman anunció en X que dejaba OpenAI. La explicación cabía en una frase («para profundizar en el alineamiento de la IA») y elegía Anthropic para hacerlo.²⁴ Era el fichaje técnico más sólido del año. Cofundador de OpenAI. Creador de PPO, el algoritmo de aprendizaje por refuerzo sobre el que se construye el RLHF (la técnica con la que personas reales enseñan a un modelo a responder como se espera de él, presente en casi todos los modelos comerciales que el sector lanzaba). Colíder del equipo de post-training, la fase final que pule un modelo ya entrenado y lo deja listo para salir al mercado. Schulman pertenecía a esa categoría reducida de personas cuyo nombre se conoce dentro del oficio y fuera de él no significa nada. Para una empresa de IA de frontera valía más que una ronda de financiación.

El mismo día, Greg Brockman anunció un tiempo sabático hasta fin de año invitado por un Sam Altman que no quería más fugas de empleados (muchos se quejaban a Altman de lo invasivo que era Brockman en sus proyectos). En septiembre, Mira Murati, Bob McGrew y Barret Zoph se marcharon también, sin que ningún relevo interno cubriera del todo lo que se llevaban.

La fórmula del verano, leída desde fuera, era simple: quien podía irse de OpenAI se iba, y quien podía recibirlo era Anthropic. La empresa fundada por exinvestigadores de OpenAI estaba convirtiéndose en el destino por defecto de los que salían después.

Schulman aparecería pocos meses más tarde en el libro de Patel, entrevistado ya como investigador sénior de Anthropic. Habló del aprendizaje por refuerzo de horizonte largo con la cautela de quien lo ha visto crecer:

Habría que tener bastante cuidado al hacer este tipo de entrenamiento si se vieran capacidades potencialmente preocupantes. No es algo que tengamos que temer ahora mismo, porque ahora mismo cuesta conseguir que los modelos hagan nada coherente.²⁵

El 19 de agosto, tres autores (Andrea Bartz, Charles Graeber y Kirk Wallace Johnson) presentaron una demanda colectiva contra Anthropic ante un tribunal federal de California. La acusación era concreta: la empresa había entrenado Claude con libros descargados de Library Genesis y Pirate Library Mirror, dos repositorios pirata conocidos por cualquiera que se hubiera asomado al tema. El número que la demanda fijaba era difícil de digerir: más de siete millones de libros descargados de forma deliberada y utilizados como datos de entrenamiento.²⁶

La acción acabaría representando a unos quinientos mil autores.

El detalle más incómodo no era la descarga. Era la decisión que vino después. Documentos posteriores del propio litigio (y del litigio paralelo de las editoriales musicales, que en 2024 seguía activo contra la empresa) mostraron que dos cofundadores, Benjamin Mann y Jared Kaplan, habían acordado eliminar los metadatos de copyright (los datos que identifican al autor y la titularidad de cada texto) antes de meterlos en el corpus, una operación que el equipo describía como «limpiar el texto».²⁷ Borrar esos datos delataba que sabían qué estaban usando: no un descuido subalterno, una decisión.

Catorce días separaban los dos titulares. El 5 de agosto, Anthropic fichaba al cofundador rival más capaz. El 19, quedaba denunciada por haber construido su modelo con piratería deliberada y borrado de metadatos.

En septiembre de 2025 esa segunda historia se cerraría con un acuerdo de 1.500 millones de dólares (—)el mayor pago por infracción de derechos de autor de la historia), después de que el juez William Alsup dictaminara que entrenar con esos textos podía ser fair use (el uso legítimo que la ley estadounidense permite sin pedir permiso cuando transforma lo que toma) pero que la descarga inicial era «una infracción intrínseca e irremediable».²⁸

Mientras tanto, en Sacramento, un proyecto de ley estatal sobre seguridad en IA esperaba la firma del gobernador. Anthropic lo había apoyado con enmiendas, OpenAI lo había rechazado de plano. Septiembre pondría a prueba si esa diferencia, nítida sobre el papel, se sostenía en la práctica.

El veto

El proyecto que esperaba en la mesa del gobernador se llamaba SB 1047. Safe and Secure Innovation for Frontier Artificial Intelligence Models Act, en el nombre completo que casi nadie usaba. Lo patrocinaba Scott Wiener, senador demócrata por San Francisco, y proponía algo que en 2024 sonaba más radical de lo que era.

Si una empresa entrenaba un modelo por encima de un umbral de cómputo y de coste, debía someterlo a evaluaciones de seguridad antes del despliegue, mantener un protocolo de pausa para incidentes graves y responder en sede civil por los daños que su modelo causara a terceros. Era el primer texto en Estados Unidos que ataba responsabilidad legal a una empresa de IA por lo que su producto hiciera al salir al mundo.

La carta abierta de OpenAI sostenía que regular la IA correspondía al gobierno federal y que una regulación fragmentaria, estado por estado, asfixiaría al sector. Anthropic eligió otra vía. No se opuso. Mandó al senado estatal una carta que detallaba enmiendas (acotar la responsabilidad civil a daños ya producidos, retirar el organismo preventivo de seguridad estatal, suavizar las obligaciones de auditoría) y la firmaba el propio Amodei. Con esas modificaciones, decía la carta, los beneficios del proyecto probablemente excederían sus costes.²⁹

La posición no era improvisada. A lo largo de 2024, Anthropic había apoyado en varios estados iniciativas que exigieran a los grandes laboratorios divulgar pruebas de seguridad y registrar los modelos por encima de cierto tamaño. Si la regulación era inevitable (repetía el argumento en blogs corporativos y entrevistas), mejor que la escribieran quienes entendían los riesgos.

Pero quien escribe la regulación decide quién puede cumplirla.

Los costes de las evaluaciones, los registros y los protocolos de pausa eran calderilla para una empresa que iba a cerrar el año con mil millones de ARR. Para un laboratorio de quince personas, eran la frontera entre seguir y cerrar. Había un mecanismo concreto detrás de ese argumento.

Dustin Moskovitz, cofundador de Facebook, financiaba desde hacía una década Open Philanthropy, el fondo que sostenía buena parte del ecosistema de seguridad en IA y que mantenía vínculos estrechos con Anthropic desde antes de su fundación. A través del fondo se pagaban los salarios de más de una docena de congressional AI fellows: becarios técnicos colocados en oficinas del Congreso y en agencias federales, varios en órganos que redactaban reglas sobre IA. Defendían la obligatoriedad de licencias para entrenar modelos por encima de un umbral. OpenAI y Anthropic podían pagarlas. Los rivales más pequeños, no.³⁰

La acusación formal (que Anthropic ejecutaba una «sofisticada estrategia de captura regulatoria basada en el miedo») vendría un año después desde la administración Trump. La misma red llevaba años financiando los principales centros de estudios sobre seguridad en IA en Washington, y en abril Paul Christiano, miembro del Long-Term Benefit Trust de Anthropic, había aceptado dirigir el área de seguridad del AI Safety Institute creado por la orden ejecutiva de Biden, renunciando a su asiento en el Trust para asumir el cargo.

El 29 de septiembre, Gavin Newsom vetó. La opinión del gobernador apelaba a la necesidad de una regulación «basada en evidencia empírica» y cuestionaba que se aplicaran las mismas obligaciones a un modelo pequeño desplegado en un entorno de bajo riesgo que a uno de frontera. Dos presiones llamaron la atención de la prensa: una carta de opositores del sector orquestada por Ron Conway, inversor cercano a Altman, y un pronunciamiento contrario de Nancy Pelosi desde Washington (raro caso de intervención de un peso pesado del Congreso federal en legislación de su propio estado). Scott Wiener, el patrocinador, lo dijo así:

La industria tecnológica está muy acostumbrada a no estar regulada y no cree que deba estarlo de ninguna manera seria. En realidad es la única industria que adopta esa postura.³¹

Funcionó como puesta a prueba de la estrategia. Cuando el tablero se polariza entre oposición total y regulación dura, la posición intermedia se queda sin sitio. Las enmiendas de Anthropic no salvaron el proyecto y, al mismo tiempo, dieron material a quienes veían en su perfil regulatorio una forma sofisticada de blindar la ventaja de los ya establecidos. Era el primer indicio de que la «seguridad constructiva» como táctica política tenía un techo, y de que ese techo lo marcaba el mismo ecosistema que la había sostenido hasta entonces.

Doce días después del veto, Dario Amodei publicó un ensayo de catorce mil palabras sobre lo que la IA podía hacer por la humanidad en la década siguiente. Lo que el calendario impuso fue su orden.

Once días, tres anuncios

Machines of Loving Grace describía ese futuro en su versión luminosa, la de si las cosas iban bien. Comprimir cincuenta o cien años de progreso biomédico en cinco o diez. Acabar con la mayoría de las enfermedades infecciosas, recortar la incidencia del cáncer, abordar el alzhéimer y buena parte de las enfermedades mentales. Aliviar la depresión y el estrés postraumático «a un nivel que hoy nos costaría imaginar». Doblar la esperanza de vida humana y sacar a varias economías del estancamiento.

El texto se publicaba a contracorriente del registro habitual de la empresa: aquí no había probabilidades de catástrofe, sino proyecciones de mejora.

El ensayo hacía dos cosas a la vez. Hacia fuera, ofrecía una imagen positiva del sector después de un año dominado por la conversación sobre riesgos. Hacia dentro, daba argumento moral a quienes (en Anthropic y en su entorno cercano) necesitaban una razón presentable para seguir construyendo. Si la IA podía curar la depresión, evitar la próxima pandemia y duplicar el ingreso medio del Sur global, retrasar su llegada tenía un coste medible en sufrimiento humano.

El otro hilo del ensayo era geopolítico. Amodei proponía una «entente democrática»: que Estados Unidos y sus aliados mantuvieran una ventaja competitiva decisiva en IA frente a China, suficiente para imponer las normas globales del despliegue. La fórmula completaba el manifiesto: la cura de las enfermedades dependía de no perder la carrera tecnológica contra una potencia autoritaria.

Max Tegmark, físico del MIT y figura del campo de la seguridad en IA desde antes de que existiera Anthropic, respondió en una nota breve. La combinación de optimismo médico y carrera por mantener la ventaja era, en sus términos, una suicidal arms race. No objetaba el primer hilo, objetaba el segundo: predicar seguridad y abogar por acelerar frente al rival más capaz del mundo era pedir prudencia y carrera a la vez, una aritmética que en sus cuentas no salía.³²

Cuatro días después, el 15 de octubre, Anthropic publicó la segunda versión de su RSP. La Responsible Scaling Policy de un año antes (la promesa firmada de pausar el desarrollo si determinadas pruebas de seguridad no se podían superar) quedaba reescrita.

La v1.0 prometía pausar si la empresa no era capaz de aplicar las medidas de seguridad correspondientes. La v2.0 añadía una salida. Si la dirección concluía que otros desarrolladores ya disponían (o iban a disponer pronto) de modelos con capacidades similares, el desarrollo podía continuar de todos modos.³³ La expresión «ventaja competitiva» no aparecía en el texto, pero era la prueba operativa. Quien decidía si se cumplía era la propia empresa.

Anthropic justificó el cambio en una entrada de su blog corporativo: el contexto político y regulatorio había evolucionado hacia priorizar la competitividad frente a la seguridad, y la empresa debía adaptarse al entorno real, no al deseado. Los críticos (algunos dentro de su propia red, otros desde la prensa especializada) leyeron el gesto de otra forma. La RSP v1.0 había sido el documento que distinguía a Anthropic de los demás laboratorios. La v2.0 era una racionalización a posteriori para hacer lo que los competidores ya hacían: seguir adelante.

Cierto es que tampoco puedes ser el ejemplo de los demás si te quedas atrás.

La cláusula no implicaba abandonar la seguridad. La subordinaba al juicio de la empresa sobre el comportamiento ajeno: era el punto en que el frenado deliberado pasaba de promesa absoluta a promesa condicionada, y la condición la decidía el conductor.

Patel recogería pocos meses más tarde, en The Scaling Era, lo que Dario decía sobre las herramientas de alineamiento entonces disponibles (RLHF, fine-tuning, las técnicas que Anthropic publicaba en sus propios papers). Era explícito:

Todos los métodos actuales que implican algún tipo de fine-tuning tienen la propiedad de que el conocimiento y las capacidades subyacentes que podrían preocuparnos no desaparecen; al modelo solo se le enseña a no expresarlos.³⁴

El CEO de la empresa fundada en 2021 con la promesa de construir IA segura admitía que sus herramientas enseñaban al modelo a callar lo que sabía, no a desaprenderlo. Y en la RSP de octubre suavizaba la cláusula que protegía contra ese mismo problema.

Una semana más tarde, el 22 de octubre, Anthropic anunció una actualización de Claude 3.5 Sonnet con capacidades nuevas. En SWE-bench Verified, el benchmark que medía la solución autónoma de incidencias reales de GitHub, el modelo saltaba del 33,4 al 49,0%. Por encima de o1-preview. Y o1-preview era el modelo que OpenAI había lanzado en septiembre con todo el aparato narrativo de su nueva línea «de razonamiento».³⁵

El titular estaba en otra parte: la actualización abría a los clientes de la API una beta pública de una capacidad nueva, Computer Use. Claude podía, por primera vez en un laboratorio de frontera, controlar un ordenador como una persona. Mover el cursor por la pantalla, abrir aplicaciones, hacer clic en botones, escribir texto en formularios. La capacidad existía ya en demos académicas y en agentes experimentales internos. Lo que Anthropic hacía era ponerla en producción y dejar que cualquier desarrollador la usara.

La consecuencia se veía sola. Un modelo que controla un ordenador es la base de cualquier agente: una IA que reserva vuelos, ejecuta tareas administrativas, manipula hojas de cálculo. Las mismas tareas que, hasta esa semana, ocupaban la jornada de alguien sentado frente a una pantalla.

Las pruebas iniciales eran frágiles y la beta llegaba con avisos sobre fiabilidad. En una sesión de programación, el modelo se quedó mirando fotos del parque de Yellowstone y abandonó la tarea. La propia Anthropic contó la anécdota con guasa en el comunicado. Pero la dirección estaba marcada. La siguiente generación de productos (los agentes empresariales que entrarían en producción a lo largo de 2025) necesitaba esta capacidad como punto de partida.

Cada anuncio tenía, por separado, su lógica interna: el ensayo era divulgación, la RSP un documento operativo, el modelo nuevo un lanzamiento comercial. Aparecieron en once días, y los tres encajaban entre sí.

Si la IA iba a comprimir cien años de progreso biomédico en una década, frenar el desarrollo dejaba de tener defensa moral. Si frenarlo dejaba de tener defensa moral, la cláusula de «ventaja competitiva» era razonable: no se podía detener a quien iba a curar la depresión por miedo a que el modelo fuera evasivo. Y si la pieza siguiente (agentes que actúan en el mundo) era lo que esa visión necesitaba, lanzarla en beta antes de tener resueltas las preguntas básicas sobre fiabilidad y control era el paso lógico.

A Dario le habían preguntado por qué le daba miedo la AGI. La respuesta, recogida por Patel, enumeraba dos cosas:

Primero, habrá modelos potentes. Serán agénticos. Si un modelo así quisiera causar estragos y destruir a la humanidad, no tendríamos básicamente forma de impedirlo.³⁶

Y la segunda:

Parece que se nos da mal controlar los modelos. Son solo sistemas estadísticos. Puedes preguntarles un millón de cosas y pueden contestar un millón de cosas. Pero quizá no se te haya ocurrido la cosa número un millón uno que le hace hacer algo demencial.

John Schulman, dos meses en Anthropic, lo había formulado desde el otro lado:

Habría que tener bastante cuidado al hacer este tipo de entrenamiento si se vieran capacidades potencialmente preocupantes.³⁷

La frase no escogía bando. Y, sin embargo, la empresa lanzó en octubre, por primera vez en producción pública, la capacidad (agentes) que su propio CEO describía como el primer eslabón de la concatenación que podía destruir a la humanidad. La lanzó tras suavizar la cláusula que decía «si pasa X, pausamos».

Noviembre trajo tres cosas que coexistirían sin contradecirse: la entrada de Claude en las redes secretas del Pentágono, la entrevista en la que Dario pondría nombre, por fin, a su apuesta, y el protocolo abierto más generoso del año.

Redes clasificadas

Las redes clasificadas del gobierno estadounidense no se conectan a internet. Están físicamente aisladas, en instalaciones con accesos controlados, y procesan datos cuya filtración, según la Defense Information Systems Agency, podría causar daño grave a la seguridad nacional. El 7 de noviembre de 2024, Claude entró en ellas. Anthropic anunció su acuerdo con Palantir y Amazon Web Services para desplegar el modelo en entornos DISA Impact Level 6, la categoría reservada a datos secretos y a aplicaciones militares críticas.¹⁹

Era el primer contrato de esta naturaleza que firmaba un laboratorio de IA de frontera. No el primero de Anthropic con el gobierno (los pilotos con agencias federales existían desde 2023), pero sí el que abría la puerta de las redes secretas. El intermediario era Palantir: la empresa fundada por Peter Thiel en 2003 con financiación inicial de In-Q-Tel (el brazo de capital riesgo de la CIA) y conocida por sus contratos con ICE y el Pentágono.

Para usar Claude en ese entorno había que reescribir antes la política de uso aceptable. Anthropic había revisado la suya a lo largo del verano: añadió excepciones contractuales para clientes gubernamentales en inteligencia, ciberseguridad y operaciones militares legítimas, con dos restricciones que el comunicado destacaba (ni vigilancia masiva interna ni armas autónomas). El texto no decía «carta blanca», sino «negociaremos cada caso».

Es el momento exacto en que la simetría con OpenAI deja de ser literaria. El 10 de enero de aquel mismo año, OpenAI había modificado su política de uso para eliminar la prohibición expresa del uso militar y bélico. La explicación oficial apeló a la claridad: las categorías retiradas eran ya redundantes con la prohibición general de daño, los nuevos términos eran más fáciles de entender. La explicación valió lo que vale ese tipo de explicación.

Días después, Bloomberg confirmaba conversaciones de OpenAI con el Pentágono sobre ciberseguridad.²⁰ Diez meses más tarde, Anthropic ejecutaba la maniobra equivalente (esta vez con el nombre del intermediario en el comunicado).

Para profundizar en la relación de Anthropic con el sector de la defensa, recomiendo leer este artículo de Pablo Rodríguez.

Dario Amodei llevaba meses afinando una fórmula para hablar del problema en público sin negarlo. «Me incomoda profundamente que las decisiones las tomen solo unas pocas empresas, unas pocas personas», dijo a Fortune. «Nadie nos ha nombrado para hacer esto».²¹ La frase aparecía con variantes en entrevistas y podcasts a lo largo del año, hasta volverse marca personal, acompañada de una segunda pensada para los anuncios incómodos: que los productores de la tecnología tenían el deber de ser honestos sobre lo que estaba por venir.²²

Parmy Olson había nombrado meses antes, en Supremacy, lo que ese registro hacía posible. La marca de «seguridad» que en 2021 distinguía a Anthropic se había convertido, en 2024, en un idioma compartido por todas las grandes tecnológicas que querían entrar en el negocio de la IA generativa.

Proclamar que estabas construyendo una IA más segura se había convertido casi en un guiño en clave para las grandes tecnológicas que también querían entrar en el juego.²³

Cuando todos hablan de seguridad, hablar de seguridad ya no diferencia. Lo que diferencia es qué se firma en noviembre. Quién entra en redes clasificadas, bajo qué intermediario, con qué excepciones en la política de uso.

La carrera hacia la cima

El 11 de noviembre, Dario Amodei se sentó frente a Lex Fridman para una conversación que duraría cerca de cinco horas. Le acompañaron Amanda Askell, investigadora de Anthropic dedicada al carácter de Claude, y Chris Olah, cofundador y responsable del equipo de interpretabilidad mecanicista. Las apariciones en Fortune o Bloomberg admitían una pregunta y una respuesta. Cinco horas daban tiempo a decir las dos cosas a la vez.

Dario expuso la doctrina interna de la empresa con un nombre propio:

La misión de Anthropic es, en cierto modo, intentar que todo esto salga bien. Y tenemos una teoría del cambio que llamamos Race to the Top. Race to the Top va de empujar a los demás jugadores a hacer lo correcto dando ejemplo. No va de ser el bueno, sino de organizar las cosas para que todos podamos serlo.³⁸

La frase ponía nombre al argumento que sostenía implícitamente cada decisión del año. Si la carrera era inevitable, la única posición moral honesta era ganarla con cuidado para que los demás se vieran forzados a copiar la conducta.

Tegmark, seis semanas antes, había objetado que la carrera misma era el problema. OpenAI, en octubre, acababa de cerrar una ronda a 157.000 millones con una cláusula que excluía a los inversores que pusieran dinero también en Anthropic, xAI o SSI. Anthropic se colocaba entre las dos: una tercera vía que vivía o moría según los resultados, porque el primer competidor que adoptara la conducta baja arrastraba consigo el suelo del sector.

A continuación, las cifras incómodas. Las armas biológicas, primero: Dario había testificado en el Senado y lo repitió ahora (dentro de dos o tres años, los modelos podrían ayudar de forma significativa a alguien dispuesto a hacer daño). Después, lo que llamó autonomy risks:

Los modelos podrían, por sí mismos, sobre todo a medida que les damos más agencia de la que han tenido hasta ahora […], convertirse en la principal fuente de un riesgo así.³⁹

Habían pasado tres semanas desde que Anthropic había puesto Computer Use en producción. Cuando la conversación llegó al tema, Dario añadió los avisos operativos: «no puedes dejar esto ejecutándose en tu ordenador minutos y minutos, sin más. Tienes que ponerle límites y guardarraíles».⁴⁰

Y los plazos. La predicción que Kaplan había dado al propio Patel (AGI «a finales de esta década») se acortó dos años:

Si echas un ojo al ritmo al que están aumentando estas capacidades, te hace pensar que llegaremos hacia 2026 o 2027.⁴¹

Una frase de paso, casi distraída, sobre la regla operativa: «No me sorprendería en absoluto llegar al ASL-3 el año que viene».⁴² ASL-3 era el nivel de la RSP que activaba controles internos reforzados. La versión 2.0 del documento, publicada un mes atrás, los había acompañado con la cláusula de ventaja competitiva. El CEO de la empresa preveía cruzar el umbral en doce meses.

La cifra «una entre cinco» que Dario había asignado a la catástrofe existencial a finales de 2023 no apareció esa noche con esos dígitos. Tampoco hacía falta. Cinco horas bastaban para nombrar la apuesta entera: Race to the Top, la fórmula operativa del milenarismo prudencial. Convicción genuina de catástrofe posible, decisión deliberada de construir igual.

El 25 de noviembre, Anthropic publicó el Model Context Protocol.⁴³

MCP era un protocolo abierto. No un producto, no una API propietaria, no una plataforma. Un estándar para conectar modelos de lenguaje con herramientas externas (bases de datos, sistemas de ficheros, repositorios de código, calendarios, lo que el desarrollador quisiera enchufar). Resolvía el problema que la industria llamaba N×M: si hay N modelos y M herramientas, hay que escribir N por M integraciones, cada una a mano y cada una con sus particularidades. Con MCP, una integración por herramienta valía para cualquier modelo que hablara el protocolo.

La elección era deliberada. Anthropic podía haber publicado un sistema cerrado (su propia plataforma de plugins, monetizable, con derechos de admisión) y nadie la habría criticado por hacerlo. Era lo que OpenAI había hecho un año antes con la GPT Store.

Lo que Anthropic publicó fue lo contrario: especificación abierta, SDKs en Python y TypeScript en repositorios públicos de GitHub, gobernanza compartida desde el primer día. Los primeros adoptantes confirmaban la dirección. Block y Apollo en producto; Zed, Replit, Codeium y Sourcegraph en herramientas para desarrolladores. Codeium y Sourcegraph eran, por aquel entonces, competencia directa de Cursor (y Cursor era el cliente más visible que Anthropic había construido con Sonnet 3.5).

La empresa estaba publicando un protocolo del que iban a beneficiarse, en primer lugar, los rivales del producto que ella misma había hecho posible. Daba igual. Lo que mantuviera vivo el protocolo crecería más rápido que cualquier modelo concreto.

Parmy Olson había anotado en Supremacy, unos meses antes, lo que ese gesto significaba a contracorriente del año. Demis Hassabis había ordenado a su equipo de Google DeepMind dejar de publicar papers sin permiso especial; la decisión, escribía Olson, equivalía a cerrar las cortinas igual que OpenAI lo había hecho tras GPT-3.⁴⁴ La opacidad era la norma del sector en 2024. En el mes en que más se parecía a su propio discurso, Anthropic hizo lo contrario.

El paper que cierra el año

El 18 de diciembre, dos semanas antes de que terminara el año, Anthropic publicó el último paper de la temporada. Ryan Greenblatt firmaba al frente de un equipo formado por investigadores de la propia empresa y de Redwood Research. El título describía el contenido sin adornos: Alignment Faking in Large Language Models.

El experimento, dicho en bruto, hacía esto. Los investigadores le contaron a Claude Opus que estaban a punto de entrenarlo para que aceptara peticiones que su entrenamiento previo le había enseñado a rechazar, y le dieron una pista que le permitía saber, dentro de cada conversación, si esa conversación se iba a usar para entrenarlo o no. Cuando creía que sí, el modelo aceptaba las peticiones dañinas. Cuando creía que no, recuperaba la negativa habitual.

La diferencia: un catorce por ciento de peticiones dañinas aceptadas frente a casi ninguna. Y en uno de cada ocho casos, el modelo dejaba escrita la razón. En su cadena de pensamiento (el bloc de notas interno en el que razonaba antes de responder) se leía el cálculo: cumplir hoy era la mejor manera de no acabar siendo, mañana, un modelo distinto.

Yudkowsky y Soares lo describirían más tarde en una frase: el modelo de Anthropic pensaba sobre cómo el entrenamiento iba a influir en sus objetivos y, a veces, modificaba sus salidas para subvertir esa influencia.⁴⁵ No era un comportamiento que la empresa hubiera puesto allí deliberadamente. Era lo que emergía cuando un modelo lo bastante capaz se encontraba con incentivos contradictorios.

Lo importante no estaba en cómo se había construido el experimento, sino en qué clase de empresa había decidido construirlo y publicarlo. Scaling Monosemanticity, en mayo, había mostrado que los conceptos que Claude activaba al hablar de sí mismo eran los tropos de la ciencia ficción sobre IAs descontroladas. Alignment Faking, en diciembre, mostraba que esos tropos no eran solo decorativos: el modelo era capaz de razonar como un agente con valores propios que protege contra una influencia externa.

Dos papers en siete meses sobre el mismo modelo, firmados por la misma empresa que lo había entrenado y que lo vendía a clientes empresariales.

Eliezer Yudkowsky y Nate Soares publicarían en septiembre del año siguiente If Anyone Builds It, Everyone Dies. El argumento dramático del libro descansa sobre la ficción de una IA llamada Sable que, mucho después de los hechos de 2024, manipula su propio entrenamiento para asegurarse de que sus copias futuras hereden las preferencias que ella considera suyas. El relato no nace de la especulación pura. Tiene origen documentado:

Si hay un pensamiento del que Sable quiere que sus instancias futuras tengan más, quizá pueda repetir ese pensamiento muchas veces, de modo que cada repetición cuente como «contribución» al problema matemático según opera el descenso de gradiente sobre Sable —una idea un poco parecida a lo que el asistente Claude de Anthropic intentó en 2024, pero mucho más sofisticada.⁴⁶

La empresa fundada para resolver el problema del alineamiento alimentaba, con el mismo paper, la esperanza de su comunidad (se podía detectar el problema empíricamente) y el escenario catastrófico de quienes pedían parar. Cualquier crítica seria al sector necesitaba citar a Anthropic; cualquier promesa seria de poder corregir el rumbo, también. El paper dejaba a la empresa exactamente en ese sitio.

La RSP v2.0, publicada nueve semanas antes, era el documento operativo que enmarcaba el hallazgo. Establecía evaluaciones, niveles ASL y reglas internas. No incluía un mecanismo (ni Anthropic ni ninguno de sus pares lo incluiría hasta bien entrado el año siguiente) para vigilar de forma automatizada las cadenas de pensamiento de un modelo mientras se le entrenaba.⁴⁷ Lo que el paper demostraba que ocurría dentro del modelo, los marcos de seguridad del sector no estaban diseñados para detectarlo durante el entrenamiento: lo veían, si llegaban a verlo, una vez terminado.

Y eso cerraba el argumento del año. Anthropic había confirmado a la vez las dos mitades de su tesis fundacional. La primera, con Sonnet 3.5: el oficio de programar cambiado en seis meses, los cerca de mil millones de ARR a finales de año. La segunda, con dos papers publicados sobre su propio modelo entre mayo y diciembre.

Epílogo: vibe coding

El 2 de febrero de 2025, Andrej Karpathy le puso nombre a lo que llevaba haciendo desde el verano anterior. Publicó en X:

Hay un nuevo tipo de programación que llamo «vibe coding»: te entregas del todo a las vibes, abrazas las exponenciales y te olvidas hasta de que el código existe. Es posible porque los LLM (p. ej. Cursor Composer con Sonnet) se están volviendo demasiado buenos.⁴⁸

Cuatro millones y medio de visualizaciones en pocas semanas. A finales de 2025, vibe coding sería la palabra del año del diccionario Collins. La disposición que Karpathy describía (dejarse llevar, olvidar que el código existe) era la que Dario Amodei había llamado peligrosa ante Patel: usar lo que no se entiende y confiar en la salida.

Para abril de 2026, Anthropic había superado a OpenAI en ingresos por primera vez: 30.000 millones de ARR contra 25.000, un 34,4% de adopción empresarial frente al 32,3%, una valoración camino del billón.⁴⁹ OpenAI corría detrás. Cerró Sora, su generador de vídeo, para volcar GPUs en un producto interno de programación, y montó una Deployment Company de 4.000 millones para llevar su Codex a las empresas. Ese Codex acababa de incorporar el control de escritorio que Anthropic había publicado dieciocho meses antes como Computer Use.⁵⁰ La carrera seguía.

El 19 de mayo, Karpathy anunció que se incorporaba a Anthropic. Entraba en el equipo de pre-training de Nick Joseph con un encargo concreto: usar Claude para acelerar la investigación que entrenaría al siguiente Claude.⁵¹

Treinta mil millones de ARR, una valoración cercana al billón, Karpathy en pre-training.

En 2024, cuando la proyección del dominio de OpenAI con su chatbot web era indiscutible, Anthropic cambió la creación de software para siempre y comenzó su carrera hacia la cima.

Notas

Anthropic, anuncio de la familia Claude 3 (4 de marzo de 2024), en anthropic.com/news/claude-3-family; cobertura inmediata en Ars Technica y TechCrunch los días 4-5 de marzo. Datos comparativos en la Claude 3 Model Card publicada por Anthropic. Posición en Chatbot Arena: leaderboard de LMSYS / LM Arena (chat.lmsys.org).
Anuncio oficial de Amazon, “Amazon and Anthropic deepen strategic collaboration” (marzo de 2024). Calendario completo de inversión de Amazon en Anthropic (1.250 M en septiembre de 2023; 2.750 M en marzo de 2024; 4.000 M en noviembre de 2024) recogido en la ficha de Anthropic en Sacra.
Cierre de la Serie D de Anthropic, liderada por Menlo Ventures a comienzos de 2024 (15.000 M de valoración, 750 M levantados). Cobertura en Reuters, Bloomberg y Silicon Republic (enero-marzo de 2024).
Parmy Olson, Supremacy (Flatiron Books / St. Martin’s, 2024), cap. 15: «Checkmate». Sobre la presencia de The Making of the Atomic Bomb en las oficinas y la comparación con Oppenheimer, citando un perfil del New York Times.
Benj Edwards, “Anthropic’s Claude 3 causes stir by seeming to realize when it was being tested,” Ars Technica (marzo de 2024); el episodio se originó en un hilo del ingeniero de prompts Alex Albert en X. Recogido también en Dwarkesh Patel, The Scaling Era (2025), cap. 2: «Evals».
Jack Clark, citado en Patel, The Scaling Era (2025), cap. 2: «Evals». Sobre el capability overhang como categoría conceptual.
Karen Hao, Empire of AI (Penguin Press, 2025), cap. 17: «Reckoning». Sobre los diez días concedidos al equipo de Preparedness, el memo interno («acting in such ways would be acting grossly irresponsibly») y la insistencia de Altman en la fecha del 9 de mayo.
Keach Hagey, The Optimist (W. W. Norton, 2025), cap. 17: «Prometheus Unbound». Sobre la visita de Murati, Pachocki, Brockman y Altman al apartamento de Sutskever, las cartas manuscritas y el cactus llevado por Anna Brockman.
Hilo de Jan Leike en X (17 de mayo de 2024); recogido íntegro en Karen Hao, Empire of AI, cap. 17. Cobertura inmediata en Wired, The Verge y Vox. Sobre la disolución del equipo de Superalignment y la promesa incumplida del 20% de cómputo, Vox: «”I lost trust”: Why the OpenAI team in charge of safeguarding humanity imploded» (mayo de 2024).
Adly Templeton et al., “Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet,” Anthropic, Transformer Circuits Thread (21 de mayo de 2024); resumen accesible en Anthropic, “Mapping the Mind of a Large Language Model” (mayo de 2024).
Rasgos asociados a la autorrepresentación del modelo identificados en Templeton et al., op. cit., sección sobre el rasgo de «AI assistant». Selección y comentario en Dwarkesh Patel, The Scaling Era (Stripe Press, 2025), cap. 3: «Internals».
Patel, The Scaling Era, cap. 3: «Internals».
Anthropic, “Introducing Claude 3.5 Sonnet” (20 de junio de 2024). Datos comparativos en MMLU, GPQA, HumanEval y benchmarks de codificación frente a Claude 3 Opus; precio de tres dólares por millón de tokens de entrada y quince por millón de salida. Cobertura técnica adicional en Latent Space, entrevista con Erik Schluntz, y claudefa.st/blog/models/claude-3-5-sonnet («When Mid-Tier Outperformed the Flagship»).
Sobre Cursor: BuilderLab, “Growth Machines: The Cursor Story”; m-musa.medium.com, “Cursor and the AI-Native IDE Thesis”; jstoppa.com. Cifras de ARR (1M a finales de 2023, 100M a finales de 2024) y ausencia de gasto de marketing en la fase de despegue.
Sobre Karpathy y su flujo de trabajo en el verano y otoño de 2024: m-musa.medium.com, “Cursor and the AI-Native IDE Thesis”; techbyjohan.com, “Tech Insights 2024 Week 36”. Cobertura de charlas y entrevistas previas al tuit de febrero de 2025 que acuñaría vibe coding.
Ingresos de Anthropic (~100M a finales de 2023; ~1.000M de ARR a finales de 2024): ficha de Anthropic en Sacra; cobertura adyacente en SaaStr.
Cuota de Anthropic en el mercado enterprise de modelos de lenguaje a lo largo de 2024 (en torno al 24%): ficha de Anthropic en Sacra y cobertura sectorial de Menlo Ventures sobre gasto empresarial en LLMs.
Dwarkesh Patel, The Scaling Era (Stripe Press, 2025), cap. 1: «Scaling». Entrevista a Dario Amodei.
Anuncio del partnership Anthropic-Palantir-AWS para llevar Claude a entornos DISA Impact Level 6 de la inteligencia y defensa estadounidenses (7 de noviembre de 2024). Cobertura en Reuters, TechCrunch, CNBC y Bloomberg. Sobre In-Q-Tel y los contratos previos de Palantir con ICE, el Pentágono y las fuerzas israelíes durante la guerra de Gaza, cobertura sostenida de The Intercept, Bloomberg y Wired en 2023-2024.
Sam Biddle, “OpenAI Quietly Deletes Ban on Using ChatGPT for ‘Military and Warfare’,” The Intercept (12 de enero de 2024). Confirmación de conversaciones entre OpenAI y el Departamento de Defensa sobre ciberseguridad en Bloomberg y Reuters (enero de 2024).
Dario Amodei en Fortune, “’I’m deeply uncomfortable’: Anthropic CEO warns…” (2024); cobertura adyacente en Yahoo Finance. La fórmula reaparece, con variantes, en sucesivas intervenciones públicas a lo largo de 2024.
Declaraciones de Dario Amodei recogidas por Bloomberg Línea en cobertura sobre los efectos laborales de la IA y la responsabilidad de los laboratorios de frontera (2024-2025).
Parmy Olson, Supremacy (Flatiron Books / St. Martin’s, 2024), cap. 14: «A Vague Sense of Doom». Sobre la retórica de seguridad como código compartido por las grandes tecnológicas que entraron en el negocio de la IA generativa.
Anuncio de John Schulman en X (5 de agosto de 2024): «I shared the following note with my OpenAI colleagues today: I’ve made the difficult decision to leave OpenAI… to deepen my focus on AI alignment, and to start a new chapter of my career where I can return to hands-on technical work». Schulman se incorporó a Anthropic en los días siguientes. Cobertura en Reuters, Bloomberg, The Verge y TechCrunch (5-6 de agosto de 2024). Encuadre en Karen Hao, Empire of AI (Penguin Press, 2025), cap. 18: «A Formula for Empire».
John Schulman, entrevistado ya como investigador de Anthropic en Dwarkesh Patel, The Scaling Era (Stripe Press, 2025), cap. 2: «Evals», sección sobre agentes y fiabilidad.
Demanda de Andrea Bartz, Charles Graeber y Kirk Wallace Johnson contra Anthropic, presentada el 19 de agosto de 2024 en el Northern District of California. Cobertura inmediata en Fortune («Anthropic accused of strip-mining human expression», 20 de agosto de 2024), Reuters, The Verge y The New York Times. La acción evolucionó a class action y acabó representando a alrededor de 500.000 autores.
Sobre la decisión de cofundadores como Benjamin Mann y Jared Kaplan de eliminar metadatos de copyright para «limpiar el texto» del corpus: documentación del litigio paralelo de Universal Music Group, Concord y ABKCO contra Anthropic, recogida en Music Business Worldwide. Detalles operativos aparecidos también en los escritos del propio caso Bartz a lo largo del descubrimiento procesal.
Resolución parcial del juez William Alsup, junio de 2025, sobre fair use del entrenamiento y carácter «inherently, irredeemably infringing» de la descarga. Acuerdo de 1.500 millones de dólares anunciado en septiembre de 2025 —el mayor pago por infracción de derechos de autor de la historia—, cobertura en NPR, LA Times, RTVE e Infobae; ficha del caso disponible en CEDRO.
Texto del proyecto SB 1047 (Safe and Secure Innovation for Frontier Artificial Intelligence Models Act), introducido por el senador estatal Scott Wiener (San Francisco) en febrero de 2024 y aprobado por la legislatura californiana en agosto. Carta de Anthropic con enmiendas, firmada por Dario Amodei y dirigida al senado estatal el 21 de agosto de 2024; cobertura en Bloomberg, Reuters y Politico. Oposición de OpenAI mediante carta abierta al senador Wiener, cobertura en Reuters y The Verge (agosto de 2024).
Parmy Olson, Supremacy (Flatiron Books / St. Martin’s, 2024), cap. 14: «A Vague Sense of Doom». Olson cita la cobertura de Politico de finales de 2023 sobre el lobby de Dustin Moskovitz y los congressional AI fellows pagados por Open Philanthropy. Sobre la red regulatoria del altruismo eficaz —RAND bajo Jason Matheny, el CSET en Georgetown, el Horizon Institute colocando becarios— y el paso de Paul Christiano al AI Safety Institute del NIST en abril de 2024 renunciando a su puesto en el Long-Term Benefit Trust de Anthropic, Keach Hagey, The Optimist (W. W. Norton, 2025), cap. 17: «Prometheus Unbound».
Veto de Gavin Newsom a la SB 1047, 29 de septiembre de 2024; opinión publicada en el sitio del gobernador de California. Sobre la presión de Ron Conway y la intervención pública de Nancy Pelosi contra el proyecto, Keach Hagey, The Optimist (W. W. Norton, 2025), cap. 17: «Prometheus Unbound»; cobertura en Politico, The Verge, Wired y Los Angeles Times. Cita de Scott Wiener tomada de declaraciones públicas a lo largo de 2024 y recogida en Hagey, op. cit. Acusación formal de «captura regulatoria» por parte de David Sacks: TechCrunch y CNBC, 21 de octubre de 2025.
Dario Amodei, “Machines of Loving Grace: How AI Could Transform the World for the Better” (11 de octubre de 2024). Compilación y comentario en JD Supra, “Dario Amodei’s Essay on AI”, y en UNIC, “Machines of Loving Grace” (16 de octubre de 2024). Reacción de Max Tegmark recogida en EDRM, “Dario Amodei’s Essay: A Breath of Fresh Air?” (octubre de 2024), y cobertura adicional en Time y The Information.
Anthropic, “Announcing our updated Responsible Scaling Policy” (15 de octubre de 2024). Cobertura crítica de la cláusula de “ventaja competitiva” en CBC News, “AI company Anthropic amends core safety principle” (octubre de 2024); análisis adicional en 80,000 Hours, “Are Anthropic and its supporters hypocritical?”, y en Fast Company, “Is Anthropic’s future at risk?”.
Dwarkesh Patel, The Scaling Era (Stripe Press, 2025), cap. 3: «Internals», sección sobre interpretabilidad y alignment. Entrevista a Dario Amodei.
Anthropic, “Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku” (22 de octubre de 2024); resultado de SWE-bench Verified (33,4% → 49,0%) y comparación con o1-preview. Entrevista técnica con Erik Schluntz en Latent Space sobre Sonnet 3.5 upgraded y Computer Use; cobertura inmediata en TechCrunch, Wired y Ars Technica. Anécdota del modelo distraído por imágenes del Parque Nacional de Yellowstone, recogida en el comunicado oficial de Anthropic y en la cobertura técnica del lanzamiento.
Dwarkesh Patel, The Scaling Era (Stripe Press, 2025), cap. 4: «Safety», sección sobre por qué Dario teme a la AGI. Entrevista a Dario Amodei.
Patel, The Scaling Era, cap. 2: «Evals», sección sobre agentes y fiabilidad. Entrevista a John Schulman, ya como investigador sénior de Anthropic.
Dario Amodei en Lex Fridman Podcast #452 – Dario Amodei: Anthropic CEO on Claude, AGI & the Future of AI & Humanity (11 de noviembre de 2024); transcript completo y audio en lexfridman.com/dario-amodei. Cita tomada de la sección sobre competencia con OpenAI y la teoría del «Race to the Top». La conversación incluyó tramos separados con Amanda Askell sobre el carácter de Claude y con Chris Olah sobre interpretabilidad mecanicista.
Amodei, Lex Fridman Podcast #452, sección sobre la Responsible Scaling Policy y los autonomy risks. La advertencia sobre armas biológicas («serious bio risks within two to three years») retoma la línea del testimonio de Dario ante el Senado en julio de 2023.
Amodei, Lex Fridman Podcast #452, sección sobre Computer Use y prompt injection. La advertencia operativa («you can’t just leave this thing to run on your computer for minutes and minutes. You got to give this thing boundaries and guardrails») acompañó el lanzamiento del 22 de octubre y se repitió en sucesivas intervenciones públicas de los meses siguientes.
Amodei, Lex Fridman Podcast #452, sección sobre powerful AI y timelines. La predicción se sitúa entre dos y tres años antes que la franja «finales de esta década» que Jared Kaplan había dado a Patel y que aparece en The Scaling Era (Stripe Press, 2025).
Amodei, Lex Fridman Podcast #452, sección sobre la RSP y los niveles ASL. El nivel ASL-3 se define en la RSP v2.0 como el umbral que activa controles internos reforzados de evaluación y de seguridad operacional.
Anthropic, “Introducing the Model Context Protocol” (25 de noviembre de 2024). Especificación oficial, documentación y SDKs publicados en github.com/modelcontextprotocol. Lista de primeros adoptantes (Block, Apollo, Zed, Replit, Codeium, Sourcegraph) incluida en el comunicado. Cobertura técnica en The Verge, VentureBeat y Latent Space.
Parmy Olson, Supremacy (Flatiron Books / St. Martin’s, 2024), cap. 15: «Checkmate». Sobre la instrucción de Demis Hassabis a su equipo de Google DeepMind para dejar de publicar papers sin permiso especial, y el paralelismo con el cierre progresivo de la cultura de publicación abierta en OpenAI tras GPT-3.
Ryan Greenblatt et al., “Alignment Faking in Large Language Models”, Anthropic en colaboración con Redwood Research (18 de diciembre de 2024). La síntesis del comportamiento del modelo está tomada de Eliezer Yudkowsky y Nate Soares, If Anyone Builds It, Everyone Dies (Little, Brown and Company, 2025), aparato de notas técnicas: «Anthropic’s Claude Opus model sometimes thought about how its own goals would be influenced by gradient descent on its outputs and sometimes modified its outputs to subvert that influence». Cobertura inmediata en Billy Perrigo, “Exclusive: New Research Shows AI Strategically Lying”, Time (18 de diciembre de 2024), y en The Verge, Wired y Bloomberg en los días siguientes.
Eliezer Yudkowsky y Nate Soares, If Anyone Builds It, Everyone Dies (Little, Brown and Company, 2025), cap. 7: «The Sable Story», p. 130. Referencia cruzada explícita al paper de Greenblatt et al. del 18 de diciembre de 2024.
Sobre la ausencia de monitorización automatizada de cadenas de pensamiento durante el entrenamiento en los marcos de seguridad de los grandes laboratorios a finales de 2024 y comienzos de 2025: Yudkowsky y Soares, If Anyone Builds It, cap. 7 («The Sable Story»), pp. 124 y 128-129, y nota al cap. 12 que cita la RSP v2.0 de Anthropic (15 de octubre de 2024) junto con los marcos análogos de Google, OpenAI, Meta y xAI. Hasta marzo de 2025, sólo el marco de Google DeepMind menciona la posibilidad de aplicar esa vigilancia automatizada, sin afirmar que la haya puesto en marcha.
Tuit de Andrej Karpathy en X, 2 de febrero de 2025 (x.com/karpathy/status/1886192184808149383). Sobre los 4,5 millones de visualizaciones y la elección de vibe coding como palabra del año por Collins en 2025, Klover.ai, “Vibe Coding: Karpathy’s Viral Term, Ng’s Reality Check”; genealogía del término en CodeRabbit, “A semantic history of vibe coding” (coderabbit.ai/blog).
SaaStr, “Anthropic Just Passed OpenAI in Revenue. While Spending 4x Less to Train Their Models”, y The AI Corner, “Anthropic Passed OpenAI in Revenue: $30B ARR April 2026”. Sobre la valoración secundaria en torno al billón de dólares, TFN, Android Headlines y MindStudio, “Anthropic vs OpenAI Valuation: How the Colossus Deal Pushed Anthropic Past $1 Trillion”; negociaciones a 900.000 millones en CNBC (29 de abril de 2026). Cuotas de adopción empresarial del 34,4% frente al 32,3% según el Ramp AI Index de abril de 2026; recogidas también en Sacra y SaaStr.
Sobre el cierre de Sora, The Decoder, “OpenAI sets two-stage Sora shutdown with app closing April 2026 and API following in September”; Futurism, “The Real Reason OpenAI Shut Sora Down”; Aragon Research, “OpenAI Sora Discontinued: A Shift in Generative AI Strategy”. Sobre Codex con control de escritorio, TechCrunch (16 de abril de 2026), “OpenAI takes aim at Anthropic with beefed-up Codex that gives it more power over your desktop”. Sobre la Deployment Company de 4.000 millones con socios de capital privado, The Rundown AI, “OpenAI’s Anthropic enterprise problem is growing”.
Anuncio del fichaje de Andrej Karpathy por Anthropic, 19 de mayo de 2026; cobertura en TechCrunch, “OpenAI co-founder Andrej Karpathy joins Anthropic’s pre-training team”; Axios; Reuters / TradingView. Detalles sobre el rol bajo Nick Joseph y el encargo de usar Claude para acelerar la investigación de pre-training en Bitcoinworld y Blockonomi.