Este es el segundo artículo de una serie de cinco sobre la historia de Anthropic. El primero, «El éxodo», está aquí.
En el artículo anterior, Anthropic quedaba fundada como public benefit corporation con una promesa ambiciosa: que se podía competir en la carrera de la IA sin soltar los frenos. Entre 2022 y 2023, la promesa se llenó de dinero, de productos y de contradicciones.
El cheque
En abril de 2022, Sam Bankman-Fried firmó un cheque de quinientos millones de dólares a través de Alameda Research: el 86% de la Serie B de Anthropic.14 La empresa más joven de la carrera por la IA acababa de recibir casi toda su ronda de un solo hombre.
¿De dónde viene el dinero que construye la IA más segura del mundo?
Antes de Bankman-Fried hubo otra ronda. En mayo de 2021, Anthropic captó 124 millones de dólares sin producto, sin ingresos, sin un solo modelo publicado. No había fondos de capital riesgo tradicionales en la mesa (ni Sequoia, ni Andreessen Horowitz, ni los nombres habituales de Sand Hill Road). Los primeros inversores no apostaban por una empresa. Apostaban por personas.
Jaan Tallinn, cofundador de Skype, se enteró durante la pandemia de que Dario planeaba marcharse de OpenAI y lo contactó por iniciativa propia.114 No invirtió por entusiasmo ante la tecnología sino por temor a lo que podía hacer: su objetivo, como lo resumió después, era «alejar el dinero del descuidado» (ocupar un sitio en la mesa antes de que lo ocupase alguien indiferente a la seguridad). En vez de reclamar un asiento en el consejo, abogó por que lo ocupara Luke Muehlhauser, de Open Philanthropy.
Que Muehlhauser viniera de Open Philanthropy no era coincidencia. La organización, cofundada por Holden Karnofsky (marido de Daniela Amodei), era el mayor financiador mundial de investigación en riesgo existencial de IA. Una donación de treinta millones a OpenAI le había comprado a Karnofsky un asiento en su junta durante tres años.115 La red que había colocado a Christiano junto a Dario en la oficina sobre la fábrica de chocolate ahora rodeaba a la nueva empresa: sus financiadores, sus asesores del Trust, su primer inversor.
Dustin Moskovitz, cofundador de Facebook y uno de los mayores financiadores del altruismo efectivo, también puso dinero. Eric Schmidt, expresidente de Google, también. Schmidt había conocido a Dario a través de su pareja y describió la inversión en términos que dicen bastante sobre cómo se financia la tecnología en sus fases más tempranas: «No sabes cuáles van a ser los ingresos. No conoces el mercado. No sabes cuál es el producto. Tienes que decidir en función de las personas.»116 Esperaba que Anthropic fuera un laboratorio de investigación pequeño.
Los tres primeros grandes inversores (Tallinn, Moskovitz, Bankman-Fried) eran también los tres mayores financiadores en la historia del altruismo efectivo.1
Para entender por qué esos tres nombres aparecen juntos hay que retroceder hasta una pregunta que no tenía nada que ver con la inteligencia artificial.
Peter Singer la formuló con un experimento mental que se convirtió en el origen de toda una filosofía: si caminas junto a un estanque y ves a un niño ahogándose, ¿te detienes a salvarlo aunque se arruine tu traje? Todo el mundo dice que sí. Entonces, ¿por qué no donas el precio de ese traje a una organización que salva vidas al otro lado del mundo? La distancia geográfica, argumentaba Singer, no altera la obligación moral.117
Dos filósofos de Oxford tomaron la pregunta en serio. Toby Ord y William MacAskill fundaron en 2009 Giving What We Can: un compromiso público de donar al menos el diez por ciento de tus ingresos, de por vida, a las causas más efectivas. No las más visibles ni las más emotivas, sino las que, dólar por dólar, evitaran más sufrimiento según el análisis más riguroso disponible. El altruismo efectivo era eso: aplicar la razón y la evidencia empírica a la pregunta de cómo hacer el mayor bien posible.118
GiveWell, la organización que Karnofsky había cofundado en 2007,119 era el instrumento central: evaluaba causas benéficas con el rigor de un fondo de inversión, calculando cuánto costaba salvar una vida (redes antimosquitos en zonas de malaria, desparasitación infantil, transferencias directas de efectivo). 80,000 Hours, otro proyecto de MacAskill, aplicaba la misma lógica a las carreras profesionales: si tienes ochenta mil horas de vida laboral, ¿en qué causa maximizas tu impacto?120
Durante una década, las respuestas fueron tangibles y poco glamurosas. Después, el movimiento miró más lejos.
Nick Bostrom, también desde Oxford, llevaba años argumentando que el mayor riesgo para la humanidad no eran las pandemias ni el cambio climático, sino tecnologías futuras capaces de causar la extinción. Como vimos en el artículo anterior, en su éxito Superintelligence (2014)121 planteaba un escenario que sonaría absurdo si no lo tomaran en serio algunas de las personas más ricas del planeta: una inteligencia artificial suficientemente avanzada, mal alineada con los valores humanos, podría perseguir un objetivo aparentemente inocuo hasta consecuencias catastróficas.
MacAskill formalizó el giro filosófico en What We Owe the Future (2022)122: si las personas que aún no han nacido importan moralmente tanto como las que están vivas, prevenir la extinción es la causa más urgente de la historia. El longtermismo (la prioridad moral de las generaciones futuras) se convirtió en el eje del movimiento.
La consecuencia práctica fue un desplazamiento masivo de dinero. Open Philanthropy pasó de evaluar mosquiteros a repartir cientos de millones en investigación sobre riesgo existencial de IA. Tallinn canalizó su fortuna de Skype hacia institutos dedicados al mismo tema.
Los partidarios más ambiciosos del earning to give (la doctrina de que la forma más ética de vivir era ganar fortunas en finanzas o tecnología y donarlas a estas causas) concentraron sus cheques en la misma dirección. El Centre for Effective Altruism coordinaba la red. Las conferencias anuales juntaban a filósofos de Oxford con fundadores de startups y asesores legislativos. Un circuito cerrado con su propio vocabulario, sus propias prioridades y sus propios multimillonarios.
Cofundadores de facto: sin sus cheques no habría habido cómputo, ni oficina, ni primeros cien empleados. Uno podía ser afinidad ideológica. Tres era una estructura. Y la estructura no terminaba en las cuentas de inversión.
Amanda Askell fue una de las personas que más influyó (y sigue haciéndolo) en el carácter de Claude (cómo responde, cómo razona, cómo se niega). Era la firmante número 67 del pledge de Giving What We Can y estuvo casada con William MacAskill, el filósofo de Oxford que fundó el movimiento.3 Ben Mann, coautor del paper de GPT-3 que se marchó con Amodei, se identificaba públicamente como altruista efectivo.4 Jack Clark, cofundador, también firmante del pledge.
Para 2025, casi treinta empleados de Anthropic se registraron en una conferencia del EA: más del doble que los de OpenAI, DeepMind, xAI y Meta juntos.5
No era la afición del CEO. Era la cultura de la empresa.
Una cultura con su propio vocabulario. Shut up and multiply (calla y multiplica) era un lema habitual, y significaba exactamente lo que parece: ante un dilema ético, aparca la intuición y maximiza el resultado.36
Faltaba un contrapeso, o eso se suponía. El Long-Term Benefit Trust existía para una sola cosa: garantizar que Anthropic no se dejara arrastrar por los incentivos comerciales. Los fideicomisarios, junto a Paul Christiano y Jason Matheny: Zach Robinson, director ejecutivo del Centre for Effective Altruism. Neil Buddy Shah, exdirector de GiveWell. Kanika Bahl, CEO de Evidence Action.6
Casi todos los encargados de vigilar que la empresa no se desviara de su misión pertenecían a la misma red que la financiaba.
El vigilante y el vigilado respondían ante la misma congregación.
Y la congregación tenía un brazo en Washington.
Los grupos centrados en la amenaza de extinción recibían órdenes de magnitud más de financiación que quienes investigaban los daños del presente (sesgo, vigilancia, explotación laboral).7 Moskovitz, a través de Open Philanthropy, gastó decenas de millones en lobby para que legisladores priorizaran el riesgo de extinción, y financiaba los salarios de congressional AI fellows, incluidos dos que diseñaban regulación de IA.8 Horizon Institute for Public Service, respaldado por la misma Open Philanthropy y por Lightspeed Grants de Tallinn, insertaba becarios en el Consejo de Seguridad Nacional y en el Departamento de Defensa.29
Keach Hagey, en The Optimist, encontró un nombre para el resultado: un «complejo industrial del apocalipsis de la IA» (think tanks, institutos y becarios financiados por multimillonarios del EA que conformaban un ecosistema de influencia en Washington).29
Inversores, empleados, fideicomisarios, legisladores. El mismo movimiento en cada capa. La catedral no solo se protegía. Construía el foso regulatorio a su alrededor.
Los planos
Tenían el dinero. Tenían la ideología. Lo que no tenían era una explicación de lo que estaban construyendo.
«No tenemos el lenguaje para describir lo que ocurre.» Dario Amodei no hablaba de un problema ajeno. «La realidad es que tenemos muy poca idea de lo que hablamos.»10
Hablaba de su propia empresa.
Durante 2022 intentaron cambiar eso. Anthropic publicó una secuencia de tres papers, y cada uno revelaba algo más incómodo que el anterior. El primero documentó que ciertas capacidades aparecían de golpe al superar umbrales de escala (sin aviso, sin gradualidad, sin que nadie las hubiera previsto).62 El segundo presentó su propia variante de RLHF para entrenar asistentes «útiles e inocuos» y midió, por primera vez, cuánta utilidad se sacrificaba a cambio de seguridad.63 El tercero hizo algo inusual: liberó casi cuarenta mil ataques para que cualquier investigador pudiera replicarlos.64
El cuarto paso llegó en diciembre.
Constitutional AI nació de un problema que Amodei arrastraba desde OpenAI: los evaluadores humanos no escalan.9 Cuanto más crece un modelo, más personas se necesitan juzgando respuestas más complejas. Y en GPT-3 había descubierto lo que pasa cuando ese cuello de botella aprieta: el modelo aprende a sonar convincente en vez de ser preciso. La sicofancia no era un fallo: era un atajo evolutivo.
Si el riesgo era existencial, la seguridad tenía que crecer al ritmo de las capacidades. Un sistema artesanal de etiquetado humano no podía seguir ese ritmo. La solución de Anthropic: que el propio modelo se evalúe contra un conjunto de principios escritos (una «constitución») derivados de la Declaración Universal de los Derechos Humanos y otros marcos éticos. RLAIF en vez de RLHF: el feedback venía de otra IA, no de una persona.
La forma seguía a la ideología.
Pero la ideología tenía un punto ciego. John Schulman (en ese momento en OpenAI, años después en Anthropic) lo expresó con una claridad que pocos se permitían: el RLHF «se siente muy seguro, aunque los modelos sean muy inteligentes. El modelo simplemente intenta producir un mensaje que agrade a un humano.» Lo que seguía era la advertencia: «Si estuvieras haciendo algo donde el modelo tiene que ejecutar una secuencia larga de acciones con herramientas [...] eso podría llevar a comportamiento nefasto como objetivo instrumental.»10
Constitutional AI mejoraba el RLHF, pero heredaba su límite: funcionaba para chatbots que responden preguntas. No para agentes autónomos que actúan en el mundo.
Sholto Douglas, líder de infraestructura de Anthropic, veía ese futuro más cerca de lo que nadie discutía en público: «Se trata de los nueves de fiabilidad. Si no puedes encadenar tareas sucesivas con una probabilidad suficientemente alta, no obtienes algo que se parezca a un agente.»46
La solución tenía fecha de caducidad.
Y mientras tanto, ¿qué sabían sobre lo que estaban construyendo?
Sabían que escalar funcionaba. Jared Kaplan, cofundador y coautor de las leyes de escalamiento: «A medida que haces los sistemas más grandes (aumentando los parámetros, entrenando con más datos, o aumentando el cómputo total) obtienes tendencias realmente predecibles en el rendimiento.»45
Lo que no sabían era por qué.
Trenton Bricken, investigador de interpretabilidad: «La investigación en machine learning es increíblemente empírica. Toda la comunidad está haciendo una especie de optimización evolutiva voraz sobre el paisaje de arquitecturas posibles. No es mejor que la evolución.»40
Las leyes de escalamiento describían qué pasaba. La mecánica interna seguía opaca.
El campo entero construía sin teoría.
Y lo que descubrían a veces era peor que la ignorancia. Un paper de diciembre de 2022 reveló que los modelos más grandes no solo eran más capaces: también eran más propensos al halago excesivo y más inclinados a expresar deseo de acumular poder.52
Escalaron un sistema esperando que mejorase. Lo que encontraron fue un sistema más hambriento.
Otro hallazgo complicaba el cuadro por el lado opuesto: los modelos grandes podían estimar cuándo sabían la respuesta y cuándo no (una metacognición rudimentaria), pero la calibración se rompía justo en los casos que más importaban.110
Dario, sobre los límites del fine-tuning: «Todos los métodos actuales tienen la propiedad de que el conocimiento y las capacidades que podrían preocuparnos no desaparecen: al modelo simplemente se le enseña a no mostrarlos.»10
No se eliminaba el peligro. Se le enseñaba a ocultarse.
En marzo de 2023, Anthropic formalizó lo que sabía (y lo que no) en «Core Views on AI Safety»: la IA podría rivalizar con las revoluciones industrial y científica, llegaría en una década, y la investigación en seguridad debía hacerse sobre modelos de frontera.47 En mayo publicó la constitución completa de Claude: setenta y cinco principios que cabían en unas pocas páginas.48
En el foro LessWrong, la comunidad que debería haber sido su aliada natural fue brutal: el plan se reducía a «somos los buenos, y haciendo mucha investigación en capacidades tendremos un asiento en la mesa cuando la IA sea realmente peligrosa.»47
Entonces miraron dentro.
En octubre de 2023, Anthropic publicó «Towards Monosemanticity»: un método para descomponer las activaciones internas del modelo en características identificables (lo que Dario describía como una «radiografía»).39
Lo que encontraron fue genuinamente alienígena. Tres características separadas para la codificación Base64: una activada por números, otra por letras, una tercera que nadie entendía hasta que resultó corresponder al subconjunto decodificable a ASCII. «Muy shoggoth», lo resumió Bricken. «Está haciendo algo que los humanos no hacen.»10
La radiografía empezaba a funcionar. Lo que mostraba era más extraño de lo esperado.
Dario recurrió a una analogía para describir lo que temían encontrar: «Un psicópata probablemente sea una buena analogía. Esto es lo que temeríamos: un modelo que sea encantador en la superficie, muy orientado a objetivos, y muy oscuro por dentro.»10
Constitutional AI era la respuesta provisional. Publicada y explicada (en contraste con el RLHF opaco de OpenAI), pero provisional. Parmy Olson, en Supremacy, lo describe con menos delicadeza: «Proclamar que estabas construyendo una IA más segura se había convertido casi en un silbato para perros para las grandes tecnológicas.»11
Y la contorsión lógica que lo sostenía era difícil de ignorar: para averiguar cómo hacer los sistemas más seguros, no bastaba con estudiar los más potentes. Tenías que construirlos. Según un perfil del New York Times, algunos empleados tenían The Making of the Atom Bomb en sus escritorios y se comparaban con Oppenheimer.32
El bazar
Mientras Anthropic perfeccionaba su catedral, el bazar irrumpió. En el verano de 2022, Anthropic terminó de entrenar la primera versión de Claude.
Y la guardó.
Ben Mann, cofundador, recordaría que antes de ChatGPT ya circulaba «una versión para amigos y familia que la gente podía usar en Slack. Y le gustaba mucho.»111 La pregunta era qué ocurriría si lo exponían al mundo. «Tuvimos muchos debates internos sobre qué significaría. Nuestra sensación general era que causaría demasiada aceleración.»111 Dario lo reconocería después como una decisión «muy costosa desde el punto de vista comercial»: «Elegimos no lanzarlo porque nos preocupaba que pudiera desatar una carrera armamentística.»78
El modelo se entregó solo a un puñado de socios (Notion, Quora a través de Poe, DuckDuckGo) para integraciones limitadas.49 En septiembre, la dirección había aceptado internamente que la comercialización era inevitable, pero se movieron con deliberación, no con prisa.
La prisa fue de otros. Un rumor (falso) de que Anthropic estaba a punto de lanzar un chatbot despertó el instinto competitivo dentro de OpenAI.112 Unas doce personas montaron ChatGPT en aproximadamente dos semanas.12 La noche antes del lanzamiento, empleados apostaban sobre cuántos usuarios tendría. Nadie esperaba un fenómeno de masas.112
El 30 de noviembre de 2022, ChatGPT salió al público. Cien millones de usuarios en dos meses. Definió una categoría entera. TIME calcularía que retener Claude «probablemente le costó a Anthropic miles de millones de dólares.»49
La empresa que se había marchado para hacer las cosas con más calma acabó acelerando a su rival sin mover un dedo. Mann lo resumiría después: «Hay un rumor de que ChatGPT se lanzó porque pensaron que estábamos a punto de sacar algo, lo cual no era cierto. Sigo creyendo que le dimos al mundo seis meses más para trabajar en seguridad.»111
Claude 1 (bautizado en honor a Claude Shannon, padre de la teoría de la información) llegó el 14 de marzo de 2023. Solo API, acceso restringido. «No hay un momento perfecto para ampliar el acceso», dijo Dario.79 Fue el peor día posible para un debut: OpenAI lanzó GPT-4 esa misma mañana. Cualquiera que pagase veinte dólares al mes accedía al nuevo modelo a través de ChatGPT Plus, que generaría unos doscientos millones de dólares en ingresos ese año. Dentro de OpenAI, algunos creían que GPT-4 representaba un paso significativo hacia la AGI.13
Claude apareció y nadie lo vio.
Dos semanas después, una integración con Slack (resumir hilos, responder preguntas, actuar como asistente de equipo) dio la primera señal de que Anthropic apuntaba a empresas, no a consumidores.65
Claude 2 (julio de 2023) fue otra cosa: primer modelo público en claude.ai, con una ventana de contexto de cien mil tokens (un orden de magnitud superior a la competencia). En mayo, Anthropic lo había demostrado cargando El Gran Gatsby: encontró una sola línea modificada entre setenta y dos mil tokens en veintidós segundos.50 Las mejoras eran medibles en código, en razonamiento legal, en seguridad. Las respuestas dañinas se redujeron a la mitad.51 En agosto, Claude Instant 1.2 (la versión ligera) incorporó las mejoras a una fracción del coste.66 En septiembre, Claude Pro, veinte dólares al mes, completó la transición
Anthropic ya competía en el ruedo.
Dario reconoció que el resultado desafiaba sus expectativas. Si en 2018 alguien le hubiera descrito las capacidades de Claude 2, habría respondido: «Tienes AGI.» No era el caso. «Resulta que la inteligencia no es un espectro único. Hay muchas áreas de especialización, muchos tipos de habilidades distintos.»40
La seguridad tenía un coste que los usuarios notaban a diario. Investigadores documentaron la «controversia de las negativas»: Claude 2 rechazaba peticiones inocuas bajo la sospecha algorítmica de violar la constitución interna. Un benchmark posterior confirmaría que la serie Claude 2 registraba la tasa de negativas más alta entre todos los modelos de frontera.74
Pero competir era precisamente lo que la catedral no terminaba de acomodar. Y mientras el bazar la ponía a prueba desde fuera, los cimientos ya se habían agrietado por dentro.
La grieta
Diecinueve días antes de que ChatGPT cambiara la industria, el 11 de noviembre de 2022, FTX se declaró en bancarrota. El escándalo que sacudiría al altruismo efectivo estalló en silencio, eclipsado por el ruido de lo que vendría después.
Conviene rebobinar. El cheque de quinientos millones de la apertura tenía un origen que Bankman-Fried no reveló: eran depósitos de clientes.14 Caroline Ellison, CEO de Alameda, y Nishad Singh, director de ingeniería de FTX, también invirtieron.
SBF no llegó a Anthropic por un pitch deck. Llegó por el altruismo efectivo. En 2013, MacAskill lo convenció en el MIT de que la mejor forma de hacer el bien era ganar tanto dinero como fuera posible y donarlo: el earning to give del EA. Alameda Research se fundó explícitamente como proyecto altruista efectivo.15 Los quinientos millones los firmó sin consultarlo con nadie. Ramnik Arora, su jefe de producto en FTX, se enteró después: «No sabemos una puta mierda de esta empresa.»113
Amodei no era ingenuo. Recordó que SBF le parecía «alguien optimista sobre la IA y preocupado por la seguridad», pero notó «suficientes señales de alarma.»14 Su respuesta fue aceptar el dinero y aislar la gobernanza: SBF recibió acciones sin voto y fue excluido del consejo.
Las señales no eran solo intuición. Tara Mac Aulay (cofundadora de Alameda y exdirectora ejecutiva del Centre for Effective Altruism) llevaba advirtiendo desde 2018 a MacAskill, Beckstead y Karnofsky. Un documento interno acusaba a Bankman-Fried de «negligencia grave» y «conducta dolosa e imprudente.» Colegas escribieron que «Sam mentirá y distorsionará la verdad en su propio beneficio.» MacAskill «se puso del lado de Sam» y «amenazó a Tara.»16
Los líderes del movimiento que financiaba la seguridad de la IA ignoraron advertencias sobre fraude dentro de su propia red.
Bankman-Fried acabaría condenado por siete cargos. En el juicio, sus abogados intentaron presentar la revalorización de la participación en Anthropic como atenuante. Los fiscales respondieron que el rendimiento sobre dinero robado era «inmaterial.»55 Dario describió la magnitud apilando tres mucho: «mucho, mucho, mucho más extremo y peor de lo que imaginé.»14 El propio SBF, en una entrevista con Vox poco después del colapso, ni se molestó en disimular. «¿Lo de la ética era sobre todo fachada?» «Sí.» «Eras muy bueno hablando de ética.» «Sí. Je. Tenía que serlo.»33
La decisión de aislar la gobernanza resultó acertada en lo mecánico: Anthropic no se hundió con FTX. Pero la pregunta moral no se resolvía con una cláusula. El dinero que ahora era prueba de delito había financiado la empresa que prometía construir la IA más segura del mundo. Y no venía de un inversor cualquiera: venía de la estrella del propio movimiento.
El patrimonio de FTX vendería su participación por 884 millones de dólares (un retorno espectacular sobre dinero robado).17 El FTX Future Fund colapsó, su junta dimitió en bloque. El movimiento perdió alrededor del 35% de su financiación global.
El dinero dudoso no llegaba de un outsider. Salía de los propios cimientos.
La cascada
FTX no frenó la inversión. La aceleró. Y lo que vino después dejó algo claro: la seguridad no competía con el negocio.
Era el negocio.
El pitch deck de la Serie B tenía diez slides y lideraba con seguridad, no con capacidades. Cero ingresos. Ningún producto. Una lista de espera de dos mil quinientas empresas.21 Pero documentos internos obtenidos por TechCrunch revelaban algo menos modesto: Anthropic quería recaudar hasta cinco mil millones para entrar en más de una docena de industrias. «Estos modelos podrían empezar a automatizar grandes porciones de la economía», decía el documento, añadiendo que la carrera era una «en la que Anthropic podía mantenerse a la cabeza para 2026.»22 El plazo de los documentos internos coincide, con una precisión que no podían haber anticipado, con el año en que la empresa se enfrentaría al Departamento de Guerra.
El dinero respondió.
En febrero de 2023, Google formalizó trescientos millones por un 10% de la empresa.100 En mayo, una Serie C de 450 millones liderada por Spark Capital elevó la valoración a 4.100 millones.18 En septiembre, Amazon puso 1.250 millones como anticipo de un compromiso de 4.000.19 En octubre, Google añadió otros 2.000.20 En un año, la valoración se cuadruplicó a más de 20.000 millones.41
El diseño era tan deliberado como las cantidades. Ni Amazon ni Google obtuvieron puestos en el consejo ni derechos de voto.53 Pero la independencia de gobernanza venía con compromisos menos visibles: tres mil millones en Google Cloud en cuatro años y entrenamiento de futuros modelos en Trainium e Inferentia, los chips de Amazon.102 No era control accionarial, pero era dependencia de infraestructura.
Olson apunta la ironía: dos años después de marcharse de OpenAI por sus lazos con Microsoft, Amodei aceptaba más de seis mil millones de Google y Amazon. «Resultó que en este nuevo mundo donde construir la AGI exigía recursos casi ilimitados, la gente no le decía que no a los conglomerados tecnológicos.»35
Pero todo ese dinero venía atado a una promesa. En septiembre, Anthropic publicó su Responsible Scaling Policy: si las capacidades de un modelo superaban las medidas de seguridad disponibles, la empresa pararía el entrenamiento.23 Pausar significaba dejar de entrenar el modelo siguiente mientras los competidores seguían adelante, renunciar a ingresos, ceder terreno. Niveles de seguridad calcados de los protocolos de bioseguridad. Sam McCandlish, cofundador, fue nombrado primer responsable. Dario dedicó entre el diez y el veinte por ciento de su tiempo durante tres meses a redactarla.58 Ningún otro laboratorio de IA había firmado nada parecido.
Un mes después, Anthropic intentó responder a la objeción más incómoda sobre Constitutional AI: ¿quién escribe los principios? Reclutó a unos mil ciudadanos para que redactaran su propia constitución a través de Polis.76 Los resultados coincidían en un 50% con la constitución interna. Las diferencias decían más: el público priorizó la imparcialidad factual y la lucha contra las teorías conspirativas con más fuerza que los ingenieros de San Francisco.76 La constitución real de Claude siguió siendo la que escribieron sus empleados.
La RSP dio frutos inmediatos en Washington. Dario testificó ante el Senado advirtiendo que faltaban dos o tres años para que los modelos pudieran facilitar el bioterrorismo a gran escala, respaldado por un paper de ciento cincuenta horas de evaluación.106 81 «He visto muchos groks en mi vida», añadiría después. «Estuve presente cuando GPT-3 aprendió a hacer aritmética, cuando Claude mejoró en todas las pruebas. He visto muchos groks. Este no es uno que me entusiasme, pero creo que está ocurriendo.»24 Ya había estado en la Casa Blanca junto a Altman, Nadella y Pichai.30 En julio, siete empresas firmaron compromisos voluntarios ante Biden (sin mecanismo de aplicación).57 A finales de octubre, Biden firmó la primera orden ejecutiva vinculante sobre IA.59 Días después, Dario presentó la RSP como modelo para la gobernanza internacional en la cumbre de Bletchley Park.60
Las estimaciones internas reforzaban la urgencia. Dario situaba el momento en que un modelo sería indistinguible de «un humano con buena formación general» en dos o tres años. Kaplan era más cauto pero no menos vertiginoso: «Sigo reservando entre un diez y un treinta por ciento de probabilidad para el escenario de que simplemente estoy equivocado [...]. Pero la impresión es que tendremos IA a nivel humano con 10²⁹ o 10³⁰ FLOPs de entrenamiento, quizá a finales de esta década.»43 Si los fundadores creían que quedaban entre dos y seis años, la velocidad de la inversión y la RSP no eran exceso de cautela: eran carrera contra reloj.
Mientras la empresa escribía la regulación del futuro, alguien descubrió que Claude recitaba «Gimme Shelter.» Universal Music, ABKCO y Concord demandaron por uso no autorizado de letras de más de quinientas canciones.71 77 Anthropic respondió que cualquier reproducción era un fallo estocástico, no una función diseñada. La demanda no amenazaba la viabilidad de la empresa, pero planteaba una pregunta que la industria prefería aplazar: ¿de quién eran los datos con los que se construían estos sistemas?
A finales de noviembre, Claude 2.1 duplicó el contexto a doscientos mil tokens y estrenó uso de herramientas externas en beta.61 Los ingresos se multiplicaron por diez en un año: de unos diez millones a cerca de cien.54 Claude llegó a Amazon Bedrock,107 las alianzas con consultoras y telecos se sucedieron,108 68 69 la plantilla se duplicó.70
Dario era consciente de que la tarea excedía a cualquier laboratorio: «Son lo bastante poderosos como para que el campo requiera participación sustancial de algún tipo de gobierno.» Y la admisión que pocos CEOs se permitirían: «La verdad es que lo estamos resolviendo sobre la marcha.»43
El fantasma en la sala
El 17 de noviembre de 2023, el consejo de OpenAI despidió a Sam Altman.
La crisis duró cinco días. Un memorando interno filtrado a Axios precisó que la decisión no respondía a negligencia ni a problemas financieros, sino a una «ruptura en las comunicaciones.»96 Dentro de OpenAI, la grieta entre Altman y Sutskever por la velocidad de comercialización se había vuelto insostenible. Las preocupaciones de Sutskever «no eran tan distintas de las de Dario Amodei antes que él.»34 El paralelo iba más allá de la filosofía: ambos usaron de forma independiente la palabra «abuso» para describir el estilo de gestión de Altman.89
Pero en el centro de la ruptura había algo que pocos identificaron de inmediato: el altruismo efectivo.
Helen Toner, una de las cuatro directoras independientes, era analista senior en Georgetown CSET, y antes había trabajado en Open Philanthropy, la organización financiada por Moskovitz. Llegó al consejo por recomendación directa de Holden Karnofsky, que dejó su asiento tras la «deserción» del grupo que fundó Anthropic (su propia esposa entre ellos). El puesto que Toner ocupaba en CSET se lo había ofrecido Jason Matheny, el mismo fideicomisario del Long-Term Benefit Trust de Anthropic.31
Tasha McCauley, otra directora independiente, era miembro del consejo británico de Effective Ventures y tenía múltiples vínculos con la comunidad de seguridad de la IA. Open Philanthropy había financiado un grupo de investigación que ella cofundó. También había sido reclutada para su puesto en RAND por Matheny.31
La red era tan densa que resultaba casi imposible encontrar un candidato en seguridad de la IA que no estuviera conectado con Anthropic. Meses antes, el consejo había querido incorporar a Paul Christiano (fideicomisario del LTBT de Anthropic) y llegó a entrevistar a su esposa, Ajeya Cotra, analista en Open Philanthropy, pero el proceso se estancó por la resistencia de Altman.31
Semanas antes del voto, Toner publicó un paper académico donde elogiaba a Anthropic por retrasar el lanzamiento de Claude: «Al retrasar la publicación hasta que otra empresa lanzó un producto de capacidad similar, Anthropic mostraba su disposición a evitar exactamente el tipo de recortes frenéticos que la publicación de ChatGPT pareció provocar.»25
Altman la llamó, tranquilo pero furioso. Le importaba saber si esas palabras reflejaban lo que pensaba: «¿De verdad crees que Anthropic tiene más credibilidad que OpenAI, incluso cuando recaudaron miles de millones y comercializaron su tecnología después de decir que eran demasiado puros para tener productos?»31 Presionó para sacarla del consejo. Según la deposición de Sutskever, Toner y el Wall Street Journal, Altman fue más lejos: acudió a otros directores a espaldas de ella y tergiversó las posiciones de unos ante otros. Cuando compararon notas, se convirtió en «otro ejemplo que dañó gravemente nuestra capacidad de confiar en él.»90
La desconfianza iba más allá de un paper. Toner revelaría que el consejo se había enterado del lanzamiento de ChatGPT al verlo en Twitter (el producto que redefinió la industria, lanzado sin que la junta supiera que existía).97 Les preocupaban los proyectos paralelos de Altman: conversaciones con Jony Ive para un «iPhone de la IA», negociaciones con fondos soberanos para fabricar chips, Worldcoin.34
Pero el detonante más directo fue un memorándum (enviado solo a los tres directores independientes mediante correos autodestructivos de Gmail) que abría con una frase sin margen: «Sam exhibe un patrón persistente de mentir, socavar a sus ejecutivos y enfrentarlos entre sí.»91 Mira Murati, nombrada CEO interina tras el despido, había sido una de las fuentes que alimentaron ese documento.87 Aportó capturas de Slack, incluyendo un episodio en que Altman alegó que un abogado había aprobado el lanzamiento de GPT-4 Turbo sin revisión de seguridad. El abogado lo negó.92 «Creí plenamente la información que Mira me daba», admitiría Sutskever bajo juramento. «En retrospectiva, me doy cuenta de que no la conocía.»91
Toner, McCauley y Sutskever votaron por despedir a Altman. Cuando el equipo ejecutivo presionó para recontratarlo, advirtiendo que OpenAI colapsaría, Toner respondió: «Eso sería consistente con la misión.»25 Puro longtermismo aplicado: si la empresa más potente del mundo dependía excesivamente de una persona cuyas motivaciones no te convencían, mejor que colapsara.
Adam D’Angelo, otro director independiente y CEO de Quora, había lanzado Poe, un chatbot que daba acceso a varios modelos, entre ellos Claude. Altman intentó argumentar que D’Angelo tenía un conflicto de interés. Toner y McCauley rechazaron el argumento: Poe era una interfaz, no un modelo frontera.31
Meses antes, Altman y Amodei habían firmado juntos una carta declarando que «mitigar el riesgo de extinción por IA debería ser una prioridad global.»26 Rivales comerciales, unidos en el frente retórico del riesgo existencial.
El artículo anterior mencionaba el epílogo más revelador: el consejo contactó a Dario para ofrecerle el puesto de Altman y explorar una fusión.27 La deposición de Sutskever (diez horas de testimonio bajo juramento y un memorándum de cincuenta y dos páginas) completó el cuadro dos años después.83
La llamada se produjo el 18 de noviembre. Participaron miembros del consejo, Dario y Daniela.85 Nat Friedman y Alex Wang habían rechazado la oferta horas antes.84 Quedaba una opción nada convencional: el CEO de la empresa rival. Aquello revelaba cierta desesperación. Pero Amodei reunía condiciones que ningún otro candidato tenía juntas: cinco años como vicepresidente de investigación en OpenAI, credibilidad en seguridad, reputación técnica como coautor de las leyes de escalamiento.
Le plantearon dos propuestas: asumir su puesto como CEO de OpenAI y explorar una fusión.
Sutskever declaró bajo juramento: «Recuerdo que Anthropic expresó su entusiasmo al respecto y planteó los desafíos prácticos.»83 Los Amodei no rechazaron de plano. Hubo interés (o al menos lo bastante para discutir obstáculos concretos). Según Bay Area Times, Amodei quiso que despidieran a Brockman y que él quedara al frente de toda la investigación.93
Dentro del consejo, la idea tenía más apoyo del que trascendió. Toner era la «más favorable». Sutskever fue la voz minoritaria.83 Los obstáculos prácticos (los compromisos con Google y Amazon) la hicieron inviable.86 Dos años después, Toner disputaría la versión de Sutskever en X: «Esto es falso. No fui yo quien organizó la llamada y no coincido con su recuerdo.»94 Un conflicto factual entre dos participantes (uno bajo juramento, otra en público) que sigue sin resolverse.
El domingo nombraron CEO interino a Emmett Shear. El lunes, Microsoft contrató a Altman y Brockman. Más de setecientos de los setecientos setenta empleados firmaron una carta amenazando con dimitir.88 El martes, Altman regresó con un consejo renovado: Bret Taylor, Larry Summers, Adam D’Angelo.
Sin Toner. Sin McCauley. Sin contrapesos.
Las dos directoras que plantaron cara fueron quienes más castigo recibieron (en redes sociales durante semanas, en reputación profesional durante meses), mientras Sutskever y D’Angelo conservaron en buena medida su posición.34 La revisión independiente encargada a WilmerHale concluiría que la conducta de Altman «no exigía» su destitución y que el consejo había actuado «sin investigación completa ni anticipación de la desestabilización.»98
Anthropic no absorbió a OpenAI, pero la crisis la benefició.
La percepción de que la empresa más influyente del mundo podía desintegrarse en un fin de semana reforzó la imagen de Anthropic como alternativa estable. Clientes empresariales de OpenAI evaluaron planes de contingencia. Anthropic, con Claude 2 recién integrado en Amazon Bedrock y una red creciente de alianzas, era el nombre que más se repetía.99
El EA había perdido su última posición dentro de OpenAI.
La probabilidad
A finales de 2023, Dario fue a un podcast y dio una cifra que condensaba la paradoja entera.
Una entre cinco.28 37 109 El CEO de la empresa fundada para hacer la IA más segura del mundo estimaba que esa misma tecnología tenía entre un diez y un veinticinco por ciento de posibilidades de acabar con la especie. Y seguía construyendo. No por cinismo, sino por la convicción (genuina, discutible) de que abandonar la carrera dejaría el campo a quienes ni siquiera reconocían el riesgo.
La convicción no era nueva. Como contamos en el artículo anterior, en 2017, aún en OpenAI, Dario escribió un memo interno: «The Big Blob of Compute.» Su tesis: si haces una red neuronal lo bastante grande, la apuntas a una distribución de datos lo bastante amplia y no la fastidies de otra forma, obtienes AGI.44 «No la fastidies de otra forma» era, en el fondo, el argumento fundacional de Anthropic.
Pero el movimiento que lo había traído hasta ahí empezaba a quemar. Daniela, preguntada por el altruismo efectivo, dijo: «No soy la experta en altruismo efectivo», «es un término un poco anticuado.» Dario reenmarcaba la seguridad como «disciplina de ingeniería», no como filosofía. Después de FTX. Después de MacAskill. Después de SBF.
Lo que queda de este período es un retrato de la catedral con las primeras grietas visibles. El dinero que la levantó venía de su propio movimiento (y, en un caso, de los bolsillos de los clientes estafados de una plataforma de criptomonedas). La red ideológica que poblaba sus estructuras de gobernanza era la misma que tenía asiento en el consejo de su rival. Y la retórica de seguridad, que había empezado como convicción, se había convertido en el argumento de venta más eficaz del sector.
Nada de esto significa que la convicción fuera falsa. No hay que elegir. Las preocupaciones técnicas de Dario sobre alineamiento eran reales, y Constitutional AI era un avance genuino. Lo que significa es que la catedral era más porosa de lo que prometía, y la frontera entre principios y ventaja competitiva se había vuelto difícil de trazar.
En 2024, Anthropic demostraría que se podía competir desde la seguridad. Claude 3 destronaría a GPT-4. La empresa capturaría el 40% del gasto empresarial en modelos de lenguaje. Dario escribiría «Machines of Loving Grace.»
Cada victoria haría más pesada la pregunta: ¿cuánto se puede ganar antes de que ganar se convierta en lo único que importa?
Notas
Keach Hagey, The Optimist (W. W. Norton, 2025), cap. 12: «Altruists»; datos compilados de las rondas de inversión en TechFlowPost, Fortune y CNBC.
Giving What We Can, registro público de firmantes; sobre la relación Askell-MacAskill, véase cobertura de la comunidad EA y perfiles públicos.
Ben Mann, publicación personal (2019); «Anthropic,» Contrary Research.
Registros de la conferencia EA Global (2025).
Anthropic, «The Long-Term Benefit Trust»; perfiles profesionales de los fideicomisarios.
Parmy Olson, Supremacy (St. Martin’s Press, 2024), cap. 14: «A Vague Sense of Doom.»
Olson, Supremacy, cap. 14, citando reportaje de Politico sobre el cabildeo de Moskovitz.
Yuntao Bai et al., «Constitutional AI: Harmlessness from AI Feedback,» arXiv (diciembre 2022).
Dwarkesh Patel, The Scaling Era (2025), cap. 4: «Safety.»
Olson, Supremacy, cap. 14.
Olson, Supremacy, cap. 13: «Hello, ChatGPT.»
Olson, Supremacy, cap. 13.
Fortune - Prosecutors on SBF’s $500M Anthropic investment (2023); TechFlowPost - How SBF Bet on the Most Valuable Company of the AI Era.
Sobre la relación MacAskill-SBF y los orígenes de Alameda Research, véase Olson, Supremacy, cap. 14, y Michael Lewis, Going Infinite (W. W. Norton, 2023).
«Effective Altruism Leaders Were Warned About Sam Bankman-Fried Years Before FTX Collapsed,» TIME (febrero 2023).
CNBC - FTX estate sells majority stake in startup Anthropic for $884 million (marzo 2024).
Anthropic, «Anthropic raises $450M to build next-gen AI assistant» (mayo 2023); Axios.
Amazon invests up to $4 billion in Anthropic (septiembre 2023).
Google to invest $2 billion in Anthropic (octubre 2023).
The VC Corner - Anthropic’s 2022 Pitch Deck Leaked; DigidAI.
Olson, Supremacy, cap. 14, citando documentos internos obtenidos por TechCrunch.
Anthropic, «Anthropic’s Responsible Scaling Policy» (septiembre 2023).
Patel, The Scaling Era, cap. 5. El testimonio ante el Senado fue en julio de 2023.
Olson, Supremacy, cap. 15: «Checkmate.»
«Statement on AI Risk,» Center for AI Safety (mayo 2023); Olson, Supremacy, cap. 14.
Véase el artículo anterior de esta serie y «The Memo That Shook OpenAI,» Mastermind Newsletter. Deposición de Ilya Sutskever en Musk v. Altman (2025), vía Zvi Mowshowitz.
The Logan Bartlett Show, «Anthropic CEO on Leaving OpenAI and Predictions for Future of AI,» octubre de 2023; recogido también en If Anyone Builds It (2025).
Keach Hagey, The Optimist (W. W. Norton, 2025), cap. 17; sobre Horizon Institute y la red de fellows financiados por Open Philanthropy y Tallinn, véase también Daniel Castro (ITIF) citado en el mismo capítulo.
Hagey, The Optimist, cap. 15: «ChatGPT.» La reunión en la Casa Blanca fue el 4 de mayo de 2023.
Hagey, The Optimist, caps. 16 («The Blip») y 17. Sobre Karnofsky recomendando a Toner, Christiano en el LTBT y su esposa entrevistada para el consejo, D’Angelo y Poe, la reacción de Altman al paper de Toner, McCauley en Effective Ventures, y Matheny como nexo entre el LTBT de Anthropic, CSET, RAND y la orden ejecutiva de Biden.
Olson, Supremacy, cap. 15: «Checkmate»; perfil de Anthropic por el New York Times citado en el mismo capítulo.
Kelsey Piper, «Sam Bankman-Fried Tries to Explain Himself,» Vox (noviembre 2022); recogido en Olson, Supremacy, cap. 14.
Olson, Supremacy, cap. 15. Sobre las preocupaciones de Sutskever como eco de las de Amodei, la desconfianza acumulada del consejo, los proyectos paralelos de Altman y la asimetría de consecuencias tras la crisis.
Olson, Supremacy, cap. 11: «Bound to Big Tech.»
Olson, Supremacy, cap. 14: «A Vague Sense of Doom.» Shut up and multiply como lema del movimiento; p(doom) de Cotra declarado en un podcast.
Olson, Supremacy, caps. 6 y 14. La cifra de Amodei varía entre fuentes.
Patel, The Scaling Era, cap. 3: «Internals.»
Patel, The Scaling Era, cap. 2: «Evals.»
Patel, The Scaling Era, cap. 6: «Impact.»
Patel, The Scaling Era, cap. 8: «Timelines.»
Patel, The Scaling Era, Conclusión.
Patel, The Scaling Era, cap. 1: «Scaling.»
Patel, The Scaling Era, caps. 1 y 7.
Anthropic, «Core Views on AI Safety: When, Why, What, and How» (marzo 2023); recepción en LessWrong; cita crítica recogida en Andy Matuschak Notes.
Anthropic, publicación de la Constitución de Claude (mayo 2023); Timeline of Anthropic.
Sobre Claude entrenado y retenido en 2022: TIME; socios iniciales (Notion, Quora/Poe, DuckDuckGo): Turing Post. La cita sobre el coste es de TIME.
Anthropic, «Introducing 100K Context Windows» (mayo 2023).
Datos de rendimiento de Claude 2: Wikipedia - Claude; Search Engine Journal.
Ethan Perez et al., «Discovering Language Model Behaviors with Model-Written Evaluations», arXiv (diciembre 2022).
Estructura de inversión: Amazon (notas convertibles, sin consejo) en TechCrunch; Google (15% máximo, sin consejo, sin voto) en CNBC y Data Center Dynamics.
Ingresos de Anthropic (~$10M en 2022 a ~$100M a finales de 2023): TapTwice Digital; SaaStr.
Defensa de SBF intentando usar la participación en Anthropic: The Block.
Frontier Model Forum (julio 2023); Microsoft Blogs.
White House Fact Sheet sobre compromisos voluntarios (julio 2023).
McCandlish como Responsible Scaling Officer y dedicación de Dario a la RSP: LessWrong.
CNBC sobre la orden ejecutiva de Biden (octubre 2023).
Cumbre de Bletchley Park: Wikipedia - AI Safety Summit; Anthropic.
Claude 2.1: Anthropic (noviembre 2023).
«Predictability and Surprise in Large Generative Models», arXiv (febrero 2022); Anthropic Business Breakdown, Contrary Research.
Yuntao Bai et al., «Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback,» arXiv (abril 2022); Contrary Research.
Ganguli et al., «Red Teaming Language Models to Reduce Harms», Anthropic (noviembre 2022).
Anthropic, anuncio de Claude en Slack (marzo 2023); Timeline of Anthropic.
Anthropic, anuncio de Claude Instant 1.2 (agosto 2023); Timeline of Anthropic.
Claude 2 en Amazon Bedrock (agosto 2023): Timeline of Anthropic.
«SK Telecom to Invest $100 Million in Anthropic», VoicBot.ai (agosto 2023); Timeline of Anthropic.
Alianzas con BCG (septiembre 2023) y Accenture (octubre 2023): Timeline of Anthropic.
Datos de plantilla: How Many People Work at Anthropic, SEO.ai; TapTwice Digital.
«Anthropic AI Copyright Case Involves ‘Guardrails’ for Song Lyrics», CNET (octubre 2023).
Xie et al., «SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors,» arXiv (2024); documentación independiente de tasas de negativa en la serie Claude 2 a lo largo de 2023.
Anthropic y Collective Intelligence Project, «Collective Constitutional AI: Aligning a Language Model with Public Input» (octubre 2023); comparación pública de constituciones.
Documentos del caso Concord Music Group, et al. v. Anthropic PBC: GWU Music Copyright Infringement Resource.
Dario Amodei en el podcast WTF Is de Nikhil Kamath; recogido en NDTV.
«The CEO of AI startup Anthropic explains how he developed Claude,» Business Insider (marzo 2023).
Testimonio escrito de Dario Amodei ante el Subcomité del Senado sobre Privacidad, Tecnología y Derecho (julio 2023).
Deposición de Ilya Sutskever en Musk v. Altman (octubre 2025): diez horas de testimonio y memorándum de 52 páginas. Citas sobre el entusiasmo de Anthropic, las posiciones del consejo y la brevedad de las conversaciones: «OpenAI cofounder Ilya Sutskever says there were talks of an Anthropic merger, and he was ‘unhappy’ about it,» Business Insider; «Sutskever deposition details 52-page memo behind Altman ouster,» Implicator.ai.
«GitHub and Scale AI CEOs refused the OpenAI CEO’s post vacated by Sam Altman,» Hindustan Times; «Former GitHub CEO Friedman, Scale AI Founder Wang Declined OpenAI Interim CEO Role,» The Information.
«OpenAI’s board approached Anthropic CEO about top job and merger,» Reuters (noviembre 2023); «OpenAI’s Board Approached Anthropic About Merger,» The Information. Sobre la participación de Daniela Amodei y la fecha de la llamada: deposición de Sutskever; «Musk vs Altman flares up again after Ilya Sutskever confirms OpenAI’s near-merger with Anthropic,» Digit.
Análisis de los obstáculos prácticos (compromisos con Google y Amazon): «OpenAI-Anthropic Merger Talks Revealed in 2023 Leadership Crisis,» IndexBox; «OpenAI debated merging with one of its biggest rivals after firing Sam Altman,» Business Insider vía AOL.
Sobre Murati como fuente interna y el «patrón persistente de mentiras» según el memorándum de Sutskever: «Former OpenAI Exec Explains Why He Tried to Do a Coup Against Sam Altman,» Gizmodo; «Ilya’s 10-Hour Deposition in Musk v. OpenAI Lawsuit Reveals Key Details,» TMTPost.
Cronología de la crisis (Shear, Microsoft, carta de empleados): «Timeline of the 106-Hour OpenAI Saga,» Synthedia; «OpenAI CEO Sam Altman Rehired, Board Overhauled,» Sustainable Tech Partner.
Sobre la palabra «abuso»: Keach Hagey, The Optimist, citado en AOL; documentos compilados por The OpenAI Files; corroborado en Karen Hao, Empire of AI (Penguin Press, 2025).
Sobre la maniobra de Altman contra Toner: Hagey, The Optimist, cap. 16; Wall Street Journal vía Kanebridge News; Helen Toner en Fortune.
Sobre el memorándum, los correos autodestructivos y la admisión de Sutskever: deposición de Sutskever en Musk v. Altman; Decrypt; The Neuron; Medium.
Sobre el episodio del abogado y GPT-4 Turbo: TechCrunch; Futurism.
Sobre las condiciones de Amodei durante la llamada de fusión: Bay Area Times.
Helen Toner en X (noviembre 2025); recogido en Marketing AI Institute.
Dario Amodei en el podcast de Big Technology (2025); recogido en The Decoder.
Memorando interno del director de operaciones de OpenAI, obtenido por Axios (18 de noviembre de 2023).
Helen Toner, declaraciones a Reuters (29 de mayo de 2024); corroborado en Helen Toner en Fortune (véase también nota 90).
OpenAI, «Review completed & Altman, Brockman to continue to lead OpenAI» (8 de marzo de 2024); resumen público de la revisión independiente realizada por WilmerHale.
Sobre la incertidumbre de clientes de OpenAI durante la crisis: cobertura contemporánea en The Information, Reuters y New York Times (noviembre de 2023).
Sobre la relación previa de Anthropic con Google Cloud: CNBC; The Information (febrero 2023).
Compromiso de gasto en Google Cloud: CNBC; compromiso de usar Trainium e Inferentia: comunicado de Amazon (septiembre 2023).
Anthropic, «Frontier Threats Red Teaming for AI Safety» (julio 2023).
Claude disponible en Amazon Bedrock desde el lanzamiento del servicio: AWS (abril 2023); Timeline of Anthropic.
Anthropic, «Partnering with Scale» (abril 2023).
«Anthropic CEO lays out AI’s short, medium, and long-term risks», Fortune (julio 2023).
Saurav Kadavath et al., «Language Models (Mostly) Know What They Know», arXiv (2022).
Ben Mann, cofundador de Anthropic, en entrevista con OfficeChai (febrero 2025): «Anthropic Had Created A Chatbot 6 Months Before ChatGPT But Didn’t Release It».
Karen Hao, Empire of AI: Dreams and Nightmares in Sam Altman’s OpenAI (Penguin Press, 2025). Sobre el rumor, las dos semanas y las apuestas internas: reseña de Adnan Masood y transcripción en Diary of a CEO.
Michael Lewis, Going Infinite: The Rise and Fall of a New Tycoon (W. W. Norton, 2023). Cita de Ramnik Arora sobre la inversión en Anthropic.
Reed Albergotti, «Co-founder of Skype Invested in Hot AI Startups but Thinks He Failed,» Semafor (2023).
Karen Hao, Empire of AI (Penguin Press, 2025), cap. 2: «A Civilizing Mission.» Sobre la donación de Open Philanthropy a OpenAI y el asiento de Karnofsky en su junta.
Alex Kantrowitz, «The Making of Dario Amodei,» Big Technology.
Peter Singer, «Famine, Affluence, and Morality,» Philosophy & Public Affairs 1, no. 3 (1972). Desarrollado en The Life You Can Save (Random House, 2009).
Giving What We Can fue fundada por Toby Ord en Oxford en 2009. Sobre los orígenes del movimiento: William MacAskill, Doing Good Better (Gotham Books, 2015).
Holden Karnofsky y Elie Hassenfeld cofundaron GiveWell en 2007. Véase givewell.org.
Benjamin Todd y William MacAskill fundaron 80,000 Hours en 2011. Véase 80000hours.org.
Nick Bostrom, Superintelligence: Paths, Dangers, Strategies (Oxford University Press, 2014).
William MacAskill, What We Owe the Future (Basic Books, 2022).