A Brief History of Frontier AI
In 2017, eight researchers at Google published a fifteen-page paper with an unusually confident title: Attention Is All You Need.1 It introduced the Transformer, an architecture that quietly became the foundation for nearly everything that followed — BERT, the GPT family, image generators, protein-folding models, and the frontier systems we use today. This page traces the line from “reading one word at a time” to that paper, and from that paper to Claude Mythos.
From words to vectors to attention
For a long time, getting a computer to “understand” language meant hand-written rules and word-counting statistics. The first big shift was learning to represent a word as a vector — a list of numbers — so that words used in similar contexts ended up near each other in space. Word2Vec (2013) made this famous: the arithmetic king − man + woman lands close to queen.2 Meaning had become geometry.
But a sentence is more than a bag of words; order matters. The next generation of models — recurrent neural networks (RNNs) and especially LSTMs (1997) — read text the way you might read a ticker tape: one token at a time, carrying a running “memory” of what came before.3 Stacked into sequence-to-sequence models, they powered the first good neural machine translation.4 But reading strictly left-to-right had two problems: it was slow (each step waits for the one before it, so it can’t be parallelized), and it was forgetful (the memory of the first word fades by the time you reach the fiftieth).
The first crack in the wall was attention (2014). Instead of squeezing an entire sentence into one fixed memory, a model could look back at every input word and weight the ones that mattered for the word it was currently producing.5 Attention started as a helper bolted onto RNNs. The 2017 paper asked the radical question in its title: what if attention isn’t the helper — what if attention is all you need?
What the Transformer actually does
The Transformer threw out recurrence entirely. Nothing is read strictly in sequence; instead the whole input is processed at once. Before any of that can happen, text has to become numbers — it is split into tokens (word-pieces) and each token is turned into a vector the model can compute with.1
Stripped to the essentials, here is what happens inside, step by step:
- Tokenize & embed. Text is split into tokens (roughly, word-pieces) and each becomes a vector.
- Add position. Because there’s no left-to-right reading anymore, a positional encoding is added so the model still knows word order.
- Self-attention. This is the heart of it. Every token produces three vectors — a query (“what am I looking for?”), a key (“what do I offer?”), and a value (“what do I carry?”). Each token compares its query against every other token’s key to decide how much to listen to each one, then mixes their values accordingly. In plain terms: every word looks at every other word and decides what’s relevant to it. “It” learns to point at the noun it refers to; a verb learns to find its subject.
- Multiple heads, stacked layers. Several attention “heads” do this in parallel, each learning different kinds of relationships, and dozens of layers stack to build up meaning from words → phrases → ideas.
- Predict. The model outputs a probability for the next token, over and over. Train that objective — predict the next token — on a large fraction of the internet, and surprisingly general capabilities emerge.
The decisive consequence was practical, not just elegant: because every token is processed in parallel, Transformers map perfectly onto GPUs and get better, predictably, as you add data and compute. That scalability is why this architecture, and not a cleverer-but-sequential rival, became the substrate for the modern field.
The timeline: from one paper to the frontier
- 2013 Word2Vec Words become vectors; meaning becomes geometry. The groundwork for every model that "reads."Mikolov et al.
- 2014 Seq2Seq + Attention Encoder–decoder RNNs power neural translation; attention lets the decoder "look back" at the whole input.Bahdanau et al.
- 2017 Attention Is All You Need — the Transformer Recurrence is dropped entirely. Self-attention + parallelism. The paradigm shift everything else traces back to.Vaswani et al.
- 2018 BERT & GPT-1 "Pre-train, then fine-tune" arrives. BERT reads bidirectionally for understanding; GPT-1 is generative. Both are Transformers.Devlin et al.
- 2019 GPT-2 Scale up the same recipe and the model writes coherent paragraphs — the first hint that size alone buys capability.Radford et al.
- 2020 GPT-3, scaling laws & diffusion 175B parameters and "in-context learning." Scaling laws make the gains predictable. Diffusion models (DDPM) launch the image-generation era.Brown et al. Kaplan et al. Ho et al.
- 2022 Chinchilla, ChatGPT, Stable Diffusion Compute-optimal scaling reframes the recipe; ChatGPT puts it in everyone's hands. Even image models go Transformer (Diffusion Transformers / DiT).Hoffmann et al. Peebles & Xie
- 2023 GPT-4 & the Claude family Multimodal frontier models cross from "useful" to "broadly capable." Still, under the hood: attention, stacked and scaled.OpenAI
- 2026 Claude Mythos A frontier model capable enough at finding and exploiting software vulnerabilities that Anthropic gated its release behind Project Glasswing. Nine years on, the lineage is unbroken.Anthropic
Why one paper mattered so much
It is rare for a single architecture to absorb an entire field. Yet the through-line is real: language models (BERT, GPT-2/3/4, Claude), and even image generators, are Transformers at heart — modern diffusion models increasingly use a Transformer backbone rather than the older convolutional one.6 The mechanisms described in those fifteen pages — self-attention, multi-head attention, positional encodings — are still the load-bearing parts of systems trained on orders of magnitude more compute.
That durability raises an obvious question. If almost everything since 2018 is the same idea, scaled up, is there a point where scaling stops paying off? And if there is, what comes next? That’s the subject of the companion page: Is There a Ceiling? →
References
-
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017). proceedings.neurips.cc ↩ ↩2
-
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781 ↩
-
Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780. bioinf.jku.at ↩
-
Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. arXiv:1409.3215 ↩
-
Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473 ↩
-
Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers. arXiv:2212.09748. See also Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. arXiv:2112.10752 ↩
Una breve historia de la IA de frontera
En 2017, ocho investigadores de Google publicaron un artículo de quince páginas con un título inusualmente seguro de sí mismo: Attention Is All You Need.1 Presentó el Transformer, una arquitectura que se convirtió silenciosamente en el cimiento de casi todo lo que vino después: BERT, la familia GPT, los generadores de imágenes, los modelos de plegamiento de proteínas y los sistemas de frontera que usamos hoy. Esta página traza la línea desde “leer una palabra a la vez” hasta ese artículo, y desde ese artículo hasta Claude Mythos.
De palabras a vectores a atención
Durante mucho tiempo, lograr que una computadora “entendiera” el lenguaje implicaba reglas escritas a mano y estadísticas de conteo de palabras. El primer gran cambio fue aprender a representar una palabra como un vector — una lista de números — de modo que las palabras usadas en contextos similares terminaran cerca unas de otras en el espacio. Word2Vec (2013) lo hizo famoso: la aritmética rey − hombre + mujer da un resultado cercano a reina.2 El significado se había vuelto geometría.
Pero una oración es más que una bolsa de palabras; el orden importa. La siguiente generación de modelos — las redes neuronales recurrentes (RNNs) y especialmente las LSTMs (1997) — leían el texto como si leyeran una cinta de teletipo: un token a la vez, cargando una “memoria” acumulada de lo que vino antes.3 Apiladas en modelos secuencia a secuencia, impulsaron la primera traducción automática neuronal de calidad.4 Pero leer estrictamente de izquierda a derecha tenía dos problemas: era lento (cada paso espera al anterior, por lo que no puede ejecutarse en paralelo) y era olvidadizo (la memoria de la primera palabra se desvanece cuando llegas a la quincuagésima).
La primera grieta en la pared fue la atención (2014). En lugar de comprimir una oración entera en una memoria fija, un modelo podía volver a mirar cada palabra de entrada y darle más peso a las que importaban para la palabra que estaba produciendo en ese momento.5 La atención comenzó como un complemento añadido a las RNNs. El artículo de 2017 hizo la pregunta radical que enuncia su título: ¿y si la atención no es el complemento, sino que la atención es todo lo que necesitas?
Lo que el Transformer realmente hace
El Transformer descartó la recurrencia por completo. Nada se lee estrictamente en secuencia; en su lugar, toda la entrada se procesa de una vez. Antes de que pueda ocurrir nada de eso, el texto tiene que convertirse en números — se divide en tokens (fragmentos de palabras) y cada token se convierte en un vector con el que el modelo puede operar.1
Reducido a lo esencial, esto es lo que ocurre en su interior, paso a paso:
- Tokenizar e incrustar. El texto se divide en tokens (aproximadamente, fragmentos de palabras) y cada uno se convierte en un vector.
- Añadir posición. Como ya no hay lectura de izquierda a derecha, se añade una codificación posicional para que el modelo siga conociendo el orden de las palabras.
- Self-attention. Este es el núcleo. Cada token produce tres vectores — una query (“¿qué estoy buscando?”), una key (“¿qué ofrezco?”) y un value (“¿qué llevo conmigo?”). Cada token compara su query con la key de cada otro token para decidir cuánto escuchar a cada uno, y luego mezcla sus values en consecuencia. En términos simples: cada palabra mira a todas las demás palabras y decide qué es relevante para ella. Un pronombre aprende a señalar el sustantivo al que se refiere; un verbo aprende a encontrar su sujeto.
- Múltiples cabezas, capas apiladas. Varios “cabezales” de atención hacen esto en paralelo, cada uno aprendiendo distintos tipos de relaciones, y docenas de capas se apilan para construir el significado de palabras → frases → ideas.
- Predecir. El modelo emite una probabilidad para el siguiente token, una y otra vez. Entrena ese objetivo — predecir el siguiente token — sobre una gran fracción de internet, y emergen capacidades sorprendentemente generales.
La consecuencia determinante fue práctica, no solo elegante: como todos los tokens se procesan en paralelo, los Transformers se adaptan perfectamente a las GPUs y mejoran, de forma predecible, a medida que añades datos y cómputo. Esa escalabilidad es la razón por la que esta arquitectura, y no una rival más ingeniosa pero secuencial, se convirtió en el sustrato del campo moderno.
La línea de tiempo: de un artículo a la frontera
- 2013 Word2Vec Las palabras se vuelven vectores; el significado se vuelve geometría. La base para todo modelo que "lee."Mikolov et al.
- 2014 Seq2Seq + Atención Las RNNs codificador–decodificador impulsan la traducción neuronal; la atención permite al decodificador "mirar atrás" a toda la entrada.Bahdanau et al.
- 2017 Attention Is All You Need — el Transformer Se abandona la recurrencia por completo. Self-attention + paralelismo. El cambio de paradigma del que todo lo demás desciende.Vaswani et al.
- 2018 BERT & GPT-1 "Pre-entrenar, luego ajustar" hace su aparición. BERT lee bidireccionalmente para comprensión; GPT-1 es generativo. Ambos son Transformers.Devlin et al.
- 2019 GPT-2 Escala la misma receta y el modelo escribe párrafos coherentes — el primer indicio de que el tamaño por sí solo compra capacidad.Radford et al.
- 2020 GPT-3, leyes de escala & difusión 175 mil millones de parámetros y "aprendizaje en contexto." Las leyes de escala hacen que las ganancias sean predecibles. Los modelos de difusión (DDPM) inician la era de la generación de imágenes.Brown et al. Kaplan et al. Ho et al.
- 2022 Chinchilla, ChatGPT, Stable Diffusion El escalado óptimo en cómputo reformula la receta; ChatGPT la pone en manos de todos. Incluso los modelos de imagen adoptan el Transformer (Diffusion Transformers / DiT).Hoffmann et al. Peebles & Xie
- 2023 GPT-4 & la familia Claude Los modelos de frontera multimodales pasan de "útiles" a "ampliamente capaces." Aun así, bajo el capó: atención, apilada y escalada.OpenAI
- 2026 Claude Mythos Un modelo de frontera lo suficientemente capaz en encontrar y explotar vulnerabilidades de software que Anthropic restringió su lanzamiento al Proyecto Glasswing. Nueve años después, el linaje permanece intacto.Anthropic
Por qué un solo artículo importó tanto
Es raro que una sola arquitectura absorba un campo entero. Sin embargo, el hilo conductor es real: los modelos de lenguaje (BERT, GPT-2/3/4, Claude), e incluso los generadores de imágenes, son Transformers en su esencia — los modelos de difusión modernos usan cada vez más un backbone Transformer en lugar del convolucional anterior.6 Los mecanismos descritos en esas quince páginas — self-attention, multi-head attention, codificaciones posicionales — siguen siendo las partes estructurales de sistemas entrenados con órdenes de magnitud más cómputo.
Esa durabilidad plantea una pregunta obvia. Si casi todo desde 2018 es la misma idea, escalada, ¿hay un punto en el que escalar deja de valer la pena? Y si lo hay, ¿qué viene después? Ese es el tema de la página complementaria: ¿Existe un techo? →
Referencias
-
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems 30 (NeurIPS 2017). proceedings.neurips.cc ↩ ↩2
-
Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv:1301.3781 ↩
-
Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory. Neural Computation, 9(8), 1735–1780. bioinf.jku.at ↩
-
Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. arXiv:1409.3215 ↩
-
Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural Machine Translation by Jointly Learning to Align and Translate. arXiv:1409.0473 ↩
-
Peebles, W., & Xie, S. (2023). Scalable Diffusion Models with Transformers. arXiv:2212.09748. See also Rombach, R. et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. arXiv:2112.10752 ↩