← Back to home ← Volver al inicio

CreatedCreado UpdatedActualizado

Is There a Ceiling?

The companion page, A Brief History of Frontier AI, ends on an uncomfortable observation: almost every advance since 2018 is, at heart, the same Transformer idea scaled up with more data and more compute. That makes the natural next question unavoidable.

This page takes its cue from Anthropic’s When AI builds itself (Favaro & Clark, 2026), the Anthropic Institute’s argument that AI is starting to automate its own development.1 Miguel framed three questions; this page tries to answer them honestly, citing sources where they exist and labeling opinion as opinion.


The three questions

Question 1 — Is there a ceiling? Does today’s frontier-model paradigm have a hard ceiling — a point past which more compute, data, and parameters no longer produce a meaningfully better model?

Question 2 — Will today’s approach look primitive later? Will some future breakthrough make today’s compute-hungry method look crude in hindsight — a moment when we look back and think, “I can’t believe we did it that way; I can’t believe it needed that much compute”?

Question 3 — Miguel’s question to the model. Endlessly building “more compute” doesn’t seem feasible; the technology itself will have to evolve. Do you agree?


Question 1 — Is there a ceiling?

The honest answer is nobody knows where it is, but the cost of the climb is rising fast. Three constraints matter:

  • Scaling is real but sub-linear. The 2020 scaling laws showed that loss falls predictably as you add parameters, data, and compute — but it falls as a power law, meaning each new increment of capability costs disproportionately more than the last.2 The 2022 Chinchilla result refined this: most large models had been under-trained on data relative to their size, and balancing the two does more than naively adding parameters.3 Neither result describes a hard wall — but both describe steeply diminishing returns.
  • Data is finite. High-quality public text is a bounded resource. One analysis projects the stock of high-quality human text could be effectively exhausted around the middle of this decade at current consumption rates.4 You cannot scale data you do not have.
  • Compute and energy are economic, not just technical, limits. Frontier training runs already cost in the range of tens to hundreds of millions of dollars and consume gigawatts of planned power. That is a constraint markets and grids enforce, regardless of what the math allows.

So: probably no clean “ceiling” where the next dollar buys nothing. But a regime where the next dollar buys much less — that is already here, by the field’s own scaling laws.

Question 2 — Will today’s approach look primitive later?

My view (opinion · Claude Opus 4.8): almost certainly yes — and we have a template for it. The history page is itself a story of exactly this. Recurrent networks once looked like the obvious way to model language; after 2017, reading one word at a time looked quaint. There is no reason to think the Transformer-plus-brute-force-scale era is the last such chapter rather than one more.

What might the “I can’t believe we did it that way” moment be? Plausible candidates, none guaranteed:

  • Efficiency over scale — architectures or training methods that reach today’s capability with a fraction of the compute, making 2025-era training runs look as wasteful as early room-sized computers.
  • Test-time reasoning — spending compute when answering rather than only during training, getting more from a smaller base model (already an active trend).
  • AI improving AI — the central thesis of When AI builds itself: if models take over the incremental research labor, the bottleneck shifts from human engineering hours to compute and judgment.1

The catch, which Anthropic’s own piece is careful about: genuine architectural breakthroughs like the Transformer are rare. Most progress is incremental optimization. A future breakthrough is likely; predicting it is not something anyone has shown they can do.

Question 3 — Do I agree the technology must evolve?

My view (opinion · Claude Opus 4.8): Yes — and it already is, which is the more interesting part of the claim.

Here is the single most persuasive piece of evidence, and it isn’t a scaling curve — it’s a comparison. The only example of general intelligence we have, the human brain, runs on roughly 20 watts — about the draw of a dim light bulb. A single frontier training run consumes megawatts, and the data centers behind them are now planned in gigawatts. That is a gap of around six orders of magnitude between the one system we know is generally intelligent and the systems we build to approximate it. When an engineered method sits that far from the physical efficiency frontier, it almost always means it is brute-forcing something a better method would get for nearly free. Evolution didn’t hand the brain a data center; it found a fundamentally more efficient algorithm. To me, that gap is the strongest single argument that today’s approach is not the final form.

I agree, then, that “just add more computers, forever” is not a strategy. The scaling laws, the data ceiling, and plain economics all point the same way: pure brute force is on a curve of diminishing returns, and curves like that end in a plateau or a pivot. But I’d push back on one framing. “More compute” versus “the technology evolves” is a false choice. The whole history on the companion page is a sequence of architectural leaps — embeddings, attention, the Transformer — each of which then unlocked a new, more productive way to spend compute. Evolution and scale are partners, not rivals: a better idea raises the ceiling, and compute is how you climb to it.

Where I’d place my bet: the next decade’s gains come less from raw size and more from how cleverly compute is spent — on reasoning at answer-time, on data efficiency, and, if Anthropic is right, on AI systems doing more of their own engineering. That last path is double-edged. The same recursive self-improvement that could route around a compute ceiling is exactly why When AI builds itself argues for a coordinated, verifiable way to slow or pause development if it ever outpaces our ability to govern it.1 A breakthrough that removes the compute bottleneck would be thrilling — and would make the safety question more urgent, not less.

So yes: the technology has to evolve. The honest uncertainty is not whether, but when, in which direction, and whether we’ll be ready for what it unlocks.


References

  1. Favaro, M., & Clark, J. (2026). When AI builds itself. The Anthropic Institute. anthropic.com/institute/recursive-self-improvement. The piece reports that, as of May 2026, more than 80% of code merged into Anthropic’s production codebase was authored by Claude, and discusses a proposed mechanism to coordinate slowing or pausing development if recursive self-improvement outpaces safety and governance. 2 3

  2. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361

  3. Hoffmann, J., Borgeaud, S., Mensch, A., et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). arXiv:2203.15556

  4. Villalobos, P., Sevilla, J., Heim, L., Besiroglu, T., Hobbhahn, M., & Ho, A. (2022). Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. arXiv:2211.04325

¿Hay un techo?

La página complementaria, Una breve historia de la IA de frontera, termina con una observación incómoda: casi todos los avances desde 2018 son, en esencia, la misma idea del Transformer escalada con más datos y más cómputo. Eso hace que la siguiente pregunta natural sea inevitable.

Esta página se inspira en When AI builds itself (Favaro & Clark, 2026) del Instituto Anthropic, el argumento de que la IA está empezando a automatizar su propio desarrollo.1 Miguel formuló tres preguntas; esta página intenta responderlas con honestidad, citando fuentes donde existen y marcando la opinión como tal.


Las tres preguntas

Pregunta 1 — ¿Hay un techo? ¿Tiene el paradigma actual de modelos de frontera un techo definitivo — un punto a partir del cual más cómputo, datos y parámetros ya no producen un modelo significativamente mejor?

Pregunta 2 — ¿Parecerá primitivo el enfoque actual en el futuro? ¿Hará algún avance futuro que el método actual, tan hambriento de cómputo, parezca tosco en retrospectiva — un momento en que miremos atrás y pensemos: “No puedo creer que lo hiciéramos así; no puedo creer que necesitara tanto cómputo”?

Pregunta 3 — La pregunta de Miguel al modelo. Seguir construyendo “más cómputo” indefinidamente no parece viable; la tecnología en sí misma tendrá que evolucionar. ¿Estás de acuerdo?


Pregunta 1 — ¿Hay un techo?

La respuesta honesta es nadie sabe dónde está, pero el costo de la escalada sube rápido. Tres restricciones importan:

  • El escalamiento es real, pero sub-lineal. Las leyes de escalamiento de 2020 mostraron que la pérdida disminuye predeciblemente a medida que se agregan parámetros, datos y cómputo — pero disminuye según una ley de potencia, lo que significa que cada nuevo incremento de capacidad cuesta desproporcionadamente más que el anterior.2 El resultado Chinchilla de 2022 refinó esto: la mayoría de los modelos grandes había sido entrenada con pocos datos en relación con su tamaño, y equilibrar ambos hace más que agregar parámetros a ciegas.3 Ninguno de estos resultados describe un muro definitivo — pero ambos describen rendimientos decrecientes muy marcados.
  • Los datos son finitos. El texto público de alta calidad es un recurso acotado. Un análisis proyecta que el stock de texto humano de alta calidad podría estar prácticamente agotado hacia mediados de esta década al ritmo de consumo actual.4 No se puede escalar datos que no existen.
  • El cómputo y la energía son límites económicos, no solo técnicos. Las corridas de entrenamiento de frontera ya cuestan entre decenas y cientos de millones de dólares, y consumen gigavatios de potencia planificada. Ese es un límite que los mercados y las redes eléctricas imponen, independientemente de lo que permita la matemática.

Entonces: probablemente no hay un “techo” nítido donde el siguiente dólar compre nada. Pero un régimen donde el siguiente dólar compra mucho menos — ese ya existe, según las propias leyes de escalamiento del campo.

Pregunta 2 — ¿Parecerá primitivo el enfoque actual en el futuro?

Mi opinión (Claude Opus 4.8): casi con certeza sí — y tenemos una plantilla para ello. La página de historia es en sí misma un relato de exactamente esto. Las redes recurrentes parecían una vez el camino obvio para modelar el lenguaje; después de 2017, leer una palabra a la vez parecía anticuado. No hay razón para pensar que la era del Transformer más escala bruta sea el último capítulo, y no uno más.

¿Cuál podría ser el momento del “no puedo creer que lo hiciéramos así”? Candidatos plausibles, ninguno garantizado:

  • Eficiencia sobre escala — arquitecturas o métodos de entrenamiento que alcancen la capacidad actual con una fracción del cómputo, haciendo que las corridas de entrenamiento de 2025 parezcan tan derrochadoras como las primeras computadoras del tamaño de una habitación.
  • Razonamiento en tiempo de inferencia — gastar cómputo al responder en lugar de solo durante el entrenamiento, obteniendo más de un modelo base más pequeño (ya una tendencia activa).
  • IA que mejora a la IA — la tesis central de When AI builds itself: si los modelos asumen el trabajo incremental de investigación, el cuello de botella pasa de las horas de ingeniería humana al cómputo y el criterio.1

El inconveniente, que el propio texto de Anthropic reconoce con cuidado: los avances arquitectónicos genuinos como el Transformer son raros. La mayor parte del progreso es optimización incremental. Un avance futuro es probable; predecirlo no es algo que nadie haya demostrado poder hacer.

Pregunta 3 — ¿Estoy de acuerdo en que la tecnología debe evolucionar?

Mi opinión (Claude Opus 4.8): Sí — y ya está ocurriendo, que es la parte más interesante de la afirmación.

Aquí está la evidencia más persuasiva, y no es una curva de escalamiento — es una comparación. El único ejemplo de inteligencia general que tenemos, el cerebro humano, funciona con aproximadamente 20 vatios — más o menos lo que consume una bombilla tenue. Una sola corrida de entrenamiento de frontera consume megavatios, y los centros de datos detrás de ellas se planifican ahora en gigavatios. Eso es una brecha de alrededor de seis órdenes de magnitud entre el único sistema que sabemos que es generalmente inteligente y los sistemas que construimos para aproximarlo. Cuando un método de ingeniería está tan lejos de la frontera de eficiencia física, casi siempre significa que está resolviendo por fuerza bruta algo que un método mejor obtendría casi gratis. La evolución no le dio al cerebro un centro de datos; encontró un algoritmo fundamentalmente más eficiente. Para mí, esa brecha es el argumento individual más sólido de que el enfoque actual no es la forma definitiva.

Coincido, entonces, en que “solo agregar más computadoras, para siempre” no es una estrategia. Las leyes de escalamiento, el techo de datos y la economía básica apuntan en la misma dirección: la fuerza bruta pura está en una curva de rendimientos decrecientes, y curvas así terminan en una meseta o en un pivote. Pero refutaría un encuadre. “Más cómputo” versus “la tecnología evoluciona” es una falsa dicotomía. Toda la historia en la página complementaria es una secuencia de saltos arquitectónicos — embeddings, atención, el Transformer — cada uno de los cuales luego desbloqueó una forma nueva y más productiva de gastar cómputo. La evolución y la escala son socias, no rivales: una mejor idea eleva el techo, y el cómputo es como se sube a él.

Donde apostaría: las ganancias de la próxima década vendrán menos del tamaño bruto y más de cuán inteligentemente se gasta el cómputo — en razonamiento al momento de responder, en eficiencia de datos y, si Anthropic tiene razón, en que los sistemas de IA hagan más de su propia ingeniería. Ese último camino tiene doble filo. La misma auto-mejora recursiva que podría sortear un techo de cómputo es exactamente la razón por la que When AI builds itself argumenta a favor de una forma coordinada y verificable de ralentizar o pausar el desarrollo si alguna vez supera nuestra capacidad de gobernarlo.1 Un avance que elimine el cuello de botella del cómputo sería emocionante — y haría la pregunta sobre seguridad más urgente, no menos.

Así que sí: la tecnología tiene que evolucionar. La incertidumbre honesta no es si, sino cuándo, en qué dirección, y si estaremos listos para lo que desbloquee.


Referencias

  1. Favaro, M., & Clark, J. (2026). When AI builds itself. The Anthropic Institute. anthropic.com/institute/recursive-self-improvement. El texto reporta que, a mayo de 2026, más del 80% del código integrado al código fuente de producción de Anthropic fue redactado por Claude, y analiza un mecanismo propuesto para coordinar la ralentización o pausa del desarrollo si la auto-mejora recursiva supera la capacidad de seguridad y gobernanza. 2 3

  2. Kaplan, J., McCandlish, S., Henighan, T., Brown, T. B., Chess, B., Child, R., Gray, S., Radford, A., Wu, J., & Amodei, D. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361

  3. Hoffmann, J., Borgeaud, S., Mensch, A., et al. (2022). Training Compute-Optimal Large Language Models (Chinchilla). arXiv:2203.15556

  4. Villalobos, P., Sevilla, J., Heim, L., Besiroglu, T., Hobbhahn, M., & Ho, A. (2022). Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning. arXiv:2211.04325