This Week in Data & AI

Der Assistent ist tot: Zweitausend Agenten bauen einen Browser

Zweitausend Agenten bauen parallel einen Webbrowser – Tausende Commits pro Stunde. SQL schlägt Bash bei strukturierten Agenten-Abfragen mit 100 vs. 53 Prozent Genauigkeit. Plus: Selbst Karpathy fühlt sich im Agentic Engineering abgehängt.

Robert Glaser

26 Jan 2026 — 4 min read

Diese Woche wird konkret: „The assistant is dead, long live the factory.“ Während wir noch darüber diskutieren, ob Agenten vertrauenswürdig genug für produktiven Einsatz sind, lassen andere bereits zweitausend von ihnen harte Probleme lösen. Was muss passieren, damit unsere Codebases und Teams diesen Schichtbetrieb überleben?

Coding-Assistenz hat ausgedient

Thorsten Ball und Quinn Slack vom Amp-Team (Amp ist das Agent Harness Produkt, an dem er und Quinn arbeiten) formulieren es scharf: Der Assistent ist tot, es lebe die Fabrik. Damit meinen sie nicht, dass Coding-Agenten aufgehört hätten zu funktionieren. Das Gegenteil ist der Fall. Was stirbt, ist die Idee, dass wir Agenten wie einen übereifrigen Pair-Programming-Partner behandeln – Schritt für Schritt anleitend, jeden Output prüfend, jeden Fehler korrigierend. Stattdessen entsteht ein neues Betriebsmodell: Agenten, die eigenständig planen, umsetzen und verifizieren, während Menschen Aufgabenströme kuratieren und die Erfolgswahrscheinlichkeit durch bessere Infrastruktur – und, Achtung – mehr Feedback-Loops – erhöhen.

„The assistant is dead, long live the factory.“

Klingt abstrakt? Wilson Lin von Cursor macht es konkret. In einem Gespräch mit Simon Willison beschreibt er ein Experiment, das als Testfeld für Multi-Agent-Orchestrierung dient: eine Browser-Rendering-Engine, geschrieben von bis zu zweitausend parallel laufenden Agenten. Das Projekt rendert bereits Seiten wie Wikipedia und CNN – allerdings ohne JavaScript, weil die Agenten selbstständig entschieden haben, das Feature vorläufig hinter ein Flag zu schieben. In der Spitze waren es Tausende Commits pro Stunde. Merge-Konflikte? Seltener als erwartet, weil die Agent Harness Überlappungen minimiert.

FastRender ist kein Produkt. Es ist ein Messinstrument für die Frage, die die nächsten Jahre prägen wird: Wie orchestrieren wir autonome Arbeit im großen Maßstab?

Die Infrastruktur entscheidet

Die Fabrik braucht Werkzeuge. Und hier zeigt sich: Nicht jede Abstraktion taugt für Agenten gleichermaßen. Vercel hat einen Benchmark veröffentlicht, der die Hypothese „Bash is all you need“ testet. Das Ergebnis ist ernüchternd für Shell-Romantiker:innen: Bei strukturierten Abfragen auf GitHub-Issue-Daten erreicht SQL hundert Prozent Genauigkeit, der Bash-Agent nur 53 Prozent – bei deutlich weniger Tokens, geringeren Kosten und kürzerer Laufzeit.

„SQL dominated. It hit 100% accuracy while bash achieved just 53%.“

Bevor jetzt jemand triumphierend den Agenten den Shell-Zugang schließt: Die Wahrheit liegt im Hybrid. Am robustesten wurde die Kombination aus SQL für die Kernabfrage und Bash für Exploration und Verifikation. Agenten, die ihre eigenen Ergebnisse hinterfragen können, machen weniger Fehler – oder finden zumindest die Fehler im Datensatz, die Menschen übersehen haben.

Das passt zu einem zweiten Vercel-Beitrag, der für „Filesystem-based Context Retrieval“ argumentiert. Die These: Statt komplexer RAG-Pipelines (Retrieval Augmented Generation, die Praxis, relevante Dokumente per Vektorsuche zu finden und dem Modell mitzugeben) können Agenten Daten wie Entwickler:innen in einem Codebase navigieren – per ls, find, grep. Weniger Magie, mehr Nachvollziehbarkeit. Ein Sales-Call-Agent wurde so von einem Dollar auf 25 Cent pro Aufruf gedrückt, bei besserer Qualität.

Wer das weiterdenkt, landet bei qmd, Tobi Lütkes (richtig gehört, der Shopify CEO) CLI-Tool für lokale Markdown-Suche. QMD kombiniert BM25-Volltextsuche (der bewährte Algorithmus hinter Volltextsuchen wie Elasticsearch), semantische Vektorsuche und LLM-Reranking – komplett lokal, ohne Cloud. Dazu ein MCP-Server, damit Agenten die Suche auch ohne Shellzugriff als strukturiertes Tool nutzen können. Das geht in die Richtung von osgrep, aber vollumfänglicher. Keine Raketenwissenschaft, aber genau die Art von Infrastruktur, die den Unterschied zwischen Spielzeug und Produktionssystem macht.

Orchestrierung: Der neue Abstraktionslayer

Andrej Karpathy, OpenAI-Mitgründer und ehemaliger Tesla-AI-Chef, bringt es auf den Punkt: Er habe sich noch nie so weit hinten gefühlt als Programmierer. Das schreibt jemand, der die Grundlagen der modernen KI mitentwickelt hat. Und der wenige Wochen zuvor noch in einem viel beachteten Podcast mit Dwarkesh Patel sagte, dass für ihn als erfahrenen Coder AI im Assistant-Modus (u.a. via Autocomplete) besser funktioniert.

„There's a new programmable layer of abstraction to master [...] involving agents, subagents, their prompts, contexts, memory, modes, permissions, tools, plugins, skills, hooks, MCP, LSP, slash commands, workflows...“

Was Karpathy beschreibt, ist eine tektonische Verschiebung. Die Arbeit verlagert sich: weniger Code schreiben, mehr orchestrieren. Weniger Algorithmen implementieren, mehr Kontext kuratieren. Das fühlt sich für erfahrene Entwickler:innen an wie ein „Skill Issue“ – aber eines, das sich beheben lässt.

David Heinemeier Hansson (DHH), meinungsstarker Rails-Schöpfer, sieht das optimistischer. Nach monatelanger Skepsis klingt er nun so:

You gotta get in there. See where we're at now for yourself. […] and relish the privilege of being alive during the days we taught the machines how to think.

Der qualitative Sprung komme weniger von besseren Modellen als vom Tooling. Terminal-Steuerung, Tests ausführen, Web-Recherche – das mache aus Textgeneratoren arbeitsfähige Contributor:innen. Oder, wie yours truly schon lange predigt: AI hat kein Fähigkeitsproblem mehr, sondern ein Integrationsproblem.

Die Codebase als Fabrikboden

Zurück zur Fabrik-Metapher. Thorsten Ball formuliert die entscheidende Einsicht: Der Engpass ist nicht mehr das Modell, sondern die Umgebung. Agenten werden erst autonom, wenn die Codebase ihnen zeigt, wie sie ihre Arbeit verifizieren können. Das bedeutet: Tests, die zuverlässig laufen. CLI-Kommandos, die maschinenlesbare Ausgaben liefern. Anwendungen, die sich von außen steuern lassen.

„You want to weld the agent to the code base.“

Ball beschreibt den Terminal-Emulator von AMP, dessen Rendering-Probleme er mit Hilfe eines Agenten gefixt hat. Der Durchbruch kam, als er ein Feature einbaute, das Screenshots automatisch speichert. Ein weiterer automatisierter Feedbackloop für den Agenten. Plötzlich konnte der Agent kleinteilig die TUI Glitches sehen, vergleichen, iterieren. Der Agent raste durch die Feedback-Schleife und löste das Problem.

Schichtbetrieb

Die Fabrik ersetzt den Assistenten nicht durch Magie, sondern durch System: passende Abstraktionen (SQL statt Shell für strukturierte Daten), präzise Werkzeuge (lokale Hybrid-Suche statt Cloud-RAG), und Codebases, die Feedback-Loops eingebaut haben statt sie nachzurüsten. Wer 2026 noch darüber diskutiert, ob Agenten funktionieren, hat die Frage falsch gestellt – die richtige lautet, wie viele gleichzeitig.