Karpathy statt Tatort: Kein Entwarnungssignal
Karpathy liefert keinen Abgesang auf Agenten, sondern einen Realitätscheck: wir stehen am hochproduktiven Anfang. JPMorgan erkauft sich kostenlos flächendeckende AI-Transformation mit internen LLMs. Plus: Warum Deutschlands KI-Compute-Pipeline nicht mal für die Minimalstrategie reicht.
Diese Woche schieben wir mal das Popcorn zur Seite und hören zu, was Andrej Karpathy eigentlich sagt: er zeichnet im langen Gespräch über Agenten, Grenzen des Reinforcement Learnings und Menschen ein nüchternes Bild. Er beschreibt, wo Agenten heute noch stolpern, und warum das kein Stopp‑Signal ist. Wie schaffen wir hier und heute greifbaren Nutzen, statt uns an den aufmerksamkeitsheischenden Headlines für dieses Gespräch zu wärmen?
Wer spricht hier – und was sagt er?
Andrej Karpathy ist OpenAI‑Mitgründer und ehemaliger Director of AI bei Tesla. Er war zweieinhalb Stunden bei Dwarkesh Patel zu Gast – das Gespräch setzte sofort Schlagzeilen frei. „Agents produzieren Slop“ war eine davon. Klar, der AI‑Widerstand griff das gern auf. Ordnen wir das mal ein: Karpathy liefert keinen Abgesang, sondern einen Realitätscheck. Er sagt: Es ist die Dekade der Agenten. Wir bauen über Jahre Systemfähigkeit auf. Wo es noch hapert: Gedächtnis (Memory), Feedback, fortgeschrittene Multimodalität.
"It’s the decade of agents, not the year of agents."
Grüße an die Engineers im Widerstand: Leider kein Entwarnungssignal. Wir sind nicht am Ende, wir sind am Anfang – und dieser Anfang ist bereits hochgradig produktiv.
Training ist nicht Betrieb: Was Karpathys Kritik für uns bedeutet
Karpathy kritisiert Reinforcement Learning (RL) so, wie es heute im LLM‑Posttraining eingesetzt wird: Die Modelle lösen komplexe Aufgaben, bekommen aber erst am Ende eine magere Belohnung. Diese belohnt nur das Ergebnis, nicht den Weg dorthin: iterative Rückmeldungen fehlen. Das erklärt die Lücke zwischen Anspruch und Praxis – und erinnert mich entfernt an den neuesten Trend: „Spec‑driven Agentic Software Engineering” – den neuen Lieblingssport der Developer. Wenn Spezifikationen den iterativen Loop ersetzen statt ihn zu begleiten. End‑Rewards sind informationsarm, Prozesssignale fehlen. Das betrifft die Trainingsphase und die Forschung der AI Labs. Wir leben in der Betriebs- und Integrationsphase. Dort zählen drei Dinge: Datenzugriff, Werkzeugnutzung und belastbare Rückmeldungen. Aber: auch wir müssen uns damit beschäftigen, Memory richtig zu lösen. Für die Anwendungsfälle, die wir vor uns haben. Karpathy skizziert einen „cognitive core“ – einen kleinen, wissensleichten Kern, der Denken trägt und Wissen bei Bedarf nachlädt. Das erinnert mich an das NVIDIA Paper zu SLMs (Small Language Models) als Agentenmotor (hatten wir schon in einer der letzten Ausgaben). Übersetzung für uns: Wir schneiden Aufgaben eng, liefern Kontext gezielt und verlangen Belege in der Antwort. Damit kommen wir sehr weit und lösen Dinge, die vorher schlicht unmöglich waren.
ROI jetzt: Wert entsteht in der Integration, nicht im Wunsch nach „besserem Modell“
Wir sehen Wert bereits heute, egal in welche Himmelsrichtung wir schauen. Ein starkes Beispiel liefert die Bankenseite: JPMorgan berichtet rund 2 Mrd. US‑Dollar KI‑Opex und Einsparungen in ähnlicher Größenordnung – getragen von einem internen LLM mit breiter Nutzung.
"We have shown that for $2 billion of expense, we have about $2 billion of benefit."
Wer sowas misst, hat Betriebsdisziplin. Für uns heißt das: Wir koppeln Agenten fest an Workflows, messen Durchlaufzeit und Fehlerquote und rechnen die direkten Kosteneffekte durch. Wir entwickeln und betreiben Agenten wie gute, spezialisierte Software, nicht wie Messestände.
Ohne Schienen keine Bahnfahrt: Compute planen, nicht beschwören
Der KIRA‑Report zu KI‑Rechenzentren in Deutschland von einem neuen, kleinen Think Tank auf der Prenzlauer Allee in Berlin macht gerade überall die Runde. Die Kernaussagen schreien „Digitale Souveränität” in jeder Silbe:
- Compute ist zur strategischen Kernressource geworden, ohne Ausbau drohen Abhängigkeiten, Datenabfluss und Standortnachteile.
- Drei Strategien mit Ausbaustufen liefern die Leitplanken:
1. 0,8 GW/0,85 Mio. NVIDIA H100‑Äquivalente (Teilbereiche)
2. 3,4 GW/3,4 Mio. (alle Bereiche)
4. 5,9 GW/6 Mio. inkl. der Entwicklung eigener Frontier Models - Der aktuelle Projektpipeline‑Zuwachs (≈175.000–250.000 H100‑Äquivalente in 2–3 Jahren) reicht nicht einmal für Strategie 1
- Souveränität heißt: Standort in Deutschland/EU und europäischer Betreiber – Hardware-Ursprung zweitrangig; Mindestziel: 200.000 H100‑Äq. für kritische Anwendungen.
- Inferenz skaliert dezentral und kann auch ältere GPUs nutzen; Training von Spitzenmodellen erfordert sehr große, zentralisierte Cluster mit hoher Netzleistung.
Wir sollten jetzt nicht denken: mit dem „Ausbau der Schienen” haben wir nichts zu tun. Unternehmen und Konzerne haben sehr wohl einen Hebel, bei den großen deutschen Model-Serving- und Inferenzanbietern wie STACKIT und OTC fortschrittliche Agentenmodelle nachzufragen. Und sich nicht mit verstaubten 70B Modellen ohne agentisches Posttraining zufrieden zu geben. Sonst wird das nichts mit Tool-Use und ausdauerndem Arbeiten mit den eigenen Unternehmensdaten. Damit ernten wir nur Fehlermeldungen und Slop, dafür aber hochgradig compliant.
In all der europäischen Not aber ein Lichtblick: Inferenz skaliert dezentral, oft auch auf weniger performanten GPUs. Für den Betrieb von fertigen Modellen ist der GPU-RAM sehr viel entscheidender als die Leistung.
Wenn Europa eigene Spitzenmodelle trainieren will, gilt nach dem Report folgendes: Trainingsspitzen bleiben zentral und netzintensiv. Selbst eine mögliche EU‑„Gigafabrik“ bliebe im Weltvergleich klein.
"Ausreichende KI‑Rechenkapazität ist künftig eine Grundvoraussetzung für ein wettbewerbsfähiges und souveränes Deutschland."
Frei bleiben: Exit ist eine Architekturentscheidung
Der EU‑Data‑Act nimmt Vendor-Lock‑in die Ausreden. Er fordert Interoperabilität, senkt Wechselbarrieren und verbietet ab Januar 2027 Wechselgebühren. Aber Recht migriert keine Plattform. Portabilität entsteht durch Design: containerisierte Workloads, offene Protokolle, wiederverwendbare Deployments und geübte Exit‑Pfad‑Tests. Eine präzise Einordnung liefert mein INNOQ-Kollege Daniel Bornkessel in seinem Artikel EU‑Datenverordnung gegen Cloud‑Lock‑in und Monokultur.
Steuern statt Schreien
Ich arbeite nun schon einige Zeit mit GPT-5. Viel spannender als dauernde IQ-Vergleiche finde ich die Facette des „Instruction Followings”, die bei GPT-5 Thinking extrem ausgeprägt ist. Alleine das genügt, um bisheriges Prompt Engineering auf links zu drehen und zuverlässige agentische Workflows zu bauen. Mehr in meinem Guide zu GPT-5. Evaluieren müssen wir natürlich trotzdem noch, trotz brutal-genauer Instruktionsbefolgung. Die Debatte über saubere Evals und Fehleranalyse wächst – ein guter Einstieg ist diese Diskussion zu Error Analysis & Eval‑Disziplin.