KI fließt und wir brauchen Ventile (KW 39, 20.–26.09.2025)
KI ist kein fester Block, den man irgendwo hinstellt. Und das „Restaurantproblem” für KI besteht weiterhin: wer nicht zu bestellen weiß, bestellt zur Sicherheit nur Pizza. Ambient Agents rütteln daran.

Diese Woche erinnert uns Miles Brundage daran, dass KI nicht wie ein fester Block, den man irgendwo hinstellt, funktioniert. Sondern wie eine Flüssigkeit, die man dosiert, leitet und absichert. Er beschreibt KI als Ressource, die sich in Menge und Zugang stufenlos einstellen lässt – und deshalb nicht auf „große Meilensteine“ wartet, sondern überall einsickert. Wie bauen wir in unseren Organisationen die richtigen Rohre, Ventile und Auffangbecken, statt auf den perfekten Block aus „fertiger KI“ zu warten?
“AI is a liquid, not a solid.”
Von Meilensteinen zu Reglern
Wenn Fähigkeit stufenlos ist, sollten wir auch so messen und steuern. CompileBench setzt genau dort an und testet Modelle an realen Open‑Source‑Builds statt an Programmierrätseln, inklusive Abhängigkeits‑Höllen und Cross‑Compiling‑Stolpersteinen, und zeigt, warum iterative Robustheit wichtiger ist als Einmalglück: pass@3 schlägt pass@1, weil mehrere Versuche näher an Produktionsrealität sind, wo wir Schleifen einplanen und absichern müssen, wie die Ergebnisse von curl bis ARM64 anschaulich zeigen, die CompileBench offenlegt. „pass@1“ steht dabei für die Erfolgsquote im ersten Versuch, „pass@3“ für die Quote in drei Anläufen – ein simpler, aber entscheidender Unterschied, wenn wir Prozesse statt Demos optimieren.
Auch wirtschaftlicher Nutzen verlangt realistische Aufgaben und Bewertungsmuster. Die beeindruckend sauber aufgesetzte Studie GDPval von OpenAI testet Modelle auf 1.320 wirtschaftlich relevanten Aufgaben quer über Berufe, bewertet von Expert:innen, und zeigt: Mit Human‑in‑the‑Loop und besserem „Scaffolding“ (also klaren Prüf- und Korrekturschritten) steigt die Leistung – ein sehr viel hilfreicheres Signal für CIOs als ein weiterer IQ‑Vergleich. In der Logik der Flüssigkeit heißt das: Wir drehen an Budget, Prozess und Hilfsmitteln, nicht am Mythos vom einen großen Durchbruch.
Plattformen sind die Rohre, Data Contracts die Ventile
Wenn KI ein Verstärker ist, verstärkt sie die Systemumgebung – Stärken wie Schwächen. Genau das berichtet die Google DORA‑Studie 2025: KI hebt Durchsatz, aber Stabilität bleibt eine Aufgabe des Systems, nicht des Tools. Plattform‑Engineering, gute Versionierung, kleine Batches und Value Stream Management machen aus lokalen Gewinnen echte Organisationswirkung.
“AI’s primary role in software development is that of an amplifier.”
Dazu gehört, die Ventile an die richtigen Stellen zu setzen. Statt endlose Datenkataloge zu pflegen, sollten wir Governance auf die Schnittstellen fokussieren, an denen Daten domänenübergreifend geteilt werden – mit klaren Verträgen über Schema, Metadaten und Nutzung. Jochen Christ plädiert für Data Contracts und den Open Data Contract Standard als praktikablen Rahmen, um dort zu regeln, wo Wert und Risiko entstehen. Um bei Flüssigkeiten zu bleiben: weniger Stauseen, mehr präzise Schieber.
Man muss auch bestellen können: das Restaurantproblem
Brauchen wir nun die ersten Leitplanken für „Agenten, die anfangen, ohne zu fragen“? Mit ChatGPT Pulse haben wir nun den ersten großen „Ambient Agent” in freier Wildbahn. Er liefert morgens persönliche Updates anhand eigener Kontexte, optional mit E‑Mail- und Kalender-Integration. Während wir aktuell noch unsere Nutzer:innen dazu erziehen, alle erdenklichen Bestellungen in ein Chatprompt zu packen, zeichnen sich am Horizont bereits die ersten Agenten ab, die im Hintergrund auf Domain Events lauschen und den Nutzer:innen das liefern, was sie vermutlich gar nicht wussten, dass sie es bekommen können – und erst recht nicht, wie sie es bestellen könnten. KI bleibt opak, und damit unglaublich unintuitiv. Quasi das Restaurantproblem, nur sehr viel größer: Wer nicht weiß, was man im italienischen Restaurant köstliches bestellen kann, bestellt zur Sicherheit nur Pizza. Dieses Problem muss nicht KI lösen, sondern wir.
Zugang fließt, Hardware bremst
Die Veröffentlichung des großen multimodalen Modells Qwen3‑VL 235B von Alibaba ist ein Beispiel: Starke Visual‑ und Agentenfähigkeiten, langes Kontextfenster – offen verfügbar. Ein weiterer Knochen für Europa, diesmal sogar multimodal (nach OpenAIs semi-offenem Textmodell gpt-oss). Aber: Inferenz‑seitig etwas anspruchsvoller. Open Weights senken Eintrittshürden, nicht die Stromrechnung; wer semi-offene Modelle operativ will, braucht ernsthafte Infrastrukturdisziplin. Die internen Weiterbildungsprogramme für LLM-Inferenz laufen sicherlich schon seit 6 Monaten. Oder?
Gleichzeitig bekommen Agenten neue „Sinne“. Addy Osmani zeigt, wie das Chrome DevTools MCP (Model Context Protocol als Standard‑Schnittstelle für Werkzeuge) Coding‑Assistenten echten Browserzugriff mitsamt DOM, Netzwerk‑Logs und Performance‑Tracing gibt – lokal, isoliert, reproduzierbar. Damit wird der Feedbackloop reicher und der Agent noch engerer Debugging‑Partner.
Sicherheit heißt Containment und Gewöhnung zugleich
Die Flüssigkeit wird mächtiger – wir müssen lernen, mit nassen Füßen zu leben, und zugleich Abflüsse abdichten. Microsofts AI CEO Mustafa Suleyman skizziert in seinem Gespräch mit Trevor Noah, wo rote Linien liegen sollten: Systeme mit rekursiver Selbstverbesserung, eigenen Zielen, hoher Autonomie und Ressourcenzugriff erfordern besondere Grenzen, inklusive physischer Killswitches und klarer Prüfungen. Parallel zeigt die Forschung, wie schnell Biotechnologie und generative Modelle zusammenfinden – etwa beim generativen Design von Bakteriophagen‑Genomen. So etwas wie der „Bauplan“ von Viren, die Bakterien befallen – sie enthalten alle Anweisungen, damit der Phage sich im Bakterium vermehren kann. Das ist Chance und Risiko zugleich: Therapieoptionen, aber auch höhere Anforderungen an Biosicherheit und Zugangskontrollen.
Sicherheit ist dabei kein Grund, die Hände in den Schoß zu legen. GenAI Pilotprojekte dürfen – und sollen – scheitern, solange wir aus ihnen lernen und systematisch skalieren. Ethan Mollick erinnert daran, dass die vielzitierte „95 % scheitern“-Zahl der MIT-Studie auf schwacher Methodik basiert und keine belastbare Aussage über Erfolgsquoten zulässt. In anderen Worten: Wir brauchen eine Experimentierkultur mit Rücklaufventilen, nicht Schlagzeilen.
“Pilots are for learning, not headlines.”
Was heißt das operativ für uns
Wenn KI flüssig ist, planen wir wie Ingenieur:innen eines Versorgungsnetzes: Kapazität (Denkbudget), Leitungen (Plattform und Prozesse), Ventile (Zugang, Data Contracts), Rückschlagklappen (Evals, Rollbacks) und Rückhaltebecken (Sicherheitsaufsicht). Wir messen Durchfluss und Qualität statt nur Geschwindigkeit. Wir akzeptieren, dass etwas ausläuft – und sorgen dafür, dass es nicht ins Grundwasser gerät.
Die zentrale Frage für uns alle ist dann nicht „Welches Modell ist das beste“, sondern „Welchen Fluss wollen wir wo erlauben, zu welchen Kosten, mit welchen Kontrollen, um welchen Nutzen zu heben“. Wer diese Frage konkret beantwortet, wird merken: KI fühlt sich weniger nach Magie an und mehr nach sauber verlegten Rohren, die zuverlässig liefern, wenn wir den Hahn aufdrehen.