KI-Projekte scheitern auf dem Weg zur Kantine (KW 40, 27.9.–2.10.2025)

Die PoC-Hölle: 85 % Accuracy trotz mieser Daten, und dann im Organigramm verreckt. Starke Modelle, schwache Daten, glänzender PoC – und Schluss bei Prozessen, Freigaben und Vertrauen. Und Sora 2 biegt in eine Welt ab, in der Wirklichkeit nur noch ein Parameter ist.

KI-Projekte scheitern auf dem Weg zur Kantine (KW 40, 27.9.–2.10.2025)

Diese Woche erinnerte uns ein Praxisbeispiel aus der Onkologie daran, dass gute Modellwerte selten das Nadelöhr sind, wenn KI produktiv werden soll, sondern die Organisation, die sie aufnehmen muss. Wie kommen wir aus der PoC-Falle, wenn die schwierigsten Aufgaben nicht im Repo, sondern im Organigramm liegen?

In einem pointierten Beitrag beschreibt Stuart Winter-Tear ein Projekt, das immunbedingte Nebenwirkungen in Krebsbehandlungsnotizen zuverlässig erkennt – F1-Scores (also wie gut ein Modell Präzision und Vollständigkeit schafft) in den hohen 80ern und 90ern, akademisch ein Erfolg, praktisch aber erst der Anfang, denn über 80 Prozent des Aufwands lagen in Datenflüssen, Workflow-Anpassung, Governance, Kostenargumentation und Monitoring, während weniger als 20 Prozent ins Modell selbst gingen:

The hard part is us.

Unbequem, aber vertraut: Ohne belastbare Datenpipelines, operative Verankerung im Tagesgeschäft, tragfähige Governance und Vertrauen der Nutzer:innen bleibt jede noch so elegante Architektur in der PoC-Falle stecken. Erfolg in KI korreliert stärker mit institutioneller Reife als mit dem letzten Prozentpunkt Genauigkeit. Wenn wir ehrlich sind, passen viele deutsche Freigabeprozesse und Budgetzyklen noch besser zu Mainframes als zu lernenden Systemen.

Von Metrik-Fetisch zu Produktreife

Wir kennen das Muster: Ein Benchmark steigt, der Stolz vom Team ist groß – und die Reklamationen im Betrieb bleiben. Der Ausweg heißt nüchterne Evaluierung entlang realer Nutzung. Hamel Hussein und Shreya Shankar zeichnen einen pragmatischen Pfad von Log-Analyse über Fehlerkategorien bis zu wenigen, binären Prüfern auf LLM-Basis, die in Entwicklung und Produktion laufen, und betonen, dass das Ziel nicht perfekte Testkataloge sind, sondern konkrete Produktverbesserungen.

The goal is not to do evals perfectly. It's to actionably improve your product.

Klingt banal, ist aber eine Haltungsfrage: Statt „3,7 von 5“ auf einer Skala definieren wir Ja/Nein-Regeln für das, was geschäftskritisch ist, kalibrieren das „LLM-as-a-Judge” gegen menschliche Labels und überwachen die Treffer- und Fehlerraten fortlaufend. So to speak: wenige, gut benannte Fehlertypen, Messbarkeit in der CI/CD-Pipeline, kleine tägliche Stichproben aus der Produktion.

Evals machen heißt: „Looking at your data”. Am besten gemeinsam mit einer Domänenexpertin.

RAG ohne Reue

Wer mit Retrieval-unterstützter KI arbeitet, kennt die Diskrepanz: Der Charme der Tutorials endet oft bei alten Scans, brüchigem OCR, starren Chunks und nicht gepflegten Metadaten. Aleksandar Basara legt den Finger in die Wunde: Ohne Qualitätsmetriken für Dokumente, struktur- und semantikbewusstes Segmentieren, sauberes Metadatenschema und einen hybriden Suchansatz aus Semantik plus Regeln/Keywords/Graph wird Enterprise‑RAG zur „Search Engine for Chaos“, wie er ausführt. Praktischer Tipp mit großem Hebel: Tabellen nicht ignorieren, sondern getrennt extrahieren und „dual“ einbetten; in Finance und Pharma liegt dort die halbe Wahrheit. Und ja, 15–20 Prozent Fehlschläge bei reiner Semantik-Suche sind je nach Domäne normal – den Rest fängt man mit Regeln und Ontologien ab.

Kosten gehören ins Betriebssystem, nicht in die Fußnote

Wenn KI in den Regelbetrieb geht, endet das Taschengeldmodell. Preise ändern sich, Modelle werden ausgetauscht, Volumina schwanken – und irgendwo sitzt eine Bereichsleitung mit einem Deckungsbeitrag. Spannend ist deshalb Stripes Private Preview für nutzungsbasierte Token‑Abrechnung mit fixem Aufschlag und automatischer Nutzungsprotokollierung über Proxies wie OpenRouter oder Cloudflare, die Miles Matthias ankündigt. Ein konsolidiertes Preisverzeichnis und ein sauberes Usage‑Tracking sind keine Kür, sondern Betriebspflicht: Sie ermöglichen Kosten‑plus‑Preislogik, klare Kundenzuordnung und verhindern „Revenue Leakage“. Für uns heißt das: Billing als First-Class‑Komponente im AI‑Stack behandeln, nicht als nachträgliche Excel‑Übung. CFO‑Vertrauen ist ein Produktmerkmal.

Kontext ist ein Budget

Ein weiterer unterschätzter Hebel ist Context Engineering. Anthropic argumentiert, wir sollten Kontext nicht als „Prompt“ begreifen, sondern als steuerbaren Zustand aus Systemanweisungen, Tooling, Beispielen, Verlauf und externen Daten – und auf das kleinste Set hochsignifikanter Token optimieren, statt immer mehr in das Kontextfenster zu schieben. Heißt in der Praxis: Just‑in‑Time‑Kontext laden, Historien verdichten, Tool‑Ausgaben säubern, wenige klar definierte Werkzeuge zulassen und einfache, persistente Notizen (Memory) außerhalb des Kontextfensters pflegen. Wer Agenten baut, braucht diese Disziplin, sonst ersetzt man deterministische Komplexität durch stochastisches Rauschen – beides teuer, nur letzteres schwerer zu debuggen.

Sora 2: Was ist Realität, Papa?

OpenAI stellte Sora 2 vor, und die Reaktionen schwankten in etwa gleich zwischen „Wahnsinn, wie gut das ist” und „Wahnsinn, wie schlimm das ist”. Marcel Weiß nennt in seinem Briefing (Paywall) die zugehörige Sora App „KI-TikTok”. Streitpunkt allerorten ist das „Cameo” Feature: man kann sich selbst in beliebige Szenen prompten. Die nie stattgefunden haben. Wer denkt da nicht an Erlebnisse der (eigenen) Kinder, die in Zukunft vielleicht nicht mehr stattfinden, aber dennoch zu sehen sind? Das ist mindestens ein Nachdenken wert. Wir sollten hierbei nicht vergessen: es geht im großen Maßstab nicht um neue TikToks, sondern um das Training von KI in beliebigen, simulierbaren Umgebungen. Embodied AI und Robotik. Dafür werden diese Video- und Weltmodelle gebaut. Die Sora App als „KI-TikTok" ist quasi ein „Abfallprodukt”. Vielleicht lassen wir alle diese Woche erstmal sacken. Am Ende ist und bleibt Adoption die ultimative Bremse für die gesellschaftlichen Auswirkungen der technologischen Entwicklung.

Exponenzieller Modellfortschritt bleibt real, aber er löst nichts allein

Weiterhin passiert auf Modellseite Erstaunliches: Ein kompaktes Audio‑Text‑Modell wie LFM2‑Audio‑1.5B zeigt, dass Sprachschnittstellen in Echtzeit mit unter 100 Millisekunden Latenz erreichbar sind und Audioverstehen und -erzeugen in ein gemeinsames Rückgrat rücken, was Architekturen vereinfacht. Das ist relevant – für Voice‑UIs, Edge‑Szenarien, Datenschutz. Aber die 80 Prozent bleiben: Mikrofonpolitik im Betrieb, Einverständnisse, Störgeräusche, Meeting‑Etikette, Betriebsrat. Der Fortschritt hilft uns, wenn wir die Umgebung darauf vorbereiten.

Wenn wir KI ernsthaft einführen wollen, müssen wir die 80 Prozent jenseits des Modells budgetieren, betreiben und führen – sonst bleibt der schönste Score ein Museumsstück.Wir schließen, mal wieder, wo wir angefangen haben: „The hard part is us”.