Der kleine Freund in der Box hat jetzt einen Arbeitsvertrag (KW 38, 15.–19.9.2025)
Steve Jobs' Vision vom "little friend inside that box" wird 40 Jahre später Realität: KI-Agenten, die lesen statt schreiben, föderierte Wissensarchitekturen mit MCP, und warum spezialisierte Mini-Modelle die echten Arbeitstiere sind. Plus: Synthetische Medizindaten und IBMs Dokumenten-Pipeline.

Diese Woche rückt ein altes Bild in neues Licht: der „little friend inside that box“, den Steve Jobs 1984 als nächste Stufe der Computer beschrieb, heißt heute Agent. Sind wir bereit, ihn verantwortungsvoll arbeiten zu lassen – ohne Budget und Vertrauen zu verspielen?
Vom Schreiben zum Lesen
Doch zunächst einmal widmen wir uns dem Klassiker: „Mit LLMs können wir E-Mails zusammenfassen!” Wer KI mit „Textgenerator“ gleichsetzt, schaut an der eigentlichen Hebelwirkung vorbei. Noah Brier zeigt in einem angenehm unaufgeregten Setup, wie ein „Denk‑Agent“ über einem Obsidian‑Notizspeicher arbeitet, den ganzen Wissensstand „liest“ und uns beim Strukturieren hilft – mobil via Heimserver und Tailscale-VPN inbegriffen.
There’s entirely too much focus on its ability to write and not enough focus on its ability to read.
Wir kennen das aus der Praxis: Der Engpass liegt selten im Tippen, sondern im Finden, Verknüpfen und Verdichten.
Genau hier passt IBMs neue Kombi aus speziell trainiertem Granite Modell gepaart mit der Docling-Pipeline ins Bild. granite-docling-258m ist ein leichtgewichtiges multimodales Modell, das Scans oder PDF-Dokumente in strukturierte Formate wie Markdown und HTML überführt – inklusive Tabellen, Formeln und Code. Anders gesagt: Es hebt die Rohstoffqualität für unsere Agenten. Erste Versuche zeigen: Zaubern kann es auch nicht. Für Menschen schwer lesbare Scans sind auch für das Modell schwer lesbar. Was es aber möglich macht: komplexe Dokumente mit Tabellen, Spalten, Diagrammen und Visualisierungen in Klartext überführen. Wer hat nicht noch ein paar Tonnen undigitalisierter Dokumente in einem Archiv des Grauens rumliegen?
Von Datenfriedhöfen zu Wissenslandschaften
Was auf der persönlichen Ebene als Vault funktioniert, skaliert in Organisationen nur, wenn wir föderiert denken. Der INNOQ‑Beitrag meines Kollegen Philipp Beyerlein zur „Federated Knowledge Architecture“ zeigt, wie sich Open Data und industrielle Data Spaces zu einer Wissensschicht verbinden, ohne Daten zentral zu kippen. Dreh‑ und Angelpunkt ist das Model Context Protocol (MCP): Statt jedes System eigens anzudocken, beschreiben wir Datenquellen als standardisierte Dienste, die KI‑Clients verstehen. So entsteht die oft vermisste „letzte Meile“: Suchen, verknüpfen, begründen – in natürlicher Sprache, aber mit belegten Quellen. Nach Jahrzehnten von Open-Data-Projekten im Public Sector wird klar: Bitte nicht das nächste (offene) Datensilo mit immer wieder neu erfundenen UIs und zugehörigen Plattformen umsetzen.
Ein MCP‑Server meiner Kollegin Lara Pourabdolrahim, der Luftqualitätsdaten des Umweltbundesamts als Werkzeuge bereitstellt, macht Ad‑hoc‑Fragen wie „Wo ist heute in 10999 Berlin die Luft am besten?“ in Agenten-Flows trivial. Wer hier nicht aufhört zu denken, ahnt, dass Wissenssynthese über verschiedene Datenquellen damit greifbar wird. Und damit wir solche Quellen überhaupt finden, startet die MCP Working Group eine offene Registry – ein Katalog mit API, auf dem öffentliche und private Unterregister aufsetzen können. GitHub ist bereits aufgesprungen. Das ist keine Marketing‑Schönschrift, sondern schlichte Betriebskosten‑Logik: Wiederverwendbare Adapter schlagen Einmalintegrationen – besonders in heterogenen Landschaften, an denen die deutsche Wirtschaft traditionell leidet.
Klein denken, groß bauen
Die Debatte um „kleine Sprachmodelle“ (Small Language Models, SLMs) bekommt Rückenwind aus der Agenten‑Praxis. Ein neues Paper (von NVIDIA, wohlgemerkt) argumentiert, dass spezialisierte Modelle unter 10 Milliarden Parametern für viele Teilaufgaben in Agenten nicht nur „ausreichend“, sondern operativ überlegen sind: günstiger, schneller, formatstabiler.
We contend that SLMs are […] the future of agentic AI.
Die Architekturidee dahinter ist bodenständig: SLM‑first für enge, wiederkehrende Aufgaben wie Intent‑Erkennung, Extraktion oder Tool‑Aufrufe; nur bei Bedarf auf ein großes Modell routen. Klingt leicht nach Microservices für KI – mit dem Zusatznutzen, dass wir SLMs auch on‑premises betreiben können, was Datenschutz und Latenz hilft.
Gesundheit als Stresstest
Wie weit „Agenten, die lesen“, tragen können, zeigt ausgerechnet die Medizin. Delphi‑2M, ein generativer Transformer für Krankheitsverläufe, sagt Raten für über 1.000 Diagnosen voraus, simuliert 20‑Jahres‑Trajektorien und bleibt selbst extern ohne Finetuning solide – mit allen gebotenen Bias‑Warnungen (Nature‑Paper). Bemerkenswert: Ein Modell, das nur auf synthetischen Trajektorien trainiert wurde, liegt in der Genauigkeit nur wenige Prozentpunkte zurück. In regulierten Branchen sollte es jetzt klingeln: Lesefähige Modelle plus synthetische Daten können echten Nutzen bringen, wenn Governance, Kalibrierung und Transparenz sitzen. Der Transformer frisst weiter (siehe letzte Ausgabe).
Zum Schluss kommen wir zum Anfang zurück: Steve Jobs sprach 1984 von Computern als „Agenten“:
Well, the types of computers we have today are tools. They’re responders: you ask a computer to do something and it will do it. The next stage is going to be computers as “agents.” In other words, it will be as if there’s a little person inside that box who starts to anticipate what you want. Rather than help you, it will start to guide you through large amounts of information. It will almost be like you have a little friend inside that box. I think the computer as an agent will start to mature in the late '80s, early '90s.
Simon Willison grub das Zitat aus.
Jetzt wissen wir: Dieser „kleine Freund“ ist vor allem ein guter Leser, der mit kleinen Werkzeugen aktiv arbeitet und nur gelegentlich die große Bühne braucht – genau die Sorte Kolleg:in, die wir in unseren Organisationen zu selten fördern.