90% von allem ist Schrott – und das war schon immer so

Ein forschender Agent liest 1500 Papers und repliziert unveröffentlichte Alzheimer-Forschung. 90% von allem war schon immer Schrott – KI macht ihn nur sichtbar. Plus: Distributional Convergence erklärt, warum Modelle ohne Führung im Generischen landen.

90% von allem ist Schrott – und das war schon immer so

Diese Woche entbrannte eine Diskussion über „Slop" – geistige Massenware im Netz, die angeblich durch KI explodiert. Ein Copywriter mit 20.000 Artikeln auf dem Buckel erinnert an ein unbequemes Gesetz: 90% von allem war schon immer Schrott. Aber wenn KI den Heuhaufen exponentiell vergrößert – wer findet dann noch die Nadeln?

Die Schrott-Inflation ist eine Illusion

Die Klage ist bekannt: KI flutet das Internet mit mittelmäßigem Content, Originalität stirbt, Qualität ertrinkt. Eine Alex Lieberman hält auf auf X dagegen. Alex meldet sich als Copywriter (u. a. „Morning Brew”) zu Wort und gibt zu Protokoll: In 17 Jahren habe er rund 20.000 Artikel geschrieben. Davon waren etwa fünf Prozent wirklich gut. Der Rest? Auftragsarbeit, Content-Mühle, bezahlte Mittelmäßigkeit. Und das war vor ChatGPT.

Sturgeon’s Law – benannt nach dem Science-Fiction-Autor Theodore Sturgeon – formuliert es seit den 50ern: 90% von allem ist Schrott. Das gilt für Bücher, Filme, Musik, wissenschaftliche Paper und ja, auch für das Internet vor 2022. Der Unterschied zu heute ist nicht die Quote, sondern die Sichtbarkeit.

Slop is not an AI problem. It is a distribution problem. We never had to confront human slop before because it was trapped in small circles. Now AI amplifies it.

Wir haben uns an Filter gewöhnt – Redaktionen, Verlage, Algorithmen, soziale Kreise –, die den Schrott von uns fernhielten. KI sprengt diese Schleusen. Plötzlich sehen wir, was schon immer da war.

Der Heuhaufen wächst, aber auch die Nadeln

Hier wird es interessant. Die Standardreaktion auf Slop ist Panik: Mehr Schrott, weniger Signal, Untergang der Qualität, und generell von allem. Aber diese Rechnung ignoriert die andere Seite der Gleichung. KI skaliert nicht nur die Produktion von Mittelmäßigkeit – sie skaliert auch die Fähigkeit, sie zu filtern. Vorausgesetzt, wir verstehen, woher die Mittelmäßigkeit kommt.

Anthropic hat das Problem kürzlich am Beispiel von Frontend-Design analysiert: Ohne Anleitung produziert Claude immer dieselben langweiligen Interfaces – Inter-Fonts (räusper), lila Farbverläufe auf weißem Hintergrund, minimale Animationen. Der Grund ist keine mangelnde Fähigkeit, sondern statistische Gravitation.

During sampling, models predict tokens based on statistical patterns in training data. Safe design choices – those that work universally and offend no one – dominate web training data. Without direction, Claude samples from this high-probability center.

Das ist der Kern des Slop-Problems: Distributional Convergence. KI konvergiert zur Mitte der Wahrscheinlichkeitsverteilung, wo das Generische lebt. Nicht weil sie nicht anders kann, sondern weil wir sie nicht anders lenken. Die gute Nachricht: LLMs sind hochgradig steuerbar. Mit den richtigen Prompts – oder dynamisch geladenen „Skills" – springt die Qualität sofort. Das Modell hat die Fähigkeit zu Originalität, es braucht nur den Schubs aus der statistischen Mitte heraus. Man muss eben bestellen können.

Andrej Karpathy hat diese Woche eine These formuliert (ja, viele X-Links diese Woche – aber AI wird auf X diskutiert), die das ergänzt: Der entscheidende Hebel für KI-Automatisierung ist nicht Intelligenz, sondern Verifizierbarkeit. Überall dort, wo wir klar sagen können, ob ein Output gut oder schlecht ist – durch Tests, Scores, Proof-Checker, Bewertungsfunktionen –, kann Reinforcement Learning optimieren. Und was sich optimieren lässt, lässt sich auch filtern.

Das bedeutet: In Domänen mit klaren Qualitätskriterien übernimmt KI nicht nur die Produktion, sondern auch die Kuration.

Wenn KI im Rauschen forscht

Wie weit das gehen kann, zeigen Sam Rodriques und Michaela Hinks mit Kosmos. Der „AI Scientist" arbeitet in der Domäne der wissenschaftlichen Literatur. Tausende Paper erscheinen täglich, die wenigsten sind relevant, noch weniger sind gut. Kosmos liest in einem Run etwa 1500 davon, führt 42.000 Zeilen Analysecode aus und arbeitet über zig Millionen Tokens hinweg an einem Forschungsziel.

Das Ergebnis ist keine Zusammenfassung, sondern Forschung. Beta-Nutzerinnen berichten, dass ein einziger Run etwa sechs Monate Doktorandinnen-Arbeit ersetzt. In einem technischen Report dokumentieren die Autor:innen sieben Entdeckungen – in Bereichen wie Alzheimer-Forschung, Genetik und Materialwissenschaften für Solarzellen. Drei davon sind unabhängige Replikationen menschlicher Arbeiten, darunter Ergebnisse, die zum Zeitpunkt der Kosmos-Runs noch unveröffentlicht waren. Das System hat sie selbst gefunden.

Kosmos can do in one day what would take them 6 months, and we find that 79.4% of its conclusions are accurate.

Das funktioniert, weil wissenschaftliche Schlussfolgerungen verifizierbar sind: Jede Aussage lässt sich auf konkrete Code-Snippets oder Textstellen in der Literatur zurückverfolgen. Kosmos findet nicht nur die Nadeln im Heuhaufen – es schmiedet neue. Und genau das ist der Punkt: KI kann mehr als filtern. Sie kann produzieren, was vorher nicht da war.

Der Sweet Spot liegt im Langweiligen

Auch jenseits der Forschung funktioniert das Prinzip – wenn auch bescheidener. Vercel hat diese Woche dokumentiert, wie ihre internen Agenten arbeiten. Auf dem Spektrum von Low Hanging Fruits bis hin zu Giga-Durchbrüchen wählte Vercel hausintern nicht die spektakulären, sondern die langweiligen: Lead-Qualifizierung, Abuse-Triage, Datenrecherche. Aufgaben mit niedriger kognitiver Komplexität und hoher Wiederholung – zu dynamisch für klassische If-Else-Automatisierung.

Ein Anti-Abuse-Agent reduziert die Ticket-Bearbeitungszeit um 59 Prozent. Nicht durch vollständige Automatisierung, sondern durch bessere Vorsortierung: Der Agent klassifiziert, der Mensch entscheidet über Edge Cases. Bei der Lead-Qualifizierung erledigt plötzlich eine Person die Arbeit von zehn.

Der gemeinsame Nenner mit Kosmos? Beide Domänen haben klare Erfolgskriterien. Ein Lead ist qualifiziert oder nicht. Ein Ticket ist Spam oder echt. Eine wissenschaftliche Schlussfolgerung ist belegbar oder nicht. Wo solche Kriterien existieren, greift Karpathys These: Verifizierbarkeit ermöglicht Optimierung. Wo sie fehlen – bei Urteilskraft unter echter Ambiguität –, bleibt der Mensch nicht nur im Loop, sondern am Steuer.

Die unbequeme Wahrheit über Kuration

Die Klage über Slop trägt einen nostalgischen Unterton. Sie sehnt sich nach einer Zeit, in der Gatekeeper die Qualität sicherten. Nicht nur die Öffentlichkeit muss sich nun mit Slop beschäftigen, auch die Unternehmen. Corporate Slop ist aber auch nichts Neues. Das dürften alle wissen, die schon seit mehr als drei Jahren auf LinkedIn verweilen.

Die neue Kompetenz heißt nicht: besser filtern. Sie heißt: Verifier bauen. Wer definieren kann, was Qualität bedeutet – in messbaren, wiederholbaren Kriterien –, erschließt Automatisierungsräume. Wer das nicht kann, ertrinkt in Slop, egal ob der von Menschen oder Maschinen produziert wurde. Agentic AI ist ein Verstärker. Wenn wir Slop zuführen, ernten wir Slop.

Sturgeon hatte recht: 90% von allem ist Schrott. Die Frage war nie, wie wir das ändern. Die Frage war immer, wie wir die anderen 10% finden. KI gibt uns zum ersten Mal Werkzeuge, die mit dem Ausmaß des Problems Schritt halten – vorausgesetzt, wir wissen, wonach wir suchen.

Außerdem neu im Blog:

Agentic Pelican on a Bicycle: Gemini 3 Pro
Looks like we have clear winner when it comes to agentically iterating on Pelican on a Bicycle (Simon’s OG benchmark). Let Gemini 3 speak for itself: For each iteration, I converted the SVG to a JPG using the chrome CLI and inspected the result using take_screenshot to simulate
Agentic Pelican on a Bicycle: Claude Opus 4.5
Last week, I declared a clear winner: Gemini 3 Pro. Just one week later, Opus 4.5 shows comparable improvements when iterating on its zero-shotted pelican on a bicycle. I like how Opus 4.5 added improvements that make sense. Where 4.1 added a plate with a selection of