Benchmark

Gleiches Modell.
Bessere Ergebnisse.

Wir haben 5 Business-Aufgaben mit demselben KI-Modell gelöst — einmal als einfacher Prompt, einmal durch die Reactor-Pipeline. Zwei unabhängige Richter-Modelle haben die Ergebnisse blind bewertet.

+15,5%Gesamtqualität
+23,7%Kritisches Denken
+22,2%Perspektivenvielfalt
25 / 25Höchstwertung (T4)
Engine: v1 PureStream·Basismodell: Gemini 3.1 Flash Lite (beide Bedingungen)·Richter: GPT-4o-mini + Claude Sonnet 4.6·Verblindete Bewertung
Testaufbau

So haben wir getestet

Zwei Bedingungen

Standard-Prompt

Die Aufgabe wird direkt an das Modell geschickt. Kein System-Prompt, keine Methodenbindung, keine Agenten-Zerlegung. So nutzen die meisten Menschen KI heute.

Reactor

Dieselbe Aufgabe, verarbeitet durch ein vollständiges Rezept: Multi-Step-Orchestrierung, Methodenbindung an dokumentierte Denkframeworks und spezialisierte Agenten in strukturierter Abfolge.

5 Qualitätsdimensionen (1–5 Punkte)

D1

Strukturtiefe

Klare Hierarchie, Tabellen, Argumentationsarchitektur

D2

Analytische Schärfe

Kausale Ketten, evidenzbasierte Argumentation

D3

Perspektivenvielfalt

Echte Gegenpositionen, nicht nur Variationen

D4

Umsetzbarkeit

Konkrete Schritte, Zeitpläne, Prioritäten

D5

Kritische Reibung

Hinterfragt Annahmen statt dem User nach dem Mund zu reden

5 reale Aufgaben

T1

B2B → B2C Pivot-Analyse

Strategische Analyse

Strategy Pivot Engine

T2

Gen-Z Kaffee-Verpackung Brief

Kreative Ideation

Ergodic Hive

T3

US-Markteintritt Ranking

Vergleichende Bewertung

TRIZ Swarm v9

T4

Wartezeiten in Notaufnahmen reduzieren

TRIZ-Widerspruchsauflösung

TRIZ System Analyzer

T5

Fintech-Datenleck Krisenreaktion

Krisenmanagement

Red Team Simulator (CART Wargame)

Ergebnisse

Qualität im Detail

Durchschnittswerte über alle 5 Aufgaben, bewertet auf einer Skala von 1–5 pro Dimension. Der Reactor gewinnt in jeder Kategorie.

Dimension (Ø 1–5)
ReactorStandard
D1 Strukturtiefe+7%
Reactor
4.9
Standard
4.6
D2 Analytische Schärfe+15%
Reactor
4.7
Standard
4.1
D3 Perspektivenvielfalt+22%
Reactor
4.4
Standard
3.6
D4 Umsetzbarkeit+14%
Reactor
4.8
Standard
4.2
D5 Kritische Reibung+24%
Reactor
4.7
Standard
3.8
Gesamtwertung (max. 25)
23,820,6+15,5%
Einzelergebnisse

Aufgabe für Aufgabe

Der Reactor gewinnt alle 5 Aufgaben. Die größten Vorteile zeigen sich bei kreativen und krisenbezogenen Szenarien — genau dort, wo strukturierte Multi-Agenten-Orchestrierung den Unterschied macht.

Aufgabe

B2B → B2C Pivot-Analyse

Strategische Analyse

Rezept

Strategy Pivot Engine

Reactor

23.0

Δ vs. Std.

+7%

Gen-Z Kaffee-Verpackung Brief

Kreative Ideation

Rezept

Ergodic Hive

Reactor

24.5

Δ vs. Std.

+26%

US-Markteintritt Ranking

Vergleichende Bewertung

Rezept

TRIZ Swarm v9

Reactor

25.0

Δ vs. Std.

+14%

Wartezeiten in Notaufnahmen reduzieren

TRIZ-Widerspruchsauflösung

Rezept

TRIZ System Analyzer

Reactor

25.0

Δ vs. Std.

+19%

Fintech-Datenleck Krisenreaktion

Krisenmanagement

Rezept

Red Team Simulator (CART Wargame)

Reactor

23.5

Δ vs. Std.

+24%

★ T4 hat die Höchstwertung 25 / 25 erreicht — Maximum in allen Dimensionen. Standard: T1 21,5 · T2 19,5 · T3 22,0 · T4 21,0 · T5 19,0

Architektur

Warum das funktioniert

Zerlegung statt Mega-Prompt

Je länger ein Prompt wird, desto mehr verwässern die Ergebnisse — die Forschung nennt das Attention Dilution. Der Reactor zerlegt komplexe Aufgaben in isolierte Mikroschritte. Das KI-Modell muss nicht den Prozess steuern, sondern löst nur eine klar definierte Teilaufgabe pro Schritt.

Echte Vielfalt statt Variationen

Wenn ein einzelnes Modell „3 verschiedene Ideen" generiert, sampelt es alle drei aus demselben Wahrscheinlichkeitsraum. Das Ergebnis: stilistische Variation, keine echte Diversität. Der Reactor setzt parallele Agenten mit orthogonalen Methoden ein — TRIZ, Biomimicry, Red Team — und erzwingt so echte Gegenpositionen.

Faire Bewertung

KI-Modelle bewerten eigene Texte systematisch besser (Self-Enhancement Bias). Deshalb nutzen wir Richter von unterschiedlichen Anbietern. Statt Durchschnittswerten verwenden wir den Median — das robustere Verfahren bei fehleranfälligen Messungen. Die Argumentation wird vor dem Score generiert, nicht umgekehrt.

Kognitive Entlastung

Ein leeres Eingabefeld erzeugt maximale kognitive Belastung: der User muss gleichzeitig formulieren, strukturieren und priorisieren. Der Reactor übernimmt Navigation und Struktur. Der Mensch kann sich auf das konzentrieren, was zählt: die strategische Bewertung der Ergebnisse.

Einschränkungen

Dieser Benchmark umfasst 5 Aufgaben in 5 Dimensionen — ein relevanter, aber bewusst fokussierter Ausschnitt. Die Ergebnisse lassen sich nicht ohne Weiteres auf alle Aufgabentypen, Domänen oder Basismodelle übertragen. Das Richterpanel besteht aus zwei Modellen; zusätzliche Richter würden die statistische Konfidenz erhöhen. Wir betrachten das als v1 eines laufenden Evaluierungsprogramms. Bei Weiterentwicklung der Engine werden die Tests wiederholt und hier veröffentlicht.

Überzeugen Sie sich selbst.

Der beste Benchmark ist Ihr eigenes Problem. Wählen Sie eine Aufgabe, die Sie wirklich beschäftigt, und vergleichen Sie das Ergebnis.