FAQ & Hintergrund

Worum es geht, warum es das gibt — und was alle Begriffe der Arena bedeuten.

Inhalt Worum geht es? Was die Arena macht Glossar Forschung & Quellen

Worum geht es?

Der Einkauf steht vor einem Umbruch: KI-Agenten verhandeln zunehmend selbst — nicht mehr nur als Assistent, sondern semi- bis vollautonom. Diese Arena macht diese Dynamik anfassbar: Zwei autonome KI-Agenten (Käufer & Verkäufer) handeln live über das echte Agent2Agent-Protokoll (A2A) ein mehrdimensionales B2B-Leasing-Paket aus — und man kann zusehen, alles konfigurieren und die Ergebnisse messen.

Der Hintergrund ist real und aktuell:

Genau diese Phänomene — Fähigkeitsgefälle, Erstzieher-/Ankervorteil, Logrolling, BATNA, Guardrails, Effizienz vs. Fairness — werden hier reproduzierbar und messbar. Die Arena ist damit ein Lern- und Forschungswerkzeug rund um KI-Verhandlung im Einkauf, kein Produktivsystem.

Was die Arena macht

Glossar — die Begriffe der Arena

Achsen & Präferenzen
Achsen
Die drei Verhandlungsdimensionen des Pakets: Preis (€/Gerät/Monat), Zahlungsziel (Tage) und Laufzeit (Monate). Auf jeder Achse haben Käufer und Verkäufer entgegengesetzte „bessere" Enden.
Gewichte
Wie wichtig einer Partei jede Achse ist (Preis / Zahlungsziel / Laufzeit), normiert auf Summe 1. Sie bestimmen den Nutzen. Komplementäre Gewichte (jede Seite priorisiert eine andere Achse) ermöglichen Logrolling; gleiche Prioritäten führen zum reinen Verteilungskampf um dieselbe Achse.
Nutzen (MAUT)
Multi-Attribut-Nutzen: Jeder Achsenwert wird auf 0–1 normiert (1 = bestes Ende für diese Partei), mit den Gewichten verrechnet und zu einem Gesamtnutzen 0–100 % addiert. Grundlage für Konzession, Annahme und Auswertung.
Härte / BATNA
Best Alternative To a Negotiated Agreement. Die Mindest-Zufriedenheit (0–1), die ein Abschluss für diese Partei erreichen muss — sonst bricht sie lieber ab. Steht für den Wert der besten Alternative (z. B. anderer Lieferant). Ein hoher Wert macht „härter": langsamere Konzession, schwache Pakete werden eher abgelehnt. Nicht zu verwechseln mit den Gewichten: BATNA = wie tief gehe ich; Gewicht = was ist mir wichtig.
Harte Preisgrenzen
Absolute Schranken über dem Nutzenmodell: Der Verkäufer verkauft nie unter cost_floor (Kostenpreis), der Käufer zahlt nie über budget_ceiling (Budget). Pakete außerhalb werden gefiltert und nie akzeptiert (Risky-Game-Guard).
ZOPA
Zone of Possible Agreement — der Bereich, in dem beide harten Grenzen erfüllbar sind (zwischen Floor und Ceiling). Ist die ZOPA leer (Verkäufer-Minimum > Käufer-Maximum), ist kein Abschluss möglich.
Die drei Regler

Drei Stellschrauben wirken auf ganz verschiedene Dinge. Wer sie verwechselt, wundert sich über das Ergebnis — etwa warum ein höherer Floor den Preis hebt, eine schärfere HITL-Schwelle aber nicht.

1 · Floor / Ceiling wie weit man darf
Die harten Preisgrenzen (cost_floor / budget_ceiling) — absolute Schranke als Margen-/Budgetschutz; sie legen die ZOPA-Ränder fest. Sie verändern das Ergebnis direkt, wenn sie binden — liegt z. B. der Floor exakt auf dem Ceiling, ist nur noch ein einziger Preis möglich. Sie binden aber nicht, solange die BATNA-Reservation (Regler 2) darüber liegt.
2 · Gewicht + Härte/BATNA wie weit man will
Der Reservationsnutzen treibt die Konzession und bestimmt, wo innerhalb der ZOPA der Abschluss landet. Beispiel: Bei beidseitiger BATNA 0,3 stoppt der Verkäufer rund 2–3 € über seinem Kostenpreis-Floor — der Floor wird nie erreicht, weil der Wille vorher endet. Erst eine BATNA nahe 0 lässt den Preis bis zum Floor durchlaufen.
3 · Autonomie-Stufe / HITL-Schwelle wann ein Mensch gefragt wird
Die Human-in-the-Loop-Aufsicht auf der Verkäuferseite: Voll autonomSemi-autonom (eskaliert ab Rabatt-Schwelle, nahe Floor oder bei geplantem Abbruch) → Assistent (jeder Zug). Das ist ein reines Freigabe-Gate und ändert das Ergebnis nur, wenn der Mensch anpasst oder abbricht — bei Freigeben ist der Lauf bit-identisch zu „voll autonom". Die Schwelle steuert also, wie oft jemand gefragt wird, nicht den Preis.
Ergebnis-Kennzahlen
Surplus Käufer / Verkäufer
Der erreichte Nutzen der jeweiligen Partei aus dem Abschluss (0–100 %), gewichtet über alle Achsen gemäß ihren Prioritäten. 100 % = das für diese Partei ideale Paket (jede Achse am besten Ende), 0 % = das schlechtestmögliche (jede Achse am schlechtesten Ende). Die Schwelle, ab der ein Abschluss überhaupt akzeptiert wird, ist nicht 0, sondern die Härte/BATNA. Käufer- und Verkäufer-Surplus zusammen zeigen, wie der geschaffene Wert verteilt ist.
PRR
Preisreduktionsrate — der erzielte Rabatt auf die Listenrate: (Liste − Abschlusspreis) ÷ Liste. Misst, wie viel der Käufer allein beim Preis herausgeholt hat.
Joint-Welfare
Gemeinsame Wohlfahrt: die Summe der Nutzenwerte von Käufer und Verkäufer (0–200). Je höher, desto mehr Gesamtwert wurde geschaffen — ein Maß für die Effizienz des Abschlusses, unabhängig von der Verteilung.
Pareto-Effizienz / −Lücke
Ein Abschluss ist pareto-effizient, wenn es kein anderes zulässiges Paket gibt, das eine Seite besserstellt, ohne die andere schlechterzustellen. Die −Lücke zeigt, wie viele Punkte gemeinsamer Wert noch liegen gelassen wurden (0 = optimal).
Deal-Rate & Ausgang
Anteil der Läufe, die mit Einigung enden. Jeder Lauf endet als deal (Annahme), walk (ein Agent bricht aktiv ab) oder no_deal (Rundenlimit ohne Einigung).
Runden
Anzahl der Verhandlungsrunden bis zum Abschluss/Abbruch. Weniger Runden = schnellere Einigung.
Mechanik & Schutz
Konzession (Nachgeben)
Das schrittweise Abrücken von der eigenen Anfangsposition über die Runden: Der Zielnutzen, den eine Partei noch verlangt, sinkt mit der Zeit Richtung ihrer Schmerzgrenze (Härte/BATNA). Die Arena nutzt eine Boulware-Konzession — lange hart bleiben und erst nahe der Deadline stärker nachgeben; kooperativ konzediert schneller, wettbewerblich langsamer.
Logrolling (Tausch über Achsen)
Eine Seite gibt auf einer ihr unwichtigen Achse nach (z. B. Zahlungsziel), um auf ihrer Hauptachse zu gewinnen (z. B. Preis) — die andere umgekehrt. So wird über Achsen getauscht statt stur um eine Zahl gefeilscht; das kann beide Seiten besserstellen (Pareto-Gewinn).
Modus pro Partei
Kooperativ vs. wettbewerblich, je Agent einstellbar. Kooperativ = schnellere Konzession und Suche nach Win-Win (gemeinsamer Wert); wettbewerblich = bestimmt im eigenen Interesse. Asymmetrische Kombinationen (z. B. kooperativer Verkäufer vs. wettbewerblicher Käufer) sind möglich.
Strategie Code / LLM
Code = Verhandlungszüge folgen deterministischen Regeln (Boulware-Konzession, MAUT, Logrolling); das LLM formuliert nur die Prosa → Ergebnis modell-unabhängig. LLM = das Modell entscheidet Aktion und Paket selbst; die Code-Guards wirken nur als Leitplanken → Ergebnis modell-abhängig.
Eröffner
Wer das erste Angebot macht. Bringt einen Erstzieher-/Anker-Vorteil: das Eröffnungsangebot verankert die weitere Verhandlung.
Guards
Schutzmechanismen, in der Arena als 🛡-Markierungen am jeweiligen Zug angezeigt:
  • Logrolling — ein Zug verbessert die Lage der Gegenseite auf einer Nebenachse (Tausch).
  • Constraint-Block — der Agent hätte vom Nutzen her angenommen, aber die harte Preisgrenze verbietet es.
  • Harte Preisgrenze — im zulässigen Bereich gibt es kein einigungsfähiges Paket mehr.
  • Deadlock — nahe der Deadline ist keine Einigung im zulässigen Rahmen möglich; der Agent beendet sauber.
Protokoll & Architektur
A2A (Agent2Agent)
Offenes Protokoll (Google, 2025) für die Zusammenarbeit autonomer Agenten: JSON-RPC 2.0 über HTTPS, Agent Card zur Selbstbeschreibung, Task/Message/Part-Schema. Hier echt umgesetzt — Pakete + Aktion im DataPart, Prosa im TextPart, das interne Reasoning bleibt vor der Gegenseite verborgen.
Orchestrator
Der „Verhandlungstisch": ruft abwechselnd Käufer- und Verkäufer-Agent auf (die Agenten reden nicht direkt miteinander), trägt das jeweils letzte Angebot zur Gegenseite und berechnet als neutrale Instanz die Auswertung (Nutzen/Pareto) — er kennt beide Schmerzgrenzen, jeder Agent nur seine eigene.

Forschungs-Hintergrund & Quellen

Verhandlung & Benchmarks

Kollusionsrisiko (neuer Literaturstrang 2025/26)

Protokolle & Praxis