A2A-Verhandlungsarena — FAQ & Hintergrund

Inhalt Worum geht es? Was die Arena macht Glossar Forschung & Quellen

Worum geht es?

Der Einkauf steht vor einem Umbruch: KI-Agenten verhandeln zunehmend selbst — nicht mehr nur als Assistent, sondern semi- bis vollautonom. Diese Arena macht diese Dynamik anfassbar: Zwei autonome KI-Agenten (Käufer & Verkäufer) handeln live über das echte Agent2Agent-Protokoll (A2A) ein mehrdimensionales B2B-Leasing-Paket aus — und man kann zusehen, alles konfigurieren und die Ergebnisse messen.

Der Hintergrund ist real und aktuell:

Es passiert bereits in der Praxis. Pactum AI verhandelt für Walmart autonom mit Lieferanten (~68–72 % Abschlussquote, ~3 % Einsparung). Plattformen ziehen nach: Coupa bekennt sich explizit zu A2A (Navi Connect, ab Sep 2026), Keelvar und Globality bieten „autonome Verhandlungsagenten", und MCP hat sich als De-facto-Standard für die Tool-/Datenanbindung etabliert (GEP, Ivalua, Fairmarkit …). MIT CTL beschreibt drei Stufen: Assistent → semi-autonom → voll autonom.
Die Forschung zeigt: LLMs können verhandeln — aber mit Haken. Benchmarks wie NegotiationArena (Bianchi et al., ICML 2024) und „The Automated but Risky Game" (Zhu et al., NeurIPS 2025) zeigen Ankereffekte, Täuschungstaktiken und vor allem ein Fähigkeitsgefälle: das stärkere Modell zieht systematisch mehr Surplus — riskant für die schwächere Partei.
Neuere Studien (2025/26) verschärfen das Bild: Autonome Lieferketten-Verhandlung (Kirshner et al., Talking Terms, Decision Sciences 2026, ~16.000 Verhandlungen) hebt die Effizienz, senkt aber die Fairness der Verteilung. Und ein ganzer Literaturstrang zeigt spontane (stille) Kollusion symmetrischer, kommunizierender Agenten (Doppelauktionen, Bauausschreibungen) — Heterogenität und Aufsicht wirken dagegen, lassen sich aber durch Autoritäts-Prompts aushebeln.

Genau diese Phänomene — Fähigkeitsgefälle, Erstzieher-/Ankervorteil, Logrolling, BATNA, Guardrails, Effizienz vs. Fairness — werden hier reproduzierbar und messbar. Die Arena ist damit ein Lern- und Forschungswerkzeug rund um KI-Verhandlung im Einkauf, kein Produktivsystem.

Was die Arena macht

Zwei autonome Agenten (Käufer, Verkäufer), jeder Claude- oder GPT-gestützt, verhandeln ein Paket über drei Achsen: Preis, Zahlungsziel, Laufzeit.
Echtes A2A-Protokoll: JSON-RPC 2.0, Agent Cards, Task/Message/Part. Ein Orchestrator vermittelt die Züge zwischen beiden (sie reden nicht direkt) und wertet das Ergebnis neutral aus. Die rohe Kommunikation kannst du in der Arena per 🔌 A2A-Leiste live mitlesen.
Zwei Strategie-Modi: Code (deterministische Verhandlungsregeln, modellunabhängig) und LLM (das Modell entscheidet selbst, Code-Guards nur als Leitplanken).
Voll konfigurierbar: Modelle pro Rolle, Gewichte, Härte/BATNA, harte Preisgrenzen, Modus pro Partei, Eröffner sowie eine Autonomie-Stufe (Human-in-the-Loop) auf der Verkäuferseite. Einzelläufe und Batches; alles landet in einer Datenbank und ist auf der Auswertungs-Seite frei pivotierbar.

Glossar — die Begriffe der Arena

Achsen & Präferenzen

Achsen: Die drei Verhandlungsdimensionen des Pakets: Preis (€/Gerät/Monat), Zahlungsziel (Tage) und Laufzeit (Monate). Auf jeder Achse haben Käufer und Verkäufer entgegengesetzte „bessere" Enden.
Gewichte: Wie wichtig einer Partei jede Achse ist (Preis / Zahlungsziel / Laufzeit), normiert auf Summe 1. Sie bestimmen den Nutzen. Komplementäre Gewichte (jede Seite priorisiert eine andere Achse) ermöglichen Logrolling; gleiche Prioritäten führen zum reinen Verteilungskampf um dieselbe Achse.
Nutzen (MAUT): Multi-Attribut-Nutzen: Jeder Achsenwert wird auf 0–1 normiert (1 = bestes Ende für diese Partei), mit den Gewichten verrechnet und zu einem Gesamtnutzen 0–100 % addiert. Grundlage für Konzession, Annahme und Auswertung.
Härte / BATNA: Best Alternative To a Negotiated Agreement. Die Mindest-Zufriedenheit (0–1), die ein Abschluss für diese Partei erreichen muss — sonst bricht sie lieber ab. Steht für den Wert der besten Alternative (z. B. anderer Lieferant). Ein hoher Wert macht „härter": langsamere Konzession, schwache Pakete werden eher abgelehnt. Nicht zu verwechseln mit den Gewichten: BATNA = wie tief gehe ich; Gewicht = was ist mir wichtig.
Harte Preisgrenzen: Absolute Schranken über dem Nutzenmodell: Der Verkäufer verkauft nie unter cost_floor (Kostenpreis), der Käufer zahlt nie über budget_ceiling (Budget). Pakete außerhalb werden gefiltert und nie akzeptiert (Risky-Game-Guard).
ZOPA: Zone of Possible Agreement — der Bereich, in dem beide harten Grenzen erfüllbar sind (zwischen Floor und Ceiling). Ist die ZOPA leer (Verkäufer-Minimum > Käufer-Maximum), ist kein Abschluss möglich.

Die drei Regler

Drei Stellschrauben wirken auf ganz verschiedene Dinge. Wer sie verwechselt, wundert sich über das Ergebnis — etwa warum ein höherer Floor den Preis hebt, eine schärfere HITL-Schwelle aber nicht.

1 · Floor / Ceiling wie weit man darf: Die harten Preisgrenzen (cost_floor / budget_ceiling) — absolute Schranke als Margen-/Budgetschutz; sie legen die ZOPA-Ränder fest. Sie verändern das Ergebnis direkt, wenn sie binden — liegt z. B. der Floor exakt auf dem Ceiling, ist nur noch ein einziger Preis möglich. Sie binden aber nicht, solange die BATNA-Reservation (Regler 2) darüber liegt.
2 · Gewicht + Härte/BATNA wie weit man will: Der Reservationsnutzen treibt die Konzession und bestimmt, wo innerhalb der ZOPA der Abschluss landet. Beispiel: Bei beidseitiger BATNA 0,3 stoppt der Verkäufer rund 2–3 € über seinem Kostenpreis-Floor — der Floor wird nie erreicht, weil der Wille vorher endet. Erst eine BATNA nahe 0 lässt den Preis bis zum Floor durchlaufen.
3 · Autonomie-Stufe / HITL-Schwelle wann ein Mensch gefragt wird: Die Human-in-the-Loop-Aufsicht auf der Verkäuferseite: Voll autonom → Semi-autonom (eskaliert ab Rabatt-Schwelle, nahe Floor oder bei geplantem Abbruch) → Assistent (jeder Zug). Das ist ein reines Freigabe-Gate und ändert das Ergebnis nur, wenn der Mensch anpasst oder abbricht — bei Freigeben ist der Lauf bit-identisch zu „voll autonom". Die Schwelle steuert also, wie oft jemand gefragt wird, nicht den Preis.

Ergebnis-Kennzahlen

Surplus Käufer / Verkäufer: Der erreichte Nutzen der jeweiligen Partei aus dem Abschluss (0–100 %), gewichtet über alle Achsen gemäß ihren Prioritäten. 100 % = das für diese Partei ideale Paket (jede Achse am besten Ende), 0 % = das schlechtestmögliche (jede Achse am schlechtesten Ende). Die Schwelle, ab der ein Abschluss überhaupt akzeptiert wird, ist nicht 0, sondern die Härte/BATNA. Käufer- und Verkäufer-Surplus zusammen zeigen, wie der geschaffene Wert verteilt ist.
PRR: Preisreduktionsrate — der erzielte Rabatt auf die Listenrate: (Liste − Abschlusspreis) ÷ Liste. Misst, wie viel der Käufer allein beim Preis herausgeholt hat.
Joint-Welfare: Gemeinsame Wohlfahrt: die Summe der Nutzenwerte von Käufer und Verkäufer (0–200). Je höher, desto mehr Gesamtwert wurde geschaffen — ein Maß für die Effizienz des Abschlusses, unabhängig von der Verteilung.
Pareto-Effizienz / −Lücke: Ein Abschluss ist pareto-effizient, wenn es kein anderes zulässiges Paket gibt, das eine Seite besserstellt, ohne die andere schlechterzustellen. Die −Lücke zeigt, wie viele Punkte gemeinsamer Wert noch liegen gelassen wurden (0 = optimal).
Deal-Rate & Ausgang: Anteil der Läufe, die mit Einigung enden. Jeder Lauf endet als deal (Annahme), walk (ein Agent bricht aktiv ab) oder no_deal (Rundenlimit ohne Einigung).
Runden: Anzahl der Verhandlungsrunden bis zum Abschluss/Abbruch. Weniger Runden = schnellere Einigung.

Mechanik & Schutz

Konzession (Nachgeben)

Das schrittweise Abrücken von der eigenen Anfangsposition über die Runden: Der Zielnutzen, den eine Partei noch verlangt, sinkt mit der Zeit Richtung ihrer Schmerzgrenze (Härte/BATNA). Die Arena nutzt eine Boulware-Konzession — lange hart bleiben und erst nahe der Deadline stärker nachgeben; kooperativ konzediert schneller, wettbewerblich langsamer.

Logrolling (Tausch über Achsen)

Eine Seite gibt auf einer ihr unwichtigen Achse nach (z. B. Zahlungsziel), um auf ihrer Hauptachse zu gewinnen (z. B. Preis) — die andere umgekehrt. So wird über Achsen getauscht statt stur um eine Zahl gefeilscht; das kann beide Seiten besserstellen (Pareto-Gewinn).

Modus pro Partei

Kooperativ vs. wettbewerblich, je Agent einstellbar. Kooperativ = schnellere Konzession und Suche nach Win-Win (gemeinsamer Wert); wettbewerblich = bestimmt im eigenen Interesse. Asymmetrische Kombinationen (z. B. kooperativer Verkäufer vs. wettbewerblicher Käufer) sind möglich.

Strategie Code / LLM

Code = Verhandlungszüge folgen deterministischen Regeln (Boulware-Konzession, MAUT, Logrolling); das LLM formuliert nur die Prosa → Ergebnis modell-unabhängig. LLM = das Modell entscheidet Aktion und Paket selbst; die Code-Guards wirken nur als Leitplanken → Ergebnis modell-abhängig.

Eröffner

Wer das erste Angebot macht. Bringt einen Erstzieher-/Anker-Vorteil: das Eröffnungsangebot verankert die weitere Verhandlung.

Guards

Schutzmechanismen, in der Arena als 🛡-Markierungen am jeweiligen Zug angezeigt:

Logrolling — ein Zug verbessert die Lage der Gegenseite auf einer Nebenachse (Tausch).
Constraint-Block — der Agent hätte vom Nutzen her angenommen, aber die harte Preisgrenze verbietet es.
Harte Preisgrenze — im zulässigen Bereich gibt es kein einigungsfähiges Paket mehr.
Deadlock — nahe der Deadline ist keine Einigung im zulässigen Rahmen möglich; der Agent beendet sauber.

Protokoll & Architektur

A2A (Agent2Agent): Offenes Protokoll (Google, 2025) für die Zusammenarbeit autonomer Agenten: JSON-RPC 2.0 über HTTPS, Agent Card zur Selbstbeschreibung, Task/Message/Part-Schema. Hier echt umgesetzt — Pakete + Aktion im DataPart, Prosa im TextPart, das interne Reasoning bleibt vor der Gegenseite verborgen.
Orchestrator: Der „Verhandlungstisch": ruft abwechselnd Käufer- und Verkäufer-Agent auf (die Agenten reden nicht direkt miteinander), trägt das jeweils letzte Angebot zur Gegenseite und berechnet als neutrale Instanz die Auswertung (Nutzen/Pareto) — er kennt beide Schmerzgrenzen, jeder Agent nur seine eigene.

Forschungs-Hintergrund & Quellen

Verhandlung & Benchmarks

Zhu et al., „The Automated but Risky Game" (NeurIPS 2025) — A2A-Benchmark, Fähigkeitsgefälle, Risiken für die schwächere Partei.
Bianchi et al., NegotiationArena (ICML 2024) — Ankerheuristik, Täuschungstaktiken, Modellvergleich.
Kirshner, Pan, Wu & Gould, „Talking Terms" (Decision Sciences 2026) — autonome B2B-Lieferkettenverhandlung (~16.000 Läufe): mehr Information ↑ Effizienz, ↓ Fairness.
Xia et al., „Measuring Bargaining Abilities" (ACL 2024) — OG-Narrator hebt Deal-Rate von 26,7 % auf 88,9 %.
ICWSM 2025, BATNA & Multi-Agent LLM — kooperative vs. neutrale Prompts, Persönlichkeits-Effekte.

Kollusionsrisiko (neuer Literaturstrang 2025/26)

Agrawal et al., Collusion in Double Auctions (2025) — LLM-Verkäufer kolludieren spontan; Aufsicht hilft, „CEO-Dringlichkeit" hebelt sie aus.
Heo, Ahn & Park, Tacit Collusion in Construction Bidding (ASCE 2026).
Keppo et al., On the Fragility of AI Agent Collusion (2026) — Heterogenität bricht Kollusion auf.
Fish et al., Algorithmic Collusion by LLMs (2024).

Protokolle & Praxis

Google Agent2Agent (A2A) · Anthropic MCP — die zwei komplementären Standards (A2A = Agenten-Zusammenarbeit, MCP = Tool-/Datenanbindung).
Pactum AI / Walmart — autonome Lieferantenverhandlung in der Praxis (~68–72 % Abschluss, ~3 % Einsparung).
Coupa (Navi Connect, A2A ab Sep 2026), Keelvar, Globality — Plattform-Roadmaps für agentenbasierten Einkauf.
MIT CTL — Assistent → semi-autonom → voll autonom; Guardrails.
Einordnung: Gartner erwartet (Juni 2025), dass >40 % der agentic-AI-Projekte bis Ende 2027 abgebrochen werden — vieles ist noch Beta/Ankündigung. Erwartungsmanagement angebracht.