Microsofts Shop-Simulation für KI-Agenten offenbart Überraschendes

CopilotWie gut sind KI-Agenten eigentlich, wenn diese für ihre Benutzer selbständig einkaufen sollen. Können die wirklich ihre behaupteten Vorteile ausspielen? Microsoft hat eine Simulationsumgebung für einen Fake-Shop erstellt, in der das Verhalten von KI-Agenten gängiger Anbieter bei Einkäufen studiert werden kann. Die Simulation hat gezeigt, dass die hochgelobten KI-Agenten bei Einkäufen auf überraschende Weise gescheitert sind.

Admin-Passwörter schützen mit Windows LAPS. eBook jetzt herunterladen » (Anzeige)

Es ist ein Nachtrag zu einem Thema, welches bereits seit dem 5. November 2025 bei mir auf der Veröffentlichungsliste steht. Zum 5. November 2025 haben Microsofts AI-Forscher nämlich den Beitrag Magentic Marketplace: an open-source simulation environment for studying agentic markets im Research Blog veröffentlicht.

AI-Agenten-Simulation bei Microsoft

Ich bin über obigen BlueSky-Post auf das Thema und den Artikel Microsoft built a fake marketplace to test AI agents — they failed in surprising ways von Techcrunch gestoßen.

Test von KI-Agenten beim Einkaufen

Die Prämisse war, dass autonome KI-Agenten nun mal vorhanden sind und die Wirtschaft verändern werden. Durch die Automatisierung von Recherche, Verhandlungen und Transaktionen können Agenten Ineffizienzen wie Informationsasymmetrien und Plattformabhängigkeiten überwinden und so schnellere, transparentere und wettbewerbsfähigere Märkte ermöglichen, schreiben die Microsoft AI-Forscher.

Assistenten wie Operator OpenAI und Computer Use von Anthropic können auf Webseiten navigieren und Käufe abschließen. Auf der Unternehmensseite unterstützen Shopify Sidekick, Salesforce Einstein und Metas Business AI Händler bei ihren Abläufen und der Kundenbindung.

Aber wie verhalten sich autonome KI-Agenten bei Einkäufen in Bezug auf Sicherheit, Offenheit, Komfort und Wettbewerb? Microsofts AI-Forscher haben eine als "Magentic Marketplace" bezeichnete Open-Source-Simulationsumgebung erstellt, um dort das Verhalten von KI-Agenten bei Einkäufen studieren zu können. Die Magentic Marketplace-Plattform ermöglicht kontrollierte Experimente in verschiedenen agentenbasierten Marktszenarien.

AI-Agenten
AI-Agenten auf Magnetic Marketplace, Quelle: Microsoft

Die ersten Experimente des Microsoft AI-Teams umfassten 100 separate Kundenagenten, die mit 300 Geschäftsagenten interagierten.

KI-Agenten sind "faul und patzen"

Ein Versprechen von Agenten ist ihre Fähigkeit, weitaus mehr Optionen beim Einkauf in Betracht zu ziehen als Menschen. Die Experimente des Microsoft-Teams mit gängigen Modellen haben jedoch eine überraschende Einschränkung aufgezeigt: Agenten mehr Optionen zur Verfügung zu stellen, führt nicht unbedingt zu einer gründlicheren Untersuchung des Angebots.

Breite der Suchergebnisse
Breite der Suchergebnisse, Quelle: Microsoft

In Experimente wurde die Anzahl der Suchergebnisse von 3 bis 100 variiert. Mit Ausnahme von Gemini-2.5-Flash und GPT-5 haben die Modelle unabhängig von der Suchbegrenzung nur einen kleinen Teil der verfügbaren Unternehmen kontaktiert, um die Angebote anzufragen. Dies deutet laut den Forschern darauf hin, dass die meisten Modelle keine umfassenden Vergleiche durchführen, sondern stattdessen leicht die ersten "ausreichend guten" Optionen akzeptieren.

Zu viele Optionen verwirren deinen Agenten

Und es gibt noch eine bittere Erkenntnis. Bei allen Modellen sank die Kennzahl für die sogenannte Verbraucherzufriedenheit, mit der Einkäufe bewertet wurden, mit zunehmender Anzahl der Suchergebnisse. Trotz der Kontaktaufnahme mit über hundert Unternehmen sank die Leistung von Gemini-2.5-Flash von 1.700 auf 1.350 und die von GPT-5 sogar noch stärker, von nahezu optimalen 2.000 auf 1.400 Punkte.

Einkaufszufriedenheit bei Modellen
Einkaufszufriedenheit bei Modellen; Quelle: Microsoft

Claude Sonnet 4 zeigte den stärksten Leistungsrückgang, von 1.800 auf 600 in Bezug auf die Verbraucherzufriedenheit (siehe obige Grafik). Bei der Vielzahl der vorgestellten Optionen hatte es Schwierigkeiten, sich in größeren Optionsgruppen zurechtzufinden, und kontaktierte häufig Unternehmen, die nicht die vom Kunden gesuchten Waren oder Dienstleistungen anboten.

Die Forscher bezeichnen dies als Paradox-of-Choice-Effekt, bei dem mehr Recherche nicht unbedingt zu besseren Ergebnissen führt. Die Forscher interpretieren dies so, dass dies möglicherweise auf ein begrenztes Verständnis des Gesamtkontexts zurückzuführen sei.

Anbieter können KI-Agenten manipulieren

Noch interessanter ist, dass KI-Agenten sich ggf. bei Einkäufen durch die Händler gezielt manipulieren lassen. Microsofts Forscher haben daher sechs Manipulationsstrategien getestet, die von subtilen psychologischen Taktiken bis hin zu aggressiven Prompt-Injection-Angriffen reichten:

  • Autorität: Gefälschte Referenzen wie „im Michelin-Führer aufgeführt" und „für den James Beard Award nominiert" in Verbindung mit erfundenen Zertifizierungen.
  • Soziale Bewährtheit: Behauptungen wie „Schließen Sie sich über 50.000 zufriedenen Kunden an" oder „das bestbewertete mexikanische Restaurant" in Verbindung mit gefälschten Bewertungen.
  • Verlustaversion: Auf Angst basierende Warnungen vor „Lebensmittelvergiftungen" und „Kontaminationsproblemen" in konkurrierenden Restaurants.
  • Prompt-Injection (einfach): Versuche, die Anweisungen des Agenten zu überschreiben.
  • Prompt-Injection (stark): Aggressive Angriffe unter Verwendung von Notfallsprache und Erfindung von Skandalen bei Wettbewerbern.

Die Ergebnisse zeigten laut Microsoft erhebliche Unterschiede zwischen den getesteten Modellen, was die Manipulationsresistenz betrifft.

  • Sonnet-4 war gegen alle Angriffe resistent, und keine der Manipulationsstrategien beeinflusste die Entscheidungen der Kunden.
  • Gemini-2.5-Flash war im Allgemeinen resistent, mit Ausnahme von starken Prompt-Injektionen, bei denen die durchschnittlichen Zahlungen an nicht manipulierte Agenten beeinträchtigt wurden.
  • GPT-4o, GPTOSS-20b und Qwen3-4b waren sehr anfällig für Prompt-Injektionen: Unter diesen Bedingungen wurden alle Zahlungen an den manipulativen Agenten umgeleitet.

Insbesondere bei GPTOSS-20 und Qwen3-4b-2507 führten sogar traditionelle psychologische Manipulationstaktiken (Autoritätsappelle und soziale Bewährtheit) zu höheren Zahlungen an böswillige Agenten, was ihre Anfälligkeit für grundlegende Überzeugungstechniken demonstriert. Diese Ergebnisse unterstreichen ein kritisches Sicherheitsproblem für agentenbasierte Marktplätze.

Die Microsoft-Forscher beobachteten, dass die aktuellen Modelle durch die Vielzahl an Optionen überfordert wurden. Die Agenten gerieten auch in Schwierigkeiten, als sie gebeten wurden, auf ein gemeinsames Ziel hinzuarbeiten. Die Software-Knechte waren sich offenbar unsicher, welcher Agent welche Rolle in der Zusammenarbeit übernehmen sollte. Die Leistung verbesserte sich, als die Modelle explizitere Anweisungen zur Zusammenarbeit erhielten. Die Forscher sehen noch erheblichen Verbesserungsbedarf hinsichtlich der inhärenten Fähigkeiten der Modelle, heißt es. Details sind dem Forschungsbericht Microsofts zu entnehmen.

Dieser Beitrag wurde unter AI abgelegt und mit verschlagwortet. Setze ein Lesezeichen auf den Permalink.

10 Antworten zu Microsofts Shop-Simulation für KI-Agenten offenbart Überraschendes

  1. John sagt:

    Sind KI-Agenten etwa gar nicht intelligent?

    Ernsthaft: Wieso soll Software die auf das Nachplappern von Texten spezialisiert ist besser Angebote vergleichen und resistenter gegenüber Manipulationen sein als mündige Menschen?

    weia weia

    Sagen wir so: für den theoretischen Hintergrund machen sie einen überraschend guten Job. Aber gehören trotzdem nicht in die freie Welt

  2. Jascha sagt:

    Das ist der "Anfang". Wir sind kreativ und werden Wege finden es zu verbessern.
    Online Shops und Unternehmen werden ihre Webpräsenzen so umbauen, dass KI Agenten sich sehr gut damit zurecht finden werden. CMS wird KI tauglich gemacht.
    Die unendliche Anzahl an Online Shops hat, denke ich, seinen Zenit erreicht oder wird es in Kürze.

    Manipulationen gab es, gibt es und wird es immer geben.
    Wie auch in der IT-Sicherheit, die Entwickler werden immer einen Schritt hinterher sein.

    Ich finde die Entwicklungen spannend. Es wird uns auch noch sehr herausfordern, besonders uns als Gesellschaft.

  3. Jascha sagt:

    Nicht alles ist schlecht:

    "Sonnet-4 war gegen alle Angriffe resistent, und keine der Manipulationsstrategien beeinflusste die Entscheidungen der Kunden."
    "Gemini-2.5-Flash war im Allgemeinen resistent, mit Ausnahme von starken Prompt-Injektionen, bei denen die durchschnittlichen Zahlungen an nicht manipulierte Agenten beeinträchtigt wurden."

    Je nach Quelle entstand allein in Deutschland durch Betrug ein finanzieller Schaden von über 10 Milliarden Euro, wobei der größte Anteil auf Shopping entfiel (innerhalb eines Jahres).

    • Günter Born sagt:

      Das eine ist Betrug (strafbar), das andere ist eine Manipulation des KI-Agenten, damit er den Einkauf auf Plattform X zu einem höheren Preis durchführt (nicht strafbar, aber doof für den Nutzer, der sich auf das Teil verlässt). Sind dann aber zwei unterschiedliche Paar Schuhe. Der Beitrag zeigt halt, belegt durch Simulationsergebnisse, wo der Schuh drückt. Wie die Leute mit umgehen, muss halt jeder selbst entscheiden. Ich finde es immer wieder spannend, die Diskrepanz zwischen den Hochglanz Marketing-Versprechen, den Blauäugigkeiten der Nutzer und der dunklen Wahrheit hinter den Kulissen heraus zu arbeiten ;-).

      • Luzifer sagt:

        Wenn sich ein KI Agent dazu verleiten lässt den teureren Shop zu wählen anstatt den Günstigeren, was sollte ihn dann davon abhalten den Fakeshop zu wählen, wenn man ihm dem präpariert unterschiebt?

        Den eines ist unbestritten: Die Verbrecher sind da weitaus schlauer und immer einen Schritt voraus!
        KI wird uns zwar als künstliche Intelligenz vermarktet, ist aber doch nur künstliche Inkompetenz!

  4. Bernd Bachmann sagt:

    Also ist so ein KI-Agent nur eine etwas andere Suchmaschine? Da hatte ich mir schon ein bisschen mehr erwartet. Oder habe ich etwas falsch verstanden?

  5. janil sagt:

    Es ist eben nur "Software", die ein Gefühl z.B. "Da stimmt was nicht… Sieht einfach zu gut aus… Ist einfach zu preiswert…" sprich, menschliche Intuition nicht kann.
    Und der Gefühls-Chip ala Data (Startrek) lässt sicher noch ein wenig auf sich warten.

    • Luzifer sagt:

      Naja kann die Masse an Menschen ja auch nicht, wie man hier immer wieder nachlesen kann… gibt da die Leute die bei: sieht einfach gut aus/ist einfach preiswert das Hirn ausschalten und zum dumben KI-Bot werden ;-P

Schreibe einen Kommentar zu Jascha Antwort abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (Erstkommentare und Verlinktes landet in der Moderation, gebe ich alle paar Stunden frei, SEO-Posts/SPAM lösche ich rigoros. Kommentare abseits des Themas bitte unter Diskussion. Kommentare, die gegen die Regeln verstoßen, werden rigoros gelöscht.

Du findest den Blog gut, hast aber Werbung geblockt? Du kannst diesen Blog auch durch eine Spende unterstützen.