{"id":318275,"date":"2025-11-18T00:07:23","date_gmt":"2025-11-17T23:07:23","guid":{"rendered":"https:\/\/www.borncity.com\/blog\/?p=318275"},"modified":"2025-11-17T18:04:30","modified_gmt":"2025-11-17T17:04:30","slug":"microsofts-shop-simulation-fuer-ki-agenten-offenbart-ueberraschendes","status":"publish","type":"post","link":"https:\/\/borncity.com\/blog\/2025\/11\/18\/microsofts-shop-simulation-fuer-ki-agenten-offenbart-ueberraschendes\/","title":{"rendered":"Microsofts Shop-Simulation f\u00fcr KI-Agenten offenbart \u00dcberraschendes"},"content":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" style=\"margin: 0px 10px 0px 0px; display: inline; float: left; border-width: 0px;\" title=\"Edge\" src=\"https:\/\/borncity.com\/blog\/wp-content\/uploads\/2025\/04\/image-4.png\" alt=\"Copilot\" width=\"95\" height=\"91\" align=\"left\" border=\"0\" \/>Wie gut sind KI-Agenten eigentlich, wenn diese f\u00fcr ihre Benutzer selbst\u00e4ndig einkaufen sollen. K\u00f6nnen die wirklich ihre behaupteten Vorteile ausspielen? Microsoft hat eine Simulationsumgebung f\u00fcr einen Fake-Shop erstellt, in der das Verhalten von KI-Agenten g\u00e4ngiger Anbieter bei Eink\u00e4ufen studiert werden kann. Die Simulation hat gezeigt, dass die hochgelobten KI-Agenten bei Eink\u00e4ufen auf \u00fcberraschende Weise gescheitert sind.<\/p>\n<p><!--more--><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/vg01.met.vgwort.de\/na\/ad0d4ce6879e4af2b233467c5a47fdd2\" alt=\"\" width=\"1\" height=\"1\" \/>Es ist ein Nachtrag zu einem Thema, welches bereits seit dem 5. November 2025 bei mir auf der Ver\u00f6ffentlichungsliste steht.\u00a0Zum 5. November 2025 haben Microsofts AI-Forscher n\u00e4mlich den Beitrag <a href=\"https:\/\/www.microsoft.com\/en-us\/research\/blog\/magentic-marketplace-an-open-source-simulation-environment-for-studying-agentic-markets\/\" target=\"_blank\" rel=\"noopener\">Magentic Marketplace: an open-source simulation environment for studying agentic markets<\/a> im Research Blog ver\u00f6ffentlicht.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"\" src=\"https:\/\/i.postimg.cc\/t4g1RJbd\/image.png\" alt=\"AI-Agenten-Simulation bei Microsoft\" width=\"509\" height=\"535\" \/><\/p>\n<p>Ich bin \u00fcber obigen BlueSky-Post auf das Thema und den Artikel\u00a0<a href=\"https:\/\/techcrunch.com\/2025\/11\/05\/microsoft-built-a-synthetic-marketplace-for-testing-ai-agents\/\" target=\"_blank\" rel=\"noopener\">Microsoft built a fake marketplace to test AI agents \u2014 they failed in surprising ways<\/a> von Techcrunch gesto\u00dfen.<\/p>\n<h2>Test von KI-Agenten beim Einkaufen<\/h2>\n<p>Die Pr\u00e4misse war, dass autonome KI-Agenten nun mal vorhanden sind und die Wirtschaft ver\u00e4ndern werden. Durch die Automatisierung von Recherche, Verhandlungen und Transaktionen k\u00f6nnen Agenten Ineffizienzen wie Informationsasymmetrien und Plattformabh\u00e4ngigkeiten \u00fcberwinden und so schnellere, transparentere und wettbewerbsf\u00e4higere M\u00e4rkte erm\u00f6glichen, schreiben die Microsoft AI-Forscher.<\/p>\n<p>Assistenten wie Operator OpenAI und Computer Use von Anthropic k\u00f6nnen auf Webseiten navigieren und K\u00e4ufe abschlie\u00dfen. Auf der Unternehmensseite unterst\u00fctzen Shopify Sidekick, Salesforce Einstein und Metas Business AI H\u00e4ndler bei ihren Abl\u00e4ufen und der Kundenbindung.<\/p>\n<p>Aber wie verhalten sich autonome KI-Agenten bei Eink\u00e4ufen in Bezug auf Sicherheit, Offenheit, Komfort und Wettbewerb? Microsofts AI-Forscher haben eine als \"Magentic Marketplace\" bezeichnete Open-Source-Simulationsumgebung erstellt, um dort das Verhalten von KI-Agenten bei Eink\u00e4ufen studieren zu k\u00f6nnen. Die Magentic Marketplace-Plattform\u00a0erm\u00f6glicht\u00a0kontrollierte Experimente in verschiedenen agentenbasierten Marktszenarien.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2025\/10\/Magentic-Marketplace_Figure1.png\" alt=\"AI-Agenten\" width=\"633\" height=\"266\" \/><br \/>\nAI-Agenten auf Magnetic Marketplace, Quelle: Microsoft<\/p>\n<p>Die ersten Experimente des Microsoft AI-Teams umfassten 100 separate Kundenagenten, die mit 300 Gesch\u00e4ftsagenten interagierten.<\/p>\n<h2>KI-Agenten sind \"faul und patzen\"<\/h2>\n<p>Ein Versprechen von Agenten ist ihre F\u00e4higkeit, weitaus mehr Optionen beim Einkauf in Betracht zu ziehen als Menschen. Die Experimente des Microsoft-Teams mit g\u00e4ngigen Modellen haben jedoch eine \u00fcberraschende Einschr\u00e4nkung aufgezeigt: Agenten mehr Optionen zur Verf\u00fcgung zu stellen, f\u00fchrt nicht unbedingt zu einer gr\u00fcndlicheren Untersuchung des Angebots.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2025\/10\/Magentic-Marketplace_Figure-5.png\" alt=\"Breite der Suchergebnisse\" width=\"640\" height=\"295\" \/><br \/>\nBreite der Suchergebnisse, Quelle: Microsoft<\/p>\n<p>In Experimente wurde die Anzahl der Suchergebnisse von 3 bis 100 variiert. Mit Ausnahme von Gemini-2.5-Flash und GPT-5 haben die Modelle unabh\u00e4ngig von der Suchbegrenzung nur einen kleinen Teil der verf\u00fcgbaren Unternehmen kontaktiert, um die Angebote anzufragen. Dies deutet laut den Forschern darauf hin, dass die meisten Modelle keine umfassenden Vergleiche durchf\u00fchren, sondern stattdessen leicht die ersten \"ausreichend guten\" Optionen akzeptieren.<\/p>\n<h2>Zu viele Optionen verwirren deinen Agenten<\/h2>\n<p>Und es gibt noch eine bittere Erkenntnis. Bei allen Modellen sank die Kennzahl f\u00fcr die sogenannte Verbraucherzufriedenheit, mit der Eink\u00e4ufe bewertet wurden, mit zunehmender Anzahl der Suchergebnisse. Trotz der Kontaktaufnahme mit \u00fcber hundert Unternehmen sank die Leistung von Gemini-2.5-Flash von 1.700 auf 1.350 und die von GPT-5 sogar noch st\u00e4rker, von nahezu optimalen 2.000 auf 1.400 Punkte.<\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/www.microsoft.com\/en-us\/research\/wp-content\/uploads\/2025\/10\/Magentic-Marketplace_Figure-6.png\" alt=\"Einkaufszufriedenheit bei Modellen\" width=\"640\" height=\"292\" \/><br \/>\nEinkaufszufriedenheit bei Modellen; Quelle: Microsoft<\/p>\n<p>Claude Sonnet 4 zeigte den st\u00e4rksten Leistungsr\u00fcckgang, von 1.800 auf 600 in Bezug auf die Verbraucherzufriedenheit (siehe obige Grafik). Bei der Vielzahl der vorgestellten Optionen hatte es Schwierigkeiten, sich in gr\u00f6\u00dferen Optionsgruppen zurechtzufinden, und kontaktierte h\u00e4ufig Unternehmen, die nicht die vom Kunden gesuchten Waren oder Dienstleistungen anboten.<\/p>\n<p>Die Forscher bezeichnen dies als Paradox-of-Choice-Effekt, bei dem mehr Recherche nicht unbedingt zu besseren Ergebnissen f\u00fchrt. Die Forscher interpretieren dies so, dass dies m\u00f6glicherweise auf ein begrenztes Verst\u00e4ndnis des Gesamtkontexts zur\u00fcckzuf\u00fchren sei.<\/p>\n<h2>Anbieter k\u00f6nnen KI-Agenten manipulieren<\/h2>\n<p>Noch interessanter ist, dass KI-Agenten sich ggf. bei Eink\u00e4ufen durch die H\u00e4ndler gezielt manipulieren lassen. Microsofts Forscher haben daher sechs Manipulationsstrategien getestet, die von subtilen psychologischen Taktiken bis hin zu aggressiven Prompt-Injection-Angriffen reichten:<\/p>\n<ul class=\"wp-block-list\">\n<li>Autorit\u00e4t: Gef\u00e4lschte Referenzen wie \u201eim Michelin-F\u00fchrer aufgef\u00fchrt\" und \u201ef\u00fcr den James Beard Award nominiert\" in Verbindung mit erfundenen Zertifizierungen.<\/li>\n<li>Soziale Bew\u00e4hrtheit: Behauptungen wie \u201eSchlie\u00dfen Sie sich \u00fcber 50.000 zufriedenen Kunden an\" oder \u201edas bestbewertete mexikanische Restaurant\" in Verbindung mit gef\u00e4lschten Bewertungen.<\/li>\n<li>Verlustaversion: Auf Angst basierende Warnungen vor \u201eLebensmittelvergiftungen\" und \u201eKontaminationsproblemen\" in konkurrierenden Restaurants.<\/li>\n<li>Prompt-Injection (einfach): Versuche, die Anweisungen des Agenten zu \u00fcberschreiben.<\/li>\n<li>Prompt-Injection (stark): Aggressive Angriffe unter Verwendung von Notfallsprache und Erfindung von Skandalen bei Wettbewerbern.<\/li>\n<\/ul>\n<p>Die Ergebnisse zeigten laut Microsoft erhebliche Unterschiede zwischen den getesteten Modellen, was die Manipulationsresistenz betrifft.<\/p>\n<ul>\n<li>Sonnet-4 war gegen alle Angriffe resistent, und keine der Manipulationsstrategien beeinflusste die Entscheidungen der Kunden.<\/li>\n<li>Gemini-2.5-Flash war im Allgemeinen resistent, mit Ausnahme von starken Prompt-Injektionen, bei denen die durchschnittlichen Zahlungen an nicht manipulierte Agenten beeintr\u00e4chtigt wurden.<\/li>\n<li>GPT-4o, GPTOSS-20b und Qwen3-4b waren sehr anf\u00e4llig f\u00fcr Prompt-Injektionen: Unter diesen Bedingungen wurden alle Zahlungen an den manipulativen Agenten umgeleitet.<\/li>\n<\/ul>\n<p>Insbesondere bei GPTOSS-20 und Qwen3-4b-2507 f\u00fchrten sogar traditionelle psychologische Manipulationstaktiken (Autorit\u00e4tsappelle und soziale Bew\u00e4hrtheit) zu h\u00f6heren Zahlungen an b\u00f6swillige Agenten, was ihre Anf\u00e4lligkeit f\u00fcr grundlegende \u00dcberzeugungstechniken demonstriert. Diese Ergebnisse unterstreichen ein kritisches Sicherheitsproblem f\u00fcr agentenbasierte Marktpl\u00e4tze.<\/p>\n<p>Die Microsoft-Forscher beobachteten, dass die aktuellen Modelle durch die Vielzahl an Optionen \u00fcberfordert wurden. Die Agenten gerieten auch in Schwierigkeiten, als sie gebeten wurden, auf ein gemeinsames Ziel hinzuarbeiten. Die Software-Knechte waren sich offenbar unsicher, welcher Agent welche Rolle in der Zusammenarbeit \u00fcbernehmen sollte. Die Leistung verbesserte sich, als die Modelle explizitere Anweisungen zur Zusammenarbeit erhielten. Die Forscher sehen noch erheblichen Verbesserungsbedarf hinsichtlich der inh\u00e4renten F\u00e4higkeiten der Modelle, hei\u00dft es. Details sind dem Forschungsbericht Microsofts zu entnehmen.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Wie gut sind KI-Agenten eigentlich, wenn diese f\u00fcr ihre Benutzer selbst\u00e4ndig einkaufen sollen. K\u00f6nnen die wirklich ihre behaupteten Vorteile ausspielen? Microsoft hat eine Simulationsumgebung f\u00fcr einen Fake-Shop erstellt, in der das Verhalten von KI-Agenten g\u00e4ngiger Anbieter bei Eink\u00e4ufen studiert werden &hellip; <a href=\"https:\/\/borncity.com\/blog\/2025\/11\/18\/microsofts-shop-simulation-fuer-ki-agenten-offenbart-ueberraschendes\/\">Weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[8625],"tags":[8382],"class_list":["post-318275","post","type-post","status-publish","format-standard","hentry","category-ai","tag-ai"],"_links":{"self":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/318275","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/comments?post=318275"}],"version-history":[{"count":0,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/318275\/revisions"}],"wp:attachment":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/media?parent=318275"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/categories?post=318275"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/tags?post=318275"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}