{"id":323087,"date":"2026-03-29T07:48:08","date_gmt":"2026-03-29T05:48:08","guid":{"rendered":"https:\/\/borncity.com\/blog\/?p=323087"},"modified":"2026-03-30T11:26:18","modified_gmt":"2026-03-30T09:26:18","slug":"test-von-ki-chatbots-die-falschen-antworten-sind-ein-problem","status":"publish","type":"post","link":"https:\/\/borncity.com\/blog\/2026\/03\/29\/test-von-ki-chatbots-die-falschen-antworten-sind-ein-problem\/","title":{"rendered":"Test von KI-Chatbots: Die falschen Antworten sind ein Problem!"},"content":{"rendered":"<p><img decoding=\"async\" style=\"margin: 0px 10px 0px 0px; display: inline; float: left; border-width: 0px;\" title=\"Edge\" src=\"https:\/\/borncity.com\/blog\/wp-content\/uploads\/2026\/03\/Copilot.jpg&quot;\" alt=\"Copilot\" align=\"left\" border=\"0\" \/>Die Verwendung von gro\u00dfen Sprachmodellen (LLMs) und AI-Chatbots, neumodisch als \"k\u00fcnstliche Intelligenz\" (KI) bezeichnet, ist kaum noch aufzuhalten. Schnell ist die \"KI\" um Rat gefragt und liefert auch scheinbar \"beeindruckende\" Antworten. Britische Verbrauchersch\u00fctzer haben AI-Chatbots mit den verwendeten LLMs getestet und arg Bedenkliches gefunden. Das beste AI-Produkt (Perplexity) kam nur auf 72 Prozent richtige Antworten, d.h. jede vierte Antwort ist falsch! Kleiner Beitrag zu diesem Thema.<\/p>\n<p><!--more--><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/vg01.met.vgwort.de\/na\/66f7d15292ea4eb7ad0bc1750d4a5e48\" alt=\"\" width=\"1\" height=\"1\" \/>K\u00fcnstliche Intelligenz lauert ja seit gef\u00fchlt 2 &#8211; 3 Jahren an allen Ecken und Enden. Kaum eine Suchmaschine, die ohne LLM-Unterst\u00fctzung auskommt. Google und Bing dr\u00e4ngen den Nutzern die KI-gest\u00fctzten Zusammenfassungen regelrecht auf. Und im Microsoft-Universum wird der Nutzer durch Copilot erschlagen, w\u00e4hrend bei Google Gemini an allen Ecken lauert.\u00a0Wer hat noch nicht ChatGPT &amp; Co. nach bestimmten Sachverhalten befragt und \"beeindruckende\" Antworten erhalten?<\/p>\n<h2>Falsche Antworten als echtes Problem der AI<\/h2>\n<p>Es gibt sicherlich eine Reihe Einsatzgebiete, wo der Einsatz von gro\u00dfen Sprachmodellen (LLMs) Vorteile bringt und durchaus gerechtfertigt ist. Aber beim Einsatz dieser Technologie lauert immer das Risiko, dass da was \"in die falsche Richtung\" l\u00e4uft. Fachleuten ist gel\u00e4ufig, dass gro\u00dfe Sprachmodelle (LLMs) zum Halluzinieren neigen und mit \"dem Inbrunst der \u00dcberzeugung\" falsche Antworten liefern. Das f\u00fchrt zu bedenklichen Entwicklungen. Mal zwei Informationssplitter dazu.<\/p>\n<h3>BullshitBench im Rechtsbereich<\/h3>\n<p>Juristische Schrifts\u00e4tze, die erfundene Urteile zitieren, sind l\u00e4nger bekannt. Ich hatte das Thema hier im Blog bereits in diversen Artikeln (z.B. im Beitrag <a href=\"https:\/\/borncity.com\/blog\/2025\/09\/14\/technische-hypotheken-muss-die-ki-revolution-ausfallen-teil-2\/\">Technische Hypotheken: Muss die KI-Revolution ausfallen? \u2013 Teil 2<\/a>) auf diese Problematik hingewiesen. Der britische KI-Experte Peter Gostev untersucht mit BullshitBench v2 die Leistung von KI-L\u00f6sungen f\u00fcr den englischsprachigen Rechtsmarkt. 100 bewusst unsinnige Fragen aus f\u00fcnf Fachbereichen \u2013 darunter 15 aus dem Rechtsbereich \u2013 werden an \u00fcber 70 KI-Modellvarianten gestellt.<\/p>\n<p>Die Tage hat mir ein Blog-Leser einen Link auf den Artikel <a href=\"https:\/\/rsw.beck.de\/aktuell\/daily\/meldung\/detail\/benchmark-studie-ai-ki-modelle-slop-halluzination-unsinnigen-rechtsfragen\" target=\"_blank\" rel=\"noopener\">Neue Studie: Mehrheit der KI-Modelle spielt bei unsinnigen Rechtsfragen einfach mit<\/a>, erschienen beim juristischen Fachportal Beck aktuell, geschickt. Der Artikel greift die Ergebnisse der Untersuchungen auf und zieht das Fazit: Die Mehr\u00adheit der KI-Mo\u00addel\u00adle er\u00adkennt nicht, wenn ju\u00adris\u00adti\u00adsche Fra\u00adgen in\u00adhalt\u00adli\u00adcher Bl\u00f6d\u00adsinn sind. Das ist im juristischen Bereich ein echtes Problem.<\/p>\n<h3>Warnung vor Fehlaussagen der KI<\/h3>\n<p>In diversen Artikeln, die ich in den letzten Monaten so gelesen habe, bezeichnen Personen aus dem akademischen Umfeld die aktuellen KI-L\u00f6sungen \"als Werkzeug\", was man aber nur mit Vorbehalt und Sachverstand einsetzen soll. Das Buch \"Wei\u00df die KI, dass sie nichts wei\u00df?\" von Informatik-Professorin Katharina Zweig seziert diese Thematik. Irgendwo ist mir in einem Interview die Aussage untergekommen, dass die Professorin KI-Modelle wegen der auftretenden Fehler nie im privaten Umfeld verwenden w\u00fcrde.<\/p>\n<h3>Hat Heino Plattf\u00fc\u00dfe und andere Fragen<\/h3>\n<p>Wenn ich es mal platt ausdr\u00fccken will, l\u00e4sst sich feststellen, dass eine KI-gest\u00fctzte Suche nach Fragen der Art \"hat Heino Plattf\u00fc\u00dfe\", \"trinkt Wolfgang Niedecken zum 75 Geburtstag\u00a0 ein K\u00f6lsch\", oder \"hat Andrea Kiewel Lippenherpes\" echt die Nase vorne hat. Da kann auch eher nicht so arg viel an gravierenden Folgen auftreten. Kritischer wird es, wenn Leute Antworten auf Fragen erhalten und ihre Entscheidungen oder Handlungen auf Basis falscher Antworten treffen.<\/p>\n<p>Bei meinen ersten Gehversuchen vor geraumer Zeit habe ich gestaunt, was Perplexity mir da an \"Fragen und Antworten\" vorgeschlagen hat. Ich hatte das LLM nach Informationen zu meiner Person befragt und kam schnell auf den Trichter, dass da durchaus \"bedenkliche Aussagen\" aus \u00f6ffentlich verf\u00fcgbaren Informationen geschlossen wurden. Mal vage ge\u00e4u\u00dferte Ideen oder Fragen wurden als \"Fakt oder gegeben\" mit der Inbrunst der \u00dcberzeugung als Antworten von den LLMs pr\u00e4sentiert. Ich konnte so recht schnell sehen, wo Antworten ziemlich schnell \"schief und in die falsche Richtung\" liefen.<\/p>\n<p>Die \"Begeisterung\" klang spontan g\u00e4nzlich ab, als Perplexity mir erz\u00e4hlen wollte, dass ich leider gestorben sei &#8211; ich war in dem Moment so platt, dass ich keinen Screenshot gemacht habe. Und bei den n\u00e4chsten Abfragen lie\u00df sich das Ergebnis nicht mehr reproduzieren. Das war der Punkt, an dem ich begann, mich mehr mit der Thematik auseinander zu setzen. Heute setze ich auf LLMs, wenn ich mich mit einem Thema halbwegs auskenne, oder bestimmte Dinge \u00fcberpr\u00fcfen und Gegenpositionen abchecken will.<\/p>\n<h2>Test: Jede 4. Aussage von KI-Chatbots falsch<\/h2>\n<p>Mark Heitbrink hat mir gestern &#8211; mit der Bemerkung \"Hast du das gesehen?\u00a0Der erste Platz geht an 28% Falschaussagen. Wahnsinn.\" &#8211; den Link auf den Artikel\u00a0<a href=\"https:\/\/www.test.de\/KI-Chatbots-im-Test-Perplexity-schlaegt-ChatGPT-und-Meta-AI-6275046-0\" target=\"_blank\" rel=\"noopener\">KI-Chatbots im Test: Perplexity schl\u00e4gt ChatGPT und Meta AI<\/a> der Stiftung Warentest geschickt.<\/p>\n<p>Britische Verbrauchersch\u00fctzer von Which haben untersucht, wie sich g\u00e4ngige KI-Chat-Bots bei Fragen schlagen. Der Artikel\u00a0<a href=\"https:\/\/www.which.co.uk\/news\/article\/can-you-trust-ai-chatgpt-and-other-ai-chatbots-put-to-the-test-aetjt5e0RnPB\" target=\"_blank\" rel=\"noopener\">Can you trust AI? ChatGPT and other AI chatbots put to the test<\/a> fasst die Ergebnisse eines Tests zusammen. Die Erkenntnis: Die Mehrheit der Menschen verl\u00e4sst sich bei der Online-Informationssuche zunehmend auf KI-Tools wie ChatGPT und Google Gemini. Diese Werkzeuge machen jedoch grundlegende Fehler und geben \u00fcbertrieben selbstbewusste, ja sogar riskante Ratschl\u00e4ge. Das ist aber ein Problem.<\/p>\n<p>Man kann es \"positiv\" wie Stiftung Warentest formulieren und schreiben: \"Fazit des Tests: Die meisten Chatbots schlagen sich recht anst\u00e4ndig\", das aber mit der Warnung \"blind vertrauen kann man aber keinem\" erg\u00e4nzen. Das Fazit bezieht sich auf die Quote der Aussagen von KI-Chatbots, die falsch oder sogar kritisch waren.<\/p>\n<ul>\n<li>Perplexity kommt im Test auf eine Quote von 72 % richtige Antworten<\/li>\n<li>Googles KI-Zusammenfassungen liefern in 70% der F\u00e4lle richtige Antworten<\/li>\n<li>Google Gemini liefert in 68 Prozent der Fragen korrekte Antworten<\/li>\n<li>Bei\u00a0Microsofts Copilot werden nur in 67 % der F\u00e4lle richtige Antworten gegeben<\/li>\n<li>Das omnipr\u00e4sente ChatGPT\u00a0 von OpenAI liefert in mageren 65 Prozent der F\u00e4lle korrekte Antworten.<\/li>\n<li>Und die Meta AI f\u00e4llt mit 54 % richtiger Antworten extrem ab und landet auf dem letzten Platz.<\/li>\n<\/ul>\n<p>Man kann es aber auch kritischer sehen, wenn man die obigen Ergebnisse bei Licht betrachtet: Im Grunde sind die KI-Chatbots unbrauchbar, weil beim besten Modell immer noch \u00fcber ein Viertel der Antworten schlicht falsch oder sogar gef\u00e4hrlich ist. Bei Meta AI ist quasi jede zweite Antwort falsch. Nehmen wir an, ein Messger\u00e4t, eine Uhr, ein Ma\u00dfband etc. w\u00fcrde diese \"Fehlerrate\" aufweisen, dann d\u00fcrfte in der modernen Welt nichts mehr klappen. Aber bei \"irgendwas mit KI\" wird das als \"Stein der Weisen\" gefeiert, was alles revolutioniert.<\/p>\n<h2>Ich denke, wir haben ein Problem<\/h2>\n<p>Ich hatte 2025 ja im Artikel <a href=\"https:\/\/borncity.com\/blog\/2025\/08\/30\/fail-die-google-ai-suchergebnisse-sind-eine-katastrophe\/\">Finger weg: Die Google AI-Suchergebnisse sind eine Katastrophe!<\/a> eigene Erfahrung mit Googles KI-Suchergebnissen aufbereitet. Bei der Suche ignoriere ich inzwischen die Google AI-Zusammenfassungen und versuche diese sogar auszublenden. Aber ich nutze LLMs durchaus gezielt, um Fragen zu stellen (was findest Du im Web zu xxxx, nenne mir auch die Quellen) und mir Zusammenfassungen zur Fragestellung vorlegen zu lassen. Allerdings gibt es auch die Erkenntnis, dass das Studium der Quellen meist arg ern\u00fcchternd ist und wenig bis nichts mit der urspr\u00fcnglichen Fragestellung zu tun hat.<\/p>\n<p>Aus meiner Sicht sage ich \"Ja, KI-L\u00f6sungen sind ein Mittel, um eventuell schneller an Ergebnisse zu kommen. Aber die \u00dcberpr\u00fcfung der Ergebnisse ist ein aufwendiger und zeitauffressender Vorgang, der die Vorteile oft auffrisst.\" Vorteile gibt es nur, wenn die KI-Antwort mir einen Vorschlag oder einen Ansatz vorlegt, auf den ich selbst nicht gekommen w\u00e4re.<\/p>\n<p>Und das ist die gro\u00dfe Gefahr, die ich beim \"KI-Einsatz\" so sehe: Die Masse der Nutzer ist nicht in der Lage oder bereit, diese kritische Haltung samt \u00dcberpr\u00fcfung zum Ma\u00dfstab des Handelns zu machen. Daher d\u00fcrfte der \"KI-Einsatz\" in dieser momentanen Auspr\u00e4gung eher zum Scheitern verurteilt sein. Oder wie seht ihr das so?<\/p>\n<p><strong>\u00c4hnliche Artikel:<\/strong><br \/>\n<a href=\"https:\/\/borncity.com\/blog\/2025\/11\/03\/ki-irrsinn-teil-1-wenn-chaptgpt-copilot-co-dich-zu-fake-orten-locken\/\">KI-Irrsinn Teil 1: Wenn ChaptGPT, Copilot &amp; Co. dich zu Fake-Orten locken<\/a><br \/>\n<a href=\"https:\/\/borncity.com\/blog\/2025\/11\/05\/ki-irrsinn-teil-2-amazon-schickt-unterlassungserklaerung-an-perplexity-ai-fuer-einkaeufe-ueber-comet\/\" rel=\"bookmark\">KI-Irrsinn Teil 2: Amazon schickt Unterlassungserkl\u00e4rung an Perplexity AI f\u00fcr Eink\u00e4ufe \u00fcber Comet<\/a><br \/>\n<a href=\"https:\/\/borncity.com\/blog\/2025\/11\/06\/ki-irrsinn-teil-3-ki-generiere-nichtigkeitsklage-vom-gericht-abgewiesen\/\" rel=\"bookmark\">KI-Irrsinn Teil 3: KI-generiere \"Nichtigkeitsklage\" vom Gericht abgewiesen<\/a><br \/>\n<a href=\"https:\/\/borncity.com\/blog\/2025\/11\/08\/ki-irrsinn-teil-4-wenn-die-anwender-mal-selber-machen\/\">KI-Irrsinn Teil 4: Wenn die Anwender mal selber machen<\/a><br \/>\n<a href=\"https:\/\/borncity.com\/blog\/2025\/11\/09\/ki-irrsinn-teil-5-deloitte-die-ki-und-der-versemmelte-report-in-australien\/\">KI-Irrsinn Teil 5: Deloitte, die KI und der versemmelte Report in Australien<\/a><br \/>\n<a href=\"https:\/\/borncity.com\/blog\/2025\/11\/10\/ki-irrsinn-teil-6-autohaendler-gibt-kundendaten-zum-ki-training-an-obskure-firma\/\">KI-Irrsinn Teil 6: Autoh\u00e4ndler gibt Kundendaten zum KI-Training an obskure Firma<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Die Verwendung von gro\u00dfen Sprachmodellen (LLMs) und AI-Chatbots, neumodisch als \"k\u00fcnstliche Intelligenz\" (KI) bezeichnet, ist kaum noch aufzuhalten. Schnell ist die \"KI\" um Rat gefragt und liefert auch scheinbar \"beeindruckende\" Antworten. Britische Verbrauchersch\u00fctzer haben AI-Chatbots mit den verwendeten LLMs getestet &hellip; <a href=\"https:\/\/borncity.com\/blog\/2026\/03\/29\/test-von-ki-chatbots-die-falschen-antworten-sind-ein-problem\/\">Weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[8625,8537,426],"tags":[4903,24],"class_list":["post-323087","post","type-post","status-publish","format-standard","hentry","category-ai","category-problem","category-sicherheit","tag-ki","tag-problem"],"_links":{"self":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/323087","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/comments?post=323087"}],"version-history":[{"count":8,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/323087\/revisions"}],"predecessor-version":[{"id":323126,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/323087\/revisions\/323126"}],"wp:attachment":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/media?parent=323087"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/categories?post=323087"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/tags?post=323087"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}