KI-Faktenchecks: Führende Modelle uneinig bei zwei Dritteln aller Fragen

Führende KI-Systeme sind sich bei zwei Dritteln aller Faktenfragen uneinig. Das wirft ein Schlaglicht auf die Grenzen automatisierter Wahrheitsfindung.

Eine Ende Mai 2026 veröffentlichte Studie von Kosta Jordanov (Lenz Research) zeigt: Selbst die modernsten Sprachmodelle liefern bei alltäglichen Faktenfragen häufig widersprüchliche Antworten. Für Unternehmen und Investoren, die auf KI-gestützte Analysen setzen, ist das ein alarmierender Befund.

Warum so viele Menschen KI-Tools nutzen, aber oft an der richtigen Anwendung scheitern, liegt häufig an fehlenden praktischen Anleitungen. Dieser kostenlose Ratgeber zeigt Ihnen, wie Sie ChatGPT und Co. im Alltag effektiv und sicher für Ihre Aufgaben einsetzen. Kostenlosen ChatGPT-Alltagshelfer jetzt herunterladen

Fünf Modelle, 1.000 Behauptungen – und kein Konsens

Die Forscher konfrontierten GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro + Search und Sonar Pro mit 1.000 von Nutzern eingereichten Behauptungen. Die Daten stammen aus der Zeit ab dem 15. Februar 2026.

Das Ergebnis ist ernüchternd: In 67 Prozent der Fälle gab es mindestens eine abweichende Meinung unter den Modellen. Besonders schwer wiegen die 343 Fälle (34 Prozent), in denen ein Modell eine Aussage als wahr, ein anderes sie jedoch als falsch einstufte.

Die statistische Auswertung mittels Krippendorffs Alpha ergab einen Wert von 0,639 – deutlich unter der geforderten Schwelle von 0,8 für verlässliche Aussagen. Sogar der Minimalwert von 0,667 für vorläufige Schlussfolgerungen wurde verfehlt. Nur in 328 von 1.000 Fällen herrschte Einigkeit. Kein einziges Mal bewerteten alle Systeme eine Behauptung übereinstimmend als „überwiegend wahr“.

Wenn KI sich selbst widerspricht

Besonders aufschlussreich sind konkrete Beispiele aus der Studie. Bei der Behauptung, das Weltbank-Portfolio in Nigeria belaufe sich auf 16,4 Milliarden Dollar, urteilte GPT-5.4: „überwiegend wahr“. Gemini 3 Pro hingegen stufte sie als „falsch“ ein – während die Suchversion von Gemini 3 Pro die Aussage als „irreführend“ bezeichnete.

Noch krasser fiel das Ergebnis bei einer Behauptung zu den politischen Beziehungen zwischen den USA, Iran und Golf-Alliierten aus: Die Modelle verteilten sich auf alle vier möglichen Bewertungskategorien.

Für Analysten und Investoren bedeutet das: Ein einzelnes KI-Modell für Börsensignale oder Marktdaten zu nutzen, ist derzeit riskant. Die Studienautoren empfehlen, mindestens drei bis vier Modelle zu konsultieren, um die Zuverlässigkeit KI-generierter Fakten zu erhöhen.

Ob Urlaubsplanung oder die Organisation von Alltagsaufgaben – die richtige Nutzung von KI-Prompts spart Zeit und liefert bessere Ergebnisse. Ein neuer Gratis-Report enthüllt die praktischsten Tricks und fertige Befehle, mit denen Sie KI-Modelle sofort souverän bedienen. Gratis-Report mit ChatGPT-Tricks sichern

KI-Pannen häufen sich im Mai 2026

Die Lenz-Studie ist kein Einzelfall. Gleich mehrere Berichte aus dem Mai 2026 belegen grundlegende Schwächen der aktuellen KI-Generation:

Eine Penn-State-Studie, die im Juni auf der FAccT 2026 vorgestellt wird, fand heraus: KI-Chatbots geben nur in 76,2 Prozent der Fälle korrekte Gesundheitsratschläge. Die Fehlerquote liegt damit mehr als doppelt so hoch wie bei menschlichen Ärzten. Besonders schwach schnitten die Modelle in Neurologie und Dermatologie ab.
Nutzer berichten von elementaren Logikfehlern bei suchintegrierter KI. So scheiterte Googles KI an der Frage, wie viele Wochentage den Namen eines Fisches enthalten. Die Antwort: „Saturfish“ oder „Friday“ – wegen der Assoziation mit Fish-Fry-Gerichten.
Google selbst räumte ein, dass seine KI-Übersichten Rechtschreibfehler produzierten – etwa beim Wort „Journalismus“. Der Konzern führt dies auf die bekannte Schwäche von Sprachmodellen beim Zählen von Zeichen in Wörtern zurück.
Eine Cambridge-Studie vom 30. Mai 2026 zeigt: KI-Modelle, die für die Benotung von Studienarbeiten eingesetzt werden, bewerten bevorzugt stilistische Merkmale wie Länge und komplexe Vokabeln – statt den tatsächlichen Inhalt. Zudem vermeiden sie extreme Noten, anders als menschliche Prüfer.

Was bedeutet das für deutsche Unternehmen?

Die Ergebnisse sind für den deutschen Markt besonders relevant. Immer mehr DAX-Konzerne und Mittelständler setzen auf KI-gestützte Analyse-Tools. Wer sich dabei auf ein einzelnes Modell verlässt, riskiert Fehlentscheidungen. Die Studie legt nahe: KI bleibt ein Werkzeug – kein Ersatz für menschliche Urteilskraft.

Fünf Modelle, 1.000 Behauptungen – und kein Konsens

Wenn KI sich selbst widerspricht

KI-Pannen häufen sich im Mai 2026

Was bedeutet das für deutsche Unternehmen?

Ähnliche Beiträge

Anthropic: 37 Millionen Euro für KI-Sicherheitslobby

Samsung Galaxy Z Fold8: Googles Gemini KI direkt in der Hardware

OpenAI Presence: KI-Agenten lösen 75% aller Anfragen automatisch

Sprachbarrieren kosten 49 Milliarden: KI-Coach für Pflege und Logistik

AI Act ab 2. August: EU schreibt Kennzeichnung für KI-Inhalte vor

EU AI Act: Transparenzpflichten treten am 2. August in Kraft