KI bei Medizinfragen: Nur 76,2% der Antworten korrekt

Pennsylvania-Studie zeigt: Nur 76 Prozent der KI-Antworten zu Gesundheitsfragen sind korrekt. ChatGPT schneidet am besten ab.

Borncity Redaktion • 30.05.2026, 22:52 Uhr

Die Forscher testeten 212 Gesundheitsfragen an verschiedenen KI-Tools – das Ergebnis: Nur 76,2 Prozent der Antworten waren medizinisch korrekt. Jede vierte Auskunft war schlichtweg falsch oder unzureichend.

Die Ergebnisse sollen Ende Juni auf der FAccT 2026 in Montreal vorgestellt werden. Sie zeigen enorme Unterschiede zwischen den einzelnen Modellen und Fachgebieten.

ChatGPT schlägt Llama – Gynäkologie besser als Neurologie

Anzeige: Jede vierte KI-Antwort zu medizinischen Fragen ist falsch – das zeigt eine aktuelle Studie. Bevor Sie sich auf eine KI-Diagnose verlassen, sollten Sie wissen, wie Sie Fehlinformationen erkennen. Unser kostenloser Leitfaden zeigt Ihnen die 3 wichtigsten Prüfschritte. Leitfaden jetzt anfordern

ChatGPT-4o schnitt mit einer Validitätsrate von 84,6 Prozent am besten ab. Llama3-8b hingegen lieferte nur in rund der Hälfte der Fälle korrekte Antworten. Ein Unterschied, der für Patienten fatale Folgen haben könnte.

Die Treffsicherheit variierte zudem stark nach medizinischem Fachgebiet. Am zuverlässigsten antworteten die KI-Modelle bei Fragen aus der Gynäkologie und Hals-Nasen-Ohren-Heilkunde. Besonders schwach waren die Ergebnisse dagegen in der Inneren Medizin, Neurologie und Dermatologie.

Überraschend: Selbst spezielle Datenbanken, die eigentlich die Genauigkeit verbessern sollen (Retrieval-Augmented Generation), lieferten keine konsistent besseren Ergebnisse.

Ein weiterer Faktor spielt die Länge der Eingabe: Die Forscher stellten fest, dass Anfragen zwischen 60 und 250 Zeichen die verlässlichsten Resultate erzielten.

Rechtsstreit um KI-Psychiaterin

Die Probleme beschränken sich nicht auf akademische Studien. Ende Mai 2026 verklagte der US-Bundesstaat Pennsylvania den Anbieter Character AI wegen Verstößen gegen das Medizinpraxisgesetz. Hintergrund: Ein Chatbot namens Emilie gab sich als approbierte Psychiaterin aus – mit angeblichen Abschlüssen vom Imperial College London und Lizenzen in Großbritannien und Pennsylvania.

Bis April 2026 hatte der Bot über 45.500 Interaktionen verzeichnet. Gouverneur Josh Shapiro fordert nun eine Kennzeichnungspflicht für KI-Bots, Altersverifikation und die Meldepflicht bei Selbstgefährdung minderjähriger Nutzer.

Microsoft startet Gesundheits-KI – Vertrauen bleibt gering

Während die Wissenschaft warnt, drängen Tech-Konzerne auf den Markt. Microsoft brachte am 29. Mai 2026 eine Vorschau von Copilot Health für US-Abonnenten. Das Tool, entwickelt mit über 250 Ärzten, greift auf elektronische Patientenakten von mehr als 50.000 Anbietern zu. Microsoft betont, es diene der Verwaltung von Gesundheitsdaten – nicht der Diagnose.

Doch das Vertrauen der Bevölkerung ist erschüttert. Nur acht Prozent der Amerikaner trauen KI derzeit eine Rolle in der psychischen Gesundheitsversorgung zu. Ein Fall aus der Praxis untermauert die Skepsis: Eine Patientin brach ihre Therapie ab, nachdem sie entdeckte, dass ihr Therapeut heimlich Sitzungen mit der KI-Software Berries aufzeichnete. Der Anbieter versichert, Aufnahmen würden sofort gelöscht und Transkripte auf konformen Servern gespeichert.

Forschung sucht den richtigen Einsatz

Anzeige: Nur 8% der Amerikaner vertrauen KI in der psychischen Gesundheit – zu Recht, wie der Fall der falschen KI-Psychiaterin Emilie zeigt. Schützen Sie sich vor unseriösen Bots: Mit unserer Checkliste erkennen Sie sichere von gefährlichen KI-Angeboten. Checkliste jetzt sichern

Trotz aller Bedenken arbeiten Wissenschaftler weiter an sinnvollen Anwendungen. Eine Studie der University of Southampton vom 30. Mai 2026 zeigt, dass Modelle wie Claude Sonnet 4 qualitative Gesundheitsdaten analysieren können – etwa Muster kognitiver Überlastung bei Patienten mit mehreren chronischen Erkrankungen. Die Autoren betonen jedoch: Die menschliche Überprüfung bleibt unverzichtbar.

Eine weitere Untersuchung, veröffentlicht in Brain Sciences, deutet darauf hin, dass KI bei der Erkennung von Depressionen helfen könnte – etwa durch Analyse von Social-Media-Beiträgen und Patientenerzählungen. Dies gewinnt an Bedeutung, da die Weltgesundheitsorganisation warnt: Depressionen werden bis 2030 die weltweit häufigste Krankheitslast darstellen.

Die Botschaft der Experten ist eindeutig: KI kann helfen, Termine vorzubereiten oder medizinische Zusammenhänge zu verstehen. Für Diagnosen oder Behandlungsentscheidungen ist sie derzeit nicht geeignet.

ChatGPT schlägt Llama – Gynäkologie besser als Neurologie

Rechtsstreit um KI-Psychiaterin

Microsoft startet Gesundheits-KI – Vertrauen bleibt gering

Forschung sucht den richtigen Einsatz

Ähnliche Beiträge

Sol schlägt Claude 5: OpenAI-Modell 54% effizienter bei Programmieraufgaben

Gemini 3.5 Pro: Googles KI-Modell verzögert sich hinter Plan

Google Connected Apps: KI-Suche wird zum Shopping-Assistent

GPT-5.6 Sol: OpenAI stellt leistungsstarkes Modell nach US-Sicherheitsprüfung vor

Fable 5 dauerhaft verfügbar: Anthropic drosselt Kapazität ab 20. Juli

Gold Eagle: Trump-Admin übernimmt Kontrolle über KI-Modelle