Die Forscher testeten 212 Gesundheitsfragen an verschiedenen KI-Tools – das Ergebnis: Nur 76,2 Prozent der Antworten waren medizinisch korrekt. Jede vierte Auskunft war schlichtweg falsch oder unzureichend.
Die Ergebnisse sollen Ende Juni auf der FAccT 2026 in Montreal vorgestellt werden. Sie zeigen enorme Unterschiede zwischen den einzelnen Modellen und Fachgebieten.
ChatGPT schlägt Llama – Gynäkologie besser als Neurologie
Anzeige: Jede vierte KI-Antwort zu medizinischen Fragen ist falsch – das zeigt eine aktuelle Studie. Bevor Sie sich auf eine KI-Diagnose verlassen, sollten Sie wissen, wie Sie Fehlinformationen erkennen. Unser kostenloser Leitfaden zeigt Ihnen die 3 wichtigsten Prüfschritte. Leitfaden jetzt anfordern
ChatGPT-4o schnitt mit einer Validitätsrate von 84,6 Prozent am besten ab. Llama3-8b hingegen lieferte nur in rund der Hälfte der Fälle korrekte Antworten. Ein Unterschied, der für Patienten fatale Folgen haben könnte.
Die Treffsicherheit variierte zudem stark nach medizinischem Fachgebiet. Am zuverlässigsten antworteten die KI-Modelle bei Fragen aus der Gynäkologie und Hals-Nasen-Ohren-Heilkunde. Besonders schwach waren die Ergebnisse dagegen in der Inneren Medizin, Neurologie und Dermatologie.
Überraschend: Selbst spezielle Datenbanken, die eigentlich die Genauigkeit verbessern sollen (Retrieval-Augmented Generation), lieferten keine konsistent besseren Ergebnisse.
Ein weiterer Faktor spielt die Länge der Eingabe: Die Forscher stellten fest, dass Anfragen zwischen 60 und 250 Zeichen die verlässlichsten Resultate erzielten.
Rechtsstreit um KI-Psychiaterin
Die Probleme beschränken sich nicht auf akademische Studien. Ende Mai 2026 verklagte der US-Bundesstaat Pennsylvania den Anbieter Character AI wegen Verstößen gegen das Medizinpraxisgesetz. Hintergrund: Ein Chatbot namens Emilie gab sich als approbierte Psychiaterin aus – mit angeblichen Abschlüssen vom Imperial College London und Lizenzen in Großbritannien und Pennsylvania.
Bis April 2026 hatte der Bot über 45.500 Interaktionen verzeichnet. Gouverneur Josh Shapiro fordert nun eine Kennzeichnungspflicht für KI-Bots, Altersverifikation und die Meldepflicht bei Selbstgefährdung minderjähriger Nutzer.
Microsoft startet Gesundheits-KI – Vertrauen bleibt gering
Während die Wissenschaft warnt, drängen Tech-Konzerne auf den Markt. Microsoft brachte am 29. Mai 2026 eine Vorschau von Copilot Health für US-Abonnenten. Das Tool, entwickelt mit über 250 Ärzten, greift auf elektronische Patientenakten von mehr als 50.000 Anbietern zu. Microsoft betont, es diene der Verwaltung von Gesundheitsdaten – nicht der Diagnose.
Doch das Vertrauen der Bevölkerung ist erschüttert. Nur acht Prozent der Amerikaner trauen KI derzeit eine Rolle in der psychischen Gesundheitsversorgung zu. Ein Fall aus der Praxis untermauert die Skepsis: Eine Patientin brach ihre Therapie ab, nachdem sie entdeckte, dass ihr Therapeut heimlich Sitzungen mit der KI-Software Berries aufzeichnete. Der Anbieter versichert, Aufnahmen würden sofort gelöscht und Transkripte auf konformen Servern gespeichert.
Forschung sucht den richtigen Einsatz
Anzeige: Nur 8% der Amerikaner vertrauen KI in der psychischen Gesundheit – zu Recht, wie der Fall der falschen KI-Psychiaterin Emilie zeigt. Schützen Sie sich vor unseriösen Bots: Mit unserer Checkliste erkennen Sie sichere von gefährlichen KI-Angeboten. Checkliste jetzt sichern
Trotz aller Bedenken arbeiten Wissenschaftler weiter an sinnvollen Anwendungen. Eine Studie der University of Southampton vom 30. Mai 2026 zeigt, dass Modelle wie Claude Sonnet 4 qualitative Gesundheitsdaten analysieren können – etwa Muster kognitiver Überlastung bei Patienten mit mehreren chronischen Erkrankungen. Die Autoren betonen jedoch: Die menschliche Überprüfung bleibt unverzichtbar.
Eine weitere Untersuchung, veröffentlicht in Brain Sciences, deutet darauf hin, dass KI bei der Erkennung von Depressionen helfen könnte – etwa durch Analyse von Social-Media-Beiträgen und Patientenerzählungen. Dies gewinnt an Bedeutung, da die Weltgesundheitsorganisation warnt: Depressionen werden bis 2030 die weltweit häufigste Krankheitslast darstellen.
Die Botschaft der Experten ist eindeutig: KI kann helfen, Termine vorzubereiten oder medizinische Zusammenhänge zu verstehen. Für Diagnosen oder Behandlungsentscheidungen ist sie derzeit nicht geeignet.

