KI-Chatbots: Jede zweite Gesundheits-Antwort ist problematisch

Eine Studie zeigt alarmierende Fehlerquoten bei medizinischen KI-Ratschlägen. Besonders Grok und ChatGPT liefern oft ungenaue oder erfundene Informationen, was zu Fehldiagnosen führen kann.

Die Systeme verbreiten oft falsche oder unvollständige Informationen – trotz selbstbewusstem Auftreten.

Jede zweite Antwort ist mangelhaft

Die Welt vertraut zunehmend KI-Chatbots bei Gesundheitsfragen. Doch eine umfassende Untersuchung im Fachjournal BMJ Open enthüllt jetzt gefährliche Wissenslücken. Die Studie vom April 2026 kommt zu einem erschreckenden Ergebnis: Rund 50 Prozent der medizinischen Ratschläge führender KI-Modelle sind problematisch. Sie enthalten Ungenauigkeiten, lückenhafte Informationen oder sogar erfundene Quellenangaben.

Anzeige

Warum Ihr Arzt Ihre Blutwerte möglicherweise falsch deutet – und was Sie dagegen tun können. Dieser kostenlose Report erklärt verständlich, welche Werte wirklich wichtig sind und wie Sie Fehldiagnosen vermeiden. Kostenlosen Laborwerte-Selbstcheck jetzt sichern

Mediziner und Forscher warnen eindringlich: Die Technologie fehlt die nötige Präzision und ethische Urteilsfähigkeit, um professionelle ärztliche Beratung zu ersetzen. Trotzdem fragen wöchentlich über 200 Millionen Nutzer allein ChatGPT zu Gesundheitsthemen.

Grok schneidet am schlechtesten ab

Die Studie testete fünf prominente Chatbots – darunter OpenAIs ChatGPT, Googles Gemini, Meta AI und xAIs Grok – mit 50 evidenzbasierten Gesundheitsfragen. Die Ergebnisse variieren stark zwischen den Modellen, bleiben aber insgesamt besorgniserregend.

Grok schnitt mit Abstand am schlechtesten ab: Ganze 58 Prozent seiner Antworten stuften die Forscher als problematisch ein. Bei ChatGPT lag die Fehlerquote bei 52 Prozent, bei Meta AI bei 50 Prozent. Besonders tückisch: Die Systeme präsentieren ihre Ratschläge meist in selbstsicherem, autoritärem Ton – selbst wenn die Inhalte falsch sind.

Die Qualität hängt stark vom Thema ab. Bei Impfungen und krebserkrankungen lieferten die KI-Modelle relativ zuverlässige Antworten, vermutlich wegen der guten Datenlage. Doch in den Bereichen Stammzelltherapie, Sporternährung und Leistungssteigerung häuften sich die Fehler. Offene Fragen führten zudem häufiger zu problematischen Antworten als präzise formulierte Anfragen.

Laborerfolge täuschen über Realität hinweg

Die Diskrepanz zwischen Labortests und echter Patientenberatung ist enorm. Während KI-Chatbots in kontrollierten Umgebungen mit vollständigen Daten auf über 90 Prozent Diagnosegenauigkeit kommen, bricht diese Leistung in der Praxis ein. Bei unvollständigen Symptombeschreibungen – der Normalfall bei echten Patienten – sinkt die Trefferquote auf etwa 20 Prozent.

Anzeige

Warum so viele Deutsche ChatGPT nutzen – aber kaum einer weiß, wie man es richtig anwendet. Ein kostenloser Ratgeber zeigt Ihnen, wie Sie die KI sicher und effektiv als Alltagshelfer für Organisation oder Reiseplanung einsetzen können. Gratis-Ratgeber für ChatGPT-Einsteiger herunterladen

Eine weitere Studie in Nature Medicine bestätigte diese Grenzen: In Simulationen realer Patientengespräche lag die Erfolgsrate für korrekte Diagnosen unter 35 Prozent. Der Grund ist architektonisch bedingt: Die Chatbots greifen nicht auf Echtzeit-Daten oder medizinische Datenbanken zu. Stattdessen generieren sie Antworten aus Mustern in ihren Trainingsdaten. Nuancenreiche ethische Abwägungen oder komplexe klinische Beurteilungen sind so kaum möglich.

Gefahr der Fehlinformation wächst

Die Tendenz zur KI-gestützten Selbstdiagnose verändert das Gesundheitsverhalten grundlegend. Laut einer Studie der Ohio State University gaben im Frühjahr 2026 51 Prozent der Befragten an, bedeutende Gesundheitsentscheidungen basierend auf KI-Ratschlägen zu treffen – ohne vorherige ärztliche Konsultation.

Mediziner warnen vor den psychischen Folgen. Seit Mitte April 2026 berichten Therapeuten vermehrt von „hypochondrischen Abwärtsspiralen“, die durch Chatbot-Interaktionen ausgelöst werden. Die KI-gestützte Informationssuche kann besonders bei Menschen mit Gesundheitsängsten oder Zwangsstörungen problematische Verläufe verstärken.

Erste Klagen gegen Technologieunternehmen sind bereits eingereicht. Sie werfen den Anbietern vor, durch irreführende oder alarmierende medizinische Rückmeldungen psychische Belastungen bis hin zu Gesundheitskrisen verursacht zu haben.

Kluft zwischen Konsumenten- und Profi-KI

Die Krise bei verbraucherorientierter Medizin-KI kontrastiert scharf mit den Fortschritten im professionellen Bereich. Erst am 14. April 2026 kündigte der Pharmariese Novo Nordisk eine bedeutende Partnerschaft mit OpenAI an. Gemeinsam will man KI in der Wirkstoffforschung für Diabetes- und Adipositas-Behandlungen einsetzen.

Diese professionellen Tools arbeiten in hochkontrollierten, datenreichen Umgebungen – ganz anders als die allgemeinen Chatbots für Endverbraucher. Die Diskrepanz zeigt ein zentrales Problem der KI-Branche: Während die Technologie in Forschung und Unternehmensworkflows zur leistungsstarken „Arbeitspferdin“ wird, bleibt sie für direkte Gesundheitsanwendungen beim Publikum unausgereift.

Spezialisierte Modelle als Zukunft

Die Integration von KI in das Gesundheitswesen wird sich künftig auf spezialisierte, „geerdete“ Modelle konzentrieren. Entwicklungen wie Googles Gemini Robotics-ER 1.6, vorgestellt am 14. April 2026, zeigen die Richtung: Systeme für professionelle klinische Anwendungen, nicht für den allgemeinen Verbrauchergebrauch.

Für die Öffentlichkeit bleibt die Informationsüberprüfung die größte Herausforderung. Gesundheitsdienstleister betonen: KI kann helfen, bessere Fragen für den Arztbesuch zu formulieren. Sie sollte aber niemals letzte Instanz für Diagnose oder Behandlung sein. Bis verifizierte Gesundheit-KI-Systeme mit peer-reviewter Literatur und klinischen Leitlinien verfügbar sind, mahnt die aktuelle Fehlerquote zur Vorsicht im Umgang mit generativen Modellen.