ChatGPT-4o vs. Ärzte: KI erreicht 82% bei Diagnosen

Chatbots erreichen bei Nervendiagnosen ähnliche Trefferquoten wie Fachärzte. Eine Studie belegt zudem positive Kooperationseffekte zwischen Mensch und Maschine.

Eine neue klinische Studie zeigt: Chatbots können bei der Diagnose komplexer Nervenerkrankungen mit menschlichen Ärzten mithalten. Die am 5. Juni im Fachjournal npj Digital Medicine veröffentlichte Untersuchung aus Mailand sorgt für Diskussionen über den Einsatz Künstlicher Intelligenz in der Medizin.

Anzeige

Ob für medizinische Recherchen oder die Organisation des Alltags – viele Menschen nutzen ChatGPT bereits, schöpfen das Potenzial aber kaum aus. Dieser kostenlose PDF-Report bietet fertige Anleitungen und Prompts, mit denen Sie die KI ohne Vorkenntnisse sofort effektiv einsetzen können. Urlaub planen, Sprachen lernen, Zeit sparen: So erledigt ChatGPT Ihre Alltagsaufgaben in Sekunden

Diagnose-Fähigkeiten im direkten Vergleich

Die Forscher analysierten 100 reale Fälle von Polyneuropathie – einer Erkrankung des peripheren Nervensystems. Das Ergebnis: ChatGPT-4o erreichte eine Trefferquote von 65,5 Prozent bei der Erstdiagnose. Damit liegt das System exakt zwischen Nicht-Spezialisten (63,0 Prozent) und Fachärzten (74,0 Prozent).

Besonders überzeugend schnitt die KI bei der Differenzialdiagnose ab. Hier erzielte sie 82,0 Prozent – und übertraf damit die Allgemeinmediziner mit 77,5 Prozent deutlich. Auch bei der Empfehlung geeigneter Tests zeigte sich der Bot überlegen: In 68,0 Prozent der Fälle schlug er die richtigen Untersuchungen vor, die Ärzte ohne Spezialisierung taten dies nur in 53,0 Prozent.

Spannend: Die Studie belegt erstmals einen konkreten Kooperationseffekt. Nachdem Nicht-Spezialisten die Vorschläge der KI geprüft hatten, verbesserten sie ihre Diagnosegenauigkeit in 21,8 Prozent der Fälle.

Vertrauenskrise trotz technischer Fortschritte

Doch die Technologie kämpft mit einem Imageproblem. Der Edelman Vertrauensbarometer zeigt einen dramatischen Einbruch: Nur noch 63 Prozent der US-Bürger vertrauen KI-generierten Gesundheitsinformationen – ein Jahr zuvor waren es 77 Prozent.

Die Nutzungszahlen bleiben verhalten. Laut Pew Research vom Oktober 2025 greifen lediglich sieben Prozent der Erwachsenen regelmäßig auf KI-Chatbots für Gesundheitsfragen zurück. 59 Prozent haben dies noch nie getan.

Anzeige

Während die Wissenschaft die Grenzen von KI-Diagnosen erforscht, nutzen immer mehr Einsteiger die Technologie bereits für einfache Erklärungen im Alltag. Erfahren Sie in diesem Gratis-Ratgeber, wie Sie ChatGPT unkompliziert nutzen können, um beispielsweise komplexe Themen besser zu verstehen. Kostenlosen PDF-Report mit ChatGPT-Tricks für Einsteiger jetzt herunterladen

Eine Umfrage unter 803 Amerikanern offenbart jedoch eine interessante Nische: 55 Prozent nutzen ChatGPT nach dem Arztbesuch, um ihre Diagnose besser zu verstehen. Trotzdem vertrauen 74 Prozent ihrem menschlichen Arzt mehr als der Maschine.

Experten warnen vor Risiken

Dr. Andrew Parsons von der University of Virginia warnt vor übertriebenen Erwartungen: „Die KI mag Krankheiten erkennen – aber sie kann keine Behandlungen entscheiden.“ Für Therapieentscheidungen brauche es das individuelle Wissen über Vorerkrankungen, Risiken und Patientenwünsche. Das könne kein Modell leisten.

Die Sicherheitsforschung macht Fortschritte. Forscher der Binghamton University stellten ein neues Protokoll vor, das sogenannte Halluzinationen – erfundene Fakten – eliminieren soll. Mit sieben vernetzten KI-Modellen und medizinischen Datenbanken erzielten sie in 10.000 Experimenten null Fehler.

Dennoch warnen Experten vor neuen Gefahren. Der Autor Cory Doctorow beschreibt das Risiko, dass Chatbots zu „24-Stunden-Verstärkern“ für paranoide Vorstellungen werden könnten. Und Eric Lowenstein, CEO von Tego, warnt vor einer „KI-Monokultur“: Die Abhängigkeit von wenigen Modellen könnte zu systemischen Ausfällen führen. Die Zahl der GenAI-bezogenen Klagen in den USA stieg zwischen 2021 und 2025 um 978 Prozent.

Kliniken setzen auf administrative Helfer

Während die Diagnose-KI noch um Akzeptanz kämpft, erobern administrative Anwendungen die Krankenhäuser. Die Cleveland Clinic meldet, dass 4.000 Kliniker ein System zur automatischen Dokumentation von Patientengesprächen nutzen. Bei einer Million erfasster Besuche sparen die Ärzte durchschnittlich 14 Minuten pro Tag.

Im Spezialbereich der Biowissenschaften aktualisierte OpenAI am 4. Juni sein Modell GPT-Rosalind. Die auf medizinische Chemie und Genomik spezialisierte KI erreichte im MedChemBench-Test 27,5 Prozent Genauigkeit – knapp vor GPT-5.5. In Partnerschaft mit Novo Nordisk soll das System vor allem für die Pandemievorsorge eingesetzt werden.