Harvard-Studie 2026: OpenAIs o1-preview übertrifft Notfallärzte bei Diagnosen
3. Mai 2026
In einer am 30. April 2026 vorgestellten Studie aus Science haben Forschende der Harvard Medical School und Beth Israel Deaconess gezeigt, dass OpenAIs Reasoning-Modell o1-preview bei realen Notfallaufnahmen Diagnosen mindestens so gut stellt wie erfahrene Ärzte.
Reasoning-KI in der Notaufnahme: o1-preview im Praxistest
Die Diskussion um KI in der Medizin hat am 30. April 2026 einen neuen Datenpunkt bekommen. Forschende der Harvard Medical School und des Beth Israel Deaconess Medical Center haben in der Fachzeitschrift Science die Ergebnisse einer Studie veröffentlicht, in der OpenAIs erstes Reasoning-Modell o1-preview gegen erfahrene Notfallärzte antritt. Geleitet wurde die Arbeit von Raj Manrai an der Harvard Medical School, mit Beteiligung von Stanford. Die wichtigste Aussage: das Modell erreichte bei realen Diagnose- und Triage-Aufgaben Werte, die das von zwei erfahrenen Ärzten erzielte Niveau erreichten oder übertrafen.
Was genau getestet wurde
Bewertet wurden drei Disziplinen: das Stellen von Diagnosen aus elektronischen Patientenakten, das Empfehlen passender weiterführender Tests und einfache Fall-Management-Entscheidungen in der Notaufnahme. Wichtig: o1-preview arbeitete nur mit Text. Bilder, Geräusche oder nonverbale Signale, die Ärzte routinemäßig in Echtzeit verwenden, blieben dem Modell verborgen. Trotzdem schnitt es laut Studie auf dem Diagnose-Pfad besser ab als ein großes Vergleichspanel echter Mediziner.
Methodische Grenzen, die die Forschenden selbst betonen
Die Autorinnen und Autoren betonen klar, dass die Studie kein Beleg dafür ist, dass KI Ärzte ersetzt. Patient-Arzt-Interaktion, ärztliche Verantwortung und juristische Haftung lassen sich nicht in einen Reasoning-Loop auslagern. Außerdem hat das Modell in einem kontrollierten Setting Zugriff auf strukturierte EHR-Daten – das ist nicht dieselbe Realität wie eine überlastete Notaufnahme um 3 Uhr morgens. Die Aussage ist enger: Ein modernes Reasoning-LLM kann unter diesen Bedingungen die Qualität klinischer Entscheidungen im Mittel anheben.
Einordnung gegenüber älteren Studien
Frühere Vergleiche von LLMs mit Ärzten basierten häufig auf isolierten Lehrbuchfällen oder Multiple-Choice-Fragen aus Examen. Die Harvard-Studie ist deshalb wichtig, weil sie reale, retrospektiv aufbereitete Notaufnahme-Daten verwendet und damit näher an der klinischen Praxis liegt als die meisten bisherigen Benchmarks.
Warum das wichtig ist
Für Krankenhäuser im DACH-Raum verändert ein solches Ergebnis die strategische Sicht auf KI als Entscheidungsunterstützung. Es geht nicht mehr um die Frage „Kann ein LLM Diagnosen stellen?", sondern um „Wie binden wir es so ein, dass Haftung, Datenschutz und Versorgungsqualität stimmen?". Damit rücken Themen wie Audit-Logs für KI-Vorschläge, klinische Validierung pro Fachgebiet und die Schnittstelle zu existierenden EHR-Systemen ganz nach oben in der Roadmap. Auch für Aufsichtsbehörden in Europa wird der Druck steigen, Anwendungen wie diese sauber unter MDR und EU AI Act einzuordnen.
Praktisches Beispiel
Ein Universitätsklinikum in Zürich pilotiert ein Triage-Assistenzsystem in der Zentralen Notaufnahme. Das System liest beim Check-in strukturierte Anamnese, Vitalwerte und frühere Diagnosen aus dem KIS und schlägt eine Triage-Stufe sowie einen Differenzialdiagnosen-Cluster vor. Die Empfehlungen sind nie automatisch handlungsleitend, sondern werden von Ärztinnen und Ärzten bestätigt oder verworfen, jede Entscheidung wird im KIS dokumentiert. Eine Harvard-ähnliche Validierung – retrospektiv über sechs Monate – würde den Nachweis liefern, dass die KI-Triage mit ärztlicher Bewertung übereinstimmt oder sie verbessert, ohne die ärztliche Letztverantwortung anzutasten.
💡 Im Klartext
Forscher in Harvard haben einen schlauen Computer von OpenAI gegen echte Notfallärzte antreten lassen. Der Computer sollte aus Patientenakten erkennen, was den Menschen fehlt. Im Test war er genauso gut oder sogar besser als die Ärzte – aber nur, weil er nur Texte lesen musste, und nicht wie ein echter Arzt mit Patienten reden konnte.
Wichtigste Erkenntnisse
- →Eine Studie aus Harvard Medical School und Beth Israel Deaconess wurde am 30. April 2026 in Science veröffentlicht.
- →Getestet wurde OpenAIs Reasoning-Modell o1-preview gegen erfahrene Notfallärzte.
- →Das Modell erreichte oder übertraf das Niveau menschlicher Ärzte bei Diagnosen, Test-Empfehlungen und Fall-Management.
- →Wichtige Einschränkung: o1-preview arbeitete nur mit Text, ohne Bilder, Geräusche oder nonverbale Signale.
- →Lead Author Raj Manrai betont, dass die Ergebnisse keinen Ersatz von Ärzten durch KI bedeuten.
Häufige Fragen
Welches KI-Modell wurde in der Studie getestet?
OpenAIs o1-preview, das erste Reasoning-Modell des Unternehmens mit explizitem Schritt-für-Schritt-Denken.
Wer hat die Studie durchgeführt?
Forschende der Harvard Medical School und des Beth Israel Deaconess Medical Center, mit Beteiligung von Stanford. Lead Author ist Raj Manrai.
Bedeutet das, dass KI Ärzte ersetzt?
Nein. Die Autorinnen und Autoren betonen explizit, dass das Ergebnis kein Ersatz für ärztliche Verantwortung ist, sondern eine starke Decision-Support-Funktion zeigt.
Wo wurde die Studie veröffentlicht?
In der Fachzeitschrift Science, Ende April 2026.
Quellen & Kontext
- An AI model beat doctors at diagnosing patients, in a new study – NPR
- AI Outperforms Doctors in Emergency Room Tasks, New Harvard Study Shows – Harvard Magazine
- In real-world test, an AI model did better than ER doctors at diagnosing patients – WCBE/NPR
- Health AI in 2026: CU Researchers are Implementing Trustworthy Tools to Support Clinicians – CU Anschutz