Welches KI-Modell wurde in der Studie getestet?

OpenAIs o1-preview, das erste Reasoning-Modell des Unternehmens mit explizitem Schritt-für-Schritt-Denken.

Wer hat die Studie durchgeführt?

Forschende der Harvard Medical School und des Beth Israel Deaconess Medical Center, mit Beteiligung von Stanford. Lead Author ist Raj Manrai.

Bedeutet das, dass KI Ärzte ersetzt?

Nein. Die Autorinnen und Autoren betonen explizit, dass das Ergebnis kein Ersatz für ärztliche Verantwortung ist, sondern eine starke Decision-Support-Funktion zeigt.

Wo wurde die Studie veröffentlicht?

In der Fachzeitschrift Science, Ende April 2026.

Harvard-Studie 2026: OpenAI o1-preview schlägt ER-Ärzte

Reasoning-KI in der Notaufnahme: o1-preview im Praxistest

Die Diskussion um KI in der Medizin hat am 30. April 2026 einen neuen Datenpunkt bekommen. Forschende der Harvard Medical School und des Beth Israel Deaconess Medical Center haben in der Fachzeitschrift Science die Ergebnisse einer Studie veröffentlicht, in der OpenAIs erstes Reasoning-Modell o1-preview gegen erfahrene Notfallärzte antritt. Geleitet wurde die Arbeit von Raj Manrai an der Harvard Medical School, mit Beteiligung von Stanford. Die wichtigste Aussage: das Modell erreichte bei realen Diagnose- und Triage-Aufgaben Werte, die das von zwei erfahrenen Ärzten erzielte Niveau erreichten oder übertrafen.

Was genau getestet wurde

Bewertet wurden drei Disziplinen: das Stellen von Diagnosen aus elektronischen Patientenakten, das Empfehlen passender weiterführender Tests und einfache Fall-Management-Entscheidungen in der Notaufnahme. Wichtig: o1-preview arbeitete nur mit Text. Bilder, Geräusche oder nonverbale Signale, die Ärzte routinemäßig in Echtzeit verwenden, blieben dem Modell verborgen. Trotzdem schnitt es laut Studie auf dem Diagnose-Pfad besser ab als ein großes Vergleichspanel echter Mediziner.

Methodische Grenzen, die die Forschenden selbst betonen

Die Autorinnen und Autoren betonen klar, dass die Studie kein Beleg dafür ist, dass KI Ärzte ersetzt. Patient-Arzt-Interaktion, ärztliche Verantwortung und juristische Haftung lassen sich nicht in einen Reasoning-Loop auslagern. Außerdem hat das Modell in einem kontrollierten Setting Zugriff auf strukturierte EHR-Daten – das ist nicht dieselbe Realität wie eine überlastete Notaufnahme um 3 Uhr morgens. Die Aussage ist enger: Ein modernes Reasoning-LLM kann unter diesen Bedingungen die Qualität klinischer Entscheidungen im Mittel anheben.

Einordnung gegenüber älteren Studien

Frühere Vergleiche von LLMs mit Ärzten basierten häufig auf isolierten Lehrbuchfällen oder Multiple-Choice-Fragen aus Examen. Die Harvard-Studie ist deshalb wichtig, weil sie reale, retrospektiv aufbereitete Notaufnahme-Daten verwendet und damit näher an der klinischen Praxis liegt als die meisten bisherigen Benchmarks.

Warum das wichtig ist

Für Krankenhäuser im DACH-Raum verändert ein solches Ergebnis die strategische Sicht auf KI als Entscheidungsunterstützung. Es geht nicht mehr um die Frage „Kann ein LLM Diagnosen stellen?", sondern um „Wie binden wir es so ein, dass Haftung, Datenschutz und Versorgungsqualität stimmen?". Damit rücken Themen wie Audit-Logs für KI-Vorschläge, klinische Validierung pro Fachgebiet und die Schnittstelle zu existierenden EHR-Systemen ganz nach oben in der Roadmap. Auch für Aufsichtsbehörden in Europa wird der Druck steigen, Anwendungen wie diese sauber unter MDR und EU AI Act einzuordnen.

Praktisches Beispiel

Ein Universitätsklinikum in Zürich pilotiert ein Triage-Assistenzsystem in der Zentralen Notaufnahme. Das System liest beim Check-in strukturierte Anamnese, Vitalwerte und frühere Diagnosen aus dem KIS und schlägt eine Triage-Stufe sowie einen Differenzialdiagnosen-Cluster vor. Die Empfehlungen sind nie automatisch handlungsleitend, sondern werden von Ärztinnen und Ärzten bestätigt oder verworfen, jede Entscheidung wird im KIS dokumentiert. Eine Harvard-ähnliche Validierung – retrospektiv über sechs Monate – würde den Nachweis liefern, dass die KI-Triage mit ärztlicher Bewertung übereinstimmt oder sie verbessert, ohne die ärztliche Letztverantwortung anzutasten.

Harvard-Studie 2026: OpenAIs o1-preview übertrifft Notfallärzte bei Diagnosen