Zum InhaltZur Navigation
Analytik NEWS
Das Online-Labormagazin
01.01.2026

12.02.2025

"Humanity's Last Exam" bringt KI an ihre Grenzen


Moderne KI-Modelle verblüffen regelmäßig mit ihrer Leistungsfähigkeit: Sie lösen komplexe mathematische Aufgaben, analysieren wissenschaftliche Texte und schreiben sogar Gedichte - sachlich präzise und sprachlich elegant, was vor wenigen Jahren noch unmöglich schien.

Doch ein neuer Test, "Humanity's Last Exam", zeigt die Grenzen dieser Technologie auf. Selbst Spitzenmodelle wie GPT-4 und Google Gemini scheitern in vielen Bereichen kläglich. Ihre Erfolgsquote liegt unter zehn Prozent.

Entwickelt wurde der Test von den US-Organisationen Scale AI und dem Center for AI Safety (CAIS). Die Arbeit wurde vor einigen Tagen als wissenschaftliche Publikation auf dem Preprint-Server arXiv veröffentlicht. Rund 1.000 Fachleute aus 50 Ländern steuerten Aufgaben bei. Am Ende wählten die Forschenden 3.000 Fragen aus Mathematik, Natur- und Geisteswissenschaften sowie weiteren Gebieten aus - so anspruchsvoll, dass selbst Menschen ins Grübeln kommen.

"Ich habe drei Fragen zu dieser Sammlung beigesteuert.", erklärt Möller, Materialwissenschaftler am Forschungszentrum Jülich und einer der Mitautoren. "Das ist nur ein bescheidener Beitrag aber die Entwicklung der Fragen war tatsächlich nicht so einfach. Ich fing mit verschiedenen aktuellen Themen in meinem Forschungsbereich und mit Fragen zur Ionenstrahlanalytik und zum Strahlenschutz an. Diese Themen sind sehr speziell und gehen deutlich über einen Masterabschluss hinaus. Die Modelle konnten meine Fragen zunächst allerdings problemlos beantworten. Erst bei komplexeren mehrstufigen Aufgaben mit herausfordernder Logik konnte ich alle KI-Modelle an ihre Grenzen bringen."

In einem Satz gesagt prüft "Humanity's Last Exam", ob ein Large Language Model oder abgekürzt LLM, wie z.B. ChatGPT4, an der Uni einen akademischen Abschluss, also einen Master oder eine Promotion, erzielen könnte.

Um ein technisches Produkt wie ein LLM weiterzuentwickeln braucht es ein Maß für dessen Qualität. Bei Batterien ist das z.B. die Energiedichte oder der Preis pro kWh. Für LLMs gibt es viele Tests, sogenannte Benchmarks, die eine Punktzahl ergeben und "Humanity's Last Exam" ist erstmal nur ein weiterer. Viele der bestehenden Tests haben aber mittlerweile durch die Fortschritte bei den LLMs an Aussagekraft verloren.

Viele der heutigen KI-Modelle sind darin einfach schon zu gut. Weitere Fortschritte in der Leistung der LLMs lassen sich daher damit kaum noch abbilden, weil diese die Erfolgswertung nicht mehr signifikant verändern würden. "Humanity's Last Exam" ist dagegen viel komplexer als bisherige Tests, sodass wir damit die nächste Stufe der LLM-Entwicklung überhaupt erst beschreiben und erkennen können.

Die Modelle schnitten katastrophal ab. Das beste Modell konnte nicht einmal 10 Prozent der Fragen richtig beantworten. Dieses Versagen bei akademischen Aufgaben ist ein sehr interessanter Kontrast zu den exzellenten Ergebnissen, die bei der Nutzung als Chatbot oder Übersetzer erzielt werden. Gleichzeitig fragt "Humanity's Last Exam" die LLMs, wie sicher sie sich bei der Antwort sind und auch hier lagen alle LLMs in ihrer Selbsteinschätzung katastrophal daneben.

Interessanter Aspekt dabei: DeepSeek-R1 hat kürzlich für Aufruhr in der KI Welt gesorgt, da es ca. 20x günstiger vergleichbare Ergebnisse wie amerikanische LLMs erzielt. "Humanity's Last Exam" bestätigt dies mit Einschränkungen. DeepSeek-R1 liefert hier bei Textaufgaben, noch vor der für wissenschaftliche Aufgaben optimierten o1-Version von ChatGPT, die beste Antwortqualität.

Warum ist das Ergebnis so schlecht ausgefallen?

Diese Frage ist noch Gegenstand der Forschung. Ein Kern des Problems ist nach Möllers Ansicht, dass die Modelle nach wie vor nicht wirklich intelligent sind. LLMs können keine Denkmethoden wie eine Zerlegung des Problems oder eine Konsistenzprüfung der Antwort anwenden. Als Mensch beantworten sie eine komplexe Frage nicht direkt, sondern sie denken erst auf mehreren Ebenen darüber nach. Sie kramen in ihren geistigen Schubladen, überlegen sich Antworten und verwerfen manche im direkten Vergleich mit anderen Antwortmöglichkeiten.

Aktuelle Ansätze versuchen dies den LLMs beizubringen. Der Schubladen-Ansatz nennt sich "Mixture of Experts". Hierbei versucht das LLM zuerst die Anfrage einzusortieren und nutzt dann nur einen kleinen Teil seines neuralen Netzes, den passenden Experten, um die Antwort zu generieren. Positiver Nebeneffekt: Dadurch braucht es viel weniger Ressourcen als ein LLM, das sein komplettes Netzwerk für die Antwort auswertet. Der innere Vergleich von Antworten wird über ein Chains-of-Thought-Konzept implementiert, in dem LLMs ihre Antworten begrenzt selbstständig verifizieren, um bessere Ergebnisse zu erzielen. DeepSeek-R1 und ChatGPT-o1 verwenden diese beiden Ansätze. Dass diese beiden Modelle bei "Humanity's Last Exam" am besten abschneiden, weist darauf hin, dass der Ansatz funktionieren könnte.

Konsequenzen der die hohe Fehlerrate für den Einsatz dieser Modelle

Gerade in der Wissenschaft wurde nun erstmalig ein quantitatives Maß für unsere bisher eher gefühlsmäßige Skepsis an den Fähigkeiten der LLMs ermittelt. Das Problem wurde auch bei der Prüfung der KI-Verlagsprogramme durch die Zentralbibliothek am Forschungszentrum Jülich festgestellt. Die KI-Programme zur Literaturrecherche waren schlicht unbrauchbar. Auch Kollegen am Jülich Supercomputing Centre zogen ein verheerendes Fazit zu den Logikfähigkeiten von LLMs.

Wissenschaftliche Zuarbeiten wie Programmierung oder Anbieterrecherchen durch die KI funktionieren bereits gut, hier bietet "Humanity's Last Exam" keine neuen Erkenntnisse. Aber das schlechte Abschneiden bei dem Test verdeutlicht: Wissenschaftliche Kernaufgaben wie das wissenschaftliche Schreiben, die Modellentwicklung oder die Dateninterpretation können LLMs momentan noch nicht zuverlässig erledigen.

Möllers Fazit: "Die Fragen bei diesem Test sind natürlich sehr anspruchsvoll, wahrscheinlich wird sie auch kein Mensch zu 100 Prozent richtig beantworten können. Aber eine 80-prozentige Erfolgsquote zu erreichen wäre ein wichtiges Zwischenziel für die KI, bevor wir über weitere Anwendungen nachdenken. Ich vermute aber, dass wir hierfür noch erhebliche Änderungen der Struktur der LLMs benötigen, um komplexe Denkprozesse, zum Beispiel durch einen inneren Monolog oder die Zerlegung von Aufgaben in einfach zu beantwortende Teile, zu ermöglichen."

» Originalpublikation

» Datensatz: Humanity's Last Exam

Quelle: Forschungsverbund Berlin