GPT-5.5: OpenAI reduziert Halluzinationen um 52,5 Prozent

OpenAI konzentriert sich künftig auf die GPT-5.5-Reihe und stellt die Modelle o3 und GPT-4.5 ein. Die neuen Architekturen zeigen deutliche Fortschritte bei Reasoning und Halluzinationsreduktion.

Borncity Redaktion • 31.05.2026, 06:00 Uhr

Wie das Unternehmen am Samstag bekannt gab, werden o3 und GPT-4.5 schrittweise vom Markt genommen. Die strategische Neuausrichtung konzentriert sich künftig ganz auf die GPT-5.5-Familie – ein Schritt, der tiefgreifende Auswirkungen auf Entwickler und Unternehmen in Deutschland und Europa haben dürfte.

Abschied von zwei Klassikern

Der o3-Modell wird bis zum 26. August 2026 aus den ChatGPT-Oberflächen für Web und Mobilgeräte verschwinden. Bereits einen Monat zuvor, am 27. Juni 2026, endet der Support für GPT-4.5. Betroffen sind zunächst nur die direkten ChatGPT-Anwendungen – wer die Modelle über die Programmierschnittstelle (API) nutzt, kann vorerst weiterarbeiten.

Anzeige: Die 52,5-prozentige Reduktion von Halluzinationen in GPT-5.5 ist ein Meilenstein – doch ohne strukturiertes Context-Management bleiben Produktivitätsverluste von 62 Stunden pro Jahr und Compliance-Risiken bestehen. Unser Report zeigt, wie Sie die neuen Fähigkeiten sicher in Ihre Enterprise-Architektur integrieren. Jetzt kostenlosen Benchmark-Report anfordern

Die Gründe für die Konsolidierung liegen auf der Hand: OpenAI bündelt seine Entwicklungskapazitäten und optimiert den Einsatz der knappen Hochleistungsrechner. Branchenbeobachter rechnen zudem in Kürze mit dem nächsten großen Wurf: GPT-5.6 könnte bereits in wenigen Wochen erscheinen.

Sprunghafte Fortschritte bei Reasoning und Gedächtnis

Die neuen Architekturen sollen vor allem zwei Schwachstellen früherer Modelle beheben: lückenhafte Logik und das berüchtigte „Context Tax“-Problem – der Verlust wichtiger Informationen bei längeren KI-Interaktionen.

Die jüngsten Updates für GPT-5.5 Instant vom 28. Mai zeigen beeindruckende Verbesserungen. Beim AIME-2025-Benchmark stieg die Punktzahl von 65,4 auf 81,2 Punkte. Noch bemerkenswerter: Die Zahl der Halluzinationen sank um 52,5 Prozent, allgemeine Ungenauigkeiten gingen um 37,3 Prozent zurück.

Auch GPT-4.1 hat nachgebessert. Das Modell bietet inzwischen eine vierfach höhere Kontextualisierung als die Standardversion. Dokumente mit über 300 Seiten lassen sich analysieren, und ein personalisiertes Langzeitgedächtnis ist nun an Bord. Die mathematischen Reasoning-Fähigkeiten legten um 27 Prozent zu, die Fehlererkennung bei Programmcode sogar um 62 Prozent.

Die Branche kämpft gegen das Vergessen

Das „Context Tax“-Problem beschäftigt die gesamte KI-Branche. Entwickler von Cursor AI beziffern die Produktivitätsverluste durch vergessene Architekturvorgaben auf rund 62 Stunden pro Jahr. Ihre Lösung: ein spezialisiertes „Agentic Architect“-Kit für neun Euro, das Architekturgrenzen durchsetzt und Halluzinationen reduziert.

Nous Research wiederum veröffentlichte am 30. Mai eine „Tool Search“-Funktion für den Hermes Agent. Das System verhindert die Überlastung des Kontextfensters – komplexe Schemata können bis zu 134.000 Token verschlingen. Durch schrittweise Offenlegung werden nur relevante Informationen geladen. Das Ergebnis spricht für sich: Die Genauigkeit in Anthropic-basierten Tests stieg von 79,5 auf 88,1 Prozent.

Anzeige: OpenAI konsolidiert seine Modellpalette – o3 und GPT-4.5 werden eingestellt. Wer auf GPT-5.5 umsteigt, profitiert von 52,5 % weniger Halluzinationen, muss aber das Context-Tax-Problem aktiv managen. Unser Whitepaper liefert 5 sofort umsetzbare Strategien zur Halluzinationsreduktion und eine Compliance-Checkliste. Whitepaper: 5 Strategien zur Halluzinationsreduktion sichern

Enterprise-Kunden setzen auf GPT-5.5

Die neue Modellfamilie findet bereits hochkarätige Abnehmer. Japans Finanzministerin Satsuki Katayama gab am Samstag bekannt, dass OpenAI den großen japanischen Geldhäusern – darunter MUFG, Sumitomo Mitsui und Mizuho – Zugang zu GPT-5.5 für Cyberabwehr-Operationen gewährt.

Der Wettbewerb schläft jedoch nicht. Anthropic brachte kürzlich Claude Opus 4.8 auf den Markt. Trotz eines globalen Ausfalls der Claude-Dienste am Samstag überzeugt das Modell in Fehlererkennung und Logik. Anthropic-Forscher verkündeten zudem einen Paukenschlag: Ihr „Mythos-class“-Modell habe die seit 1946 ungelöste Erdős-Einheitsdistanz-Vermutung geknackt – ein mathematisches Problem von historischer Bedeutung.

Abschied von zwei Klassikern

Sprunghafte Fortschritte bei Reasoning und Gedächtnis

Die Branche kämpft gegen das Vergessen

Enterprise-Kunden setzen auf GPT-5.5

Ähnliche Beiträge

Anthropic: 37 Millionen Euro für KI-Sicherheitslobby

Samsung Galaxy Z Fold8: Googles Gemini KI direkt in der Hardware

OpenAI Presence: KI-Agenten lösen 75% aller Anfragen automatisch

Sprachbarrieren kosten 49 Milliarden: KI-Coach für Pflege und Logistik

AI Act ab 2. August: EU schreibt Kennzeichnung für KI-Inhalte vor

EU AI Act: Transparenzpflichten treten am 2. August in Kraft