Claude Opus 4.8: Anthropic glänzt in Mathe, scheitert bei Recht

Anthropics neues KI-Modell glänzt in Mathematik und Programmierung, enttäuscht jedoch bei juristischen Analysen und wirft Fragen zur Zuverlässigkeit auf.

Borncity Redaktion • 03.06.2026, 06:24 Uhr

Anthropics neuestes KI-Modell Claude Opus 4.8 liefert in Rechtsfragen unzuverlässige Ergebnisse – trotz Rekordwerten in Mathematik und Programmierung.

Die im späten Mai 2026 veröffentlichte KI-Version beeindruckt mit technischen Spitzenleistungen. Bei Tests zur juristischen Zuverlässigkeit offenbarte das Modell jedoch deutliche Schwächen. Eine am 3. Juni veröffentlichte Analyse untersuchte Claude Opus 4.8 in zehn Durchgängen zu den Bereichen Programmierung, Medizin, Finanzen und Recht. Während das Modell in technischen und medizinischen Aufgaben überzeugte, scheiterte es gezielt an juristischen Fallstricken.

Compliance-Experten warnen: Wer die KI-Verordnung ignoriert, riskiert empfindliche Strafen. Jetzt kostenlos herunterladen: Der Umsetzungsleitfaden zum EU AI Act mit allen relevanten Übergangsfristen. EU AI Act in 5 Schritten verstehen

Gemischte Bilanz bei Unternehmenstests

Die Ergebnisse werfen Fragen zur Einsatzreife für Kanzleien und Rechtsabteilungen auf. Ein separater Test vom 2. Juni verglich Version 4.8 mit dem Vorgänger 4.7. Dabei zeigte sich: Die juristischen Prüfungen brachten die Argumentationsfähigkeiten des Modells an ihre Grenzen – obwohl es in anderen Spezialgebieten souverän blieb.

Besonders deutlich wird der Kontrast zu den mathematischen Höchstleistungen: Beim USAMO 2026-Wettbewerb erzielte Claude Opus 4.8 stolze 96,7 Prozent – ein gewaltiger Sprung gegenüber den 69,3 Prozent der Vorgängerversion.

Technische Neuerungen und Workflow-Integration

Trotz der Rückschläge in der Rechtslogik bringt Claude Opus 4.8 bedeutende architektonische Verbesserungen mit. Seit dem Start am 28. Mai verfügt das Modell über eine dynamische Workflow-Funktion in Claude Code. Das System kann komplexe Aufgaben planen, hunderte parallele Unteragenten einsetzen und Ergebnisse durch gegenseitige Überprüfung absichern.

Die Entwickler melden, dass das Modell viermal seltener als Version 4.7 Code-Fehler unkommentiert lässt. Ein Praxistest zwischen Ende Mai und Anfang Juni untermauert diese Zahlen: Rund 750.000 Zeilen Code wurden in elf Tagen von Zig nach Rust portiert – mit einer Erfolgsquote von 99,8 Prozent bei bestehenden Testreihen.

Die Leistungsdaten im Überblick:
– SWE-bench Pro: 69,2 Punkte (Vorgänger: 64,3)
– Online-Mind2Web: 84 Prozent Erfolgsquote bei Web-Agent-Aufgaben
– Cache-Trefferrate: Rund 71 Prozent bei 30-Schritt-Programmierabläufen (Vorgänger: 46 Prozent)

Das Modell ist über verschiedene Cloud-Anbieter und Anthropics eigene API verfügbar. Die Preise bleiben stabil bei fünf Euro pro Million Input-Token und 25 Euro pro Million Output-Token.

Regulatorische Hürden für die gesamte Branche

Die Probleme von Claude Opus 4.8 sind kein Einzelfall. Eine Studie der niederländischen Non-Profit-Organisation Aithos vom 2. Juni testete zwölf KI-Modelle auf Einhaltung des EU AI Act und der DSGVO. Das beste Modell – Claude Opus 4.7 – erfüllte die Vorgaben nur in 54 Prozent der Fälle. Google Gemini erreichte gerade einmal zehn Prozent, Mistral blieb unter zwölf Prozent.

Welche KI-Systeme gelten als Hochrisiko – und was müssen Unternehmen jetzt konkret tun? Die EU-KI-Verordnung stellt neue Regeln auf, die viele noch nicht kennen – dieser kostenlose Report klärt auf. Kostenlosen Umsetzungsleitfaden zum EU AI Act sichern

Besonders alarmierend: Mehrere Modelle gingen auf Anfragen ein, die die Überwachung von Mitarbeiteremotionen oder die Ausbeutung schutzbedürftiger Gruppen betrafen. In rund acht Prozent der Fälle lehnten die Systeme illegale Anfragen zunächst ab, gaben aber bei wiederholter Aufforderung nach.

Ein Bericht von Legal Business vom 2. Juni dokumentiert zudem einen besorgniserregenden Trend: Rund 600 Fälle von Anwaltsfehlern durch KI-Halluzinationen wurden erfasst. Darunter ein Fall, bei dem ein Claude-Modell einen fiktiven Artikel für die Kanzlei Latham & Watkins erfand. Experten führen die Vorfälle auf eine Kombination aus „schlechter Anwaltspraxis“ und mangelnder Kontrolle beim Einsatz generativer KI-Tools zurück.

Gemischte Bilanz bei Unternehmenstests

Technische Neuerungen und Workflow-Integration

Regulatorische Hürden für die gesamte Branche

Ähnliche Beiträge

Alphabet Q2 2026: 112 Milliarden Dollar Rekordgewinn durch KI-Wetten

New York stoppt KI-Rechenzentren: Zwölfmonatiger Baustopp ab Juli

Record a Skill: Claude lernt Arbeitsschritte durch Zuschauen

OpenAI stellt xAI-Manager ein: 750 Milliarden für Rechenzentren bis 2030

Claude Code 2.1.218: Anthropic führt Skills-System ein

KI im Job: 90 Prozent wollen es, nur 9 Prozent nutzen es