Die Technologie nutzt die Metal-Grafikschnittstelle und übertrifft etablierte Lösungen wie llama.cpp und Apples eigene MLX-Bibliothek teils deutlich.
Deutlich schneller als die Konkurrenz
BaseRT ist speziell auf die unified Memory-Architektur der M-Serie zugeschnitten. In Tests auf M3- und M4-Pro-Prozessoren erreichte die Laufzeitumgebung beim Decodieren eine bis zu 1,56-fach höhere Durchsatzrate als llama.cpp. Gegenüber MLX betrug der Vorsprung immerhin bis zu 1,35. Das System unterstützt Modellarchitekturen wie Qwen3, Llama 3.2 und Gemma 4 – von weniger als einer Milliarde bis zu 30 Milliarden Parametern. Auch verschiedene Quantisierungsstufen von Q2 bis FP16 sind möglich, was eine flexible Balance zwischen Speichereffizienz und Modellgenauigkeit erlaubt.
Wachsendes Ökosystem für lokale KI
BaseRT ist Teil einer ganzen Welle neuer Entwicklungen für lokale KI auf dem Mac. Erst am 1. Juli 2026 stellte Salvatore Sanfilippo, der Erfinder von Redis, mit ds4.c eine eigene Inferenz-Engine speziell für das DeepSeek V4 Flash-Modell vor. Auf einem M3 Ultra mit 512 Gigabyte RAM erreichte die Engine eine Prefill-Rate von 468 Tokens pro Sekunde und eine Generierungsrate von 27 Tokens pro Sekunde.
Während Profi-Tools die Leistung von KI-Modellen auf dem Mac maximieren, bietet die Technologie auch für den Alltag enorme Erleichterungen. Dieser kostenlose PDF-Report zeigt Ihnen mit fertigen Prompts, wie Sie KI-Assistenten wie ChatGPT ohne Vorkenntnisse für Ihre tägliche Organisation nutzen. Gratis ChatGPT-Leitfaden für den Alltag herunterladen
Nur wenige Tage zuvor, Ende Juni, veröffentlichte DeepSeek mit DSpark ein spekulatives Decoding-Framework. Ersten Daten zufolge kann es die Generierungsgeschwindigkeit für V4-Flash um bis zu 85 Prozent und für V4-Pro um bis zu 78 Prozent steigern. Diese Fortschritte fallen in eine Zeit, in der Apple selbst die KI-Integration vorantreibt: Auf der WWDC im Juni 2026 präsentierte das Unternehmen sein AFM 3-On-Device-Modell und kündigte an, dass die kommenden M5-Pro- und Max-Chips neuronale Beschleuniger in jedem GPU-Kern integrieren werden.
Auch Unternehmen setzen zunehmend auf die neuen Möglichkeiten. Jamf brachte am 1. Juli ein KI-Governance-Tool für den Mac auf den Markt, das Tools wie Claude Code und OpenAI Codex verwalten und per Richtlinie steuern kann. Google wiederum startete am 2. Juli eine Beta von Gemini Spark für macOS – gedacht für KI-Ultra-Abonnenten, die Desktop- und Workspace-Aufgaben automatisieren wollen.
Wettbewerb auf mehreren Ebenen
Während Apple sein lokales Inferenz-Ökosystem ausbaut, arbeiten die Wettbewerber an eigenen Lösungen. Qualcomm brachte im Frühjahr den Snapdragon X2 Elite Extreme auf den Markt, der mit einer Shared-Memory-Architektur und bis zu 228 Gigabyte pro Sekunde Bandbreite direkt gegen Apples M5-Serie antritt.
Wer das volle Potenzial der Apple-Hardware für KI und produktives Arbeiten ausschöpfen möchte, sollte die richtigen Shortcuts kennen. Ein neuer Gratis-Ratgeber enthüllt die 19 wichtigsten Tastenkombinationen, mit denen Sie Ihren Mac sofort schneller und effizienter bedienen. Die 19 besten Mac-Shortcuts kostenlos sichern
Im Bereich spezialisierter Chips sorgte das Startup Etched für Aufsehen. Das Unternehmen verließ am 30. Juni 2026 die Stealth-Phase – nach einer Finanzierungsrunde über 800 Millionen Dollar. Etched entwickelt einen transformer-spezifischen chip namens Sohu, der Llama-70B-Modelle mit 500.000 Tokens pro Sekunde ausführen soll. Das würde selbst aktuelle GPUs für bestimmte Architekturen weit hinter sich lassen.
Auch NVIDIA meldete Fortschritte: In technischen Papieren vom 1. Juli 2026 beschreibt das Unternehmen das Nemotron-Labs-TwoTower-Modell, ein Diffusions-Sprachmodell, das den 2,42-fachen Durchsatz autoregressiver Basislinien erreicht – bei gleichbleibender Ausgabequalität. Zudem habe man die Kosten für Tokens bei DeepSeek V4 durch Optimierungen im Blackwell-basierten Inferenz-Stack um das Fünffache gesenkt.

