Mit maßgeschneiderten Programmen lassen sich Large Language Models (LLMs) deutlich schneller betreiben als mit Apples hauseigenen Frameworks. Die Erkenntnisse zeigen: Der M1 AMX ist vor allem durch Speicherzugriffe ausgebremst – und nicht durch fehlende Rechenleistung.
Maßgeschneiderte Kernel übertreffen Apple Accelerate
Das Team entwickelte einen sogenannten bit-exakten Kernel mit fein abgestimmten Multithread-Panels und optimierter Datenvorbereitung. Das Ergebnis spricht für sich: In Benchmarks mit 12 verschiedenen LLM-Vorberechnungsformen (Prefill) erzielte der neue Ansatz eine 1,17-fache Verbesserung gegenüber BNNS Graph, 1,58-fach schneller als BNNSMatMul und rund doppelt so schnell wie cblas_sgemm. Die reine Rechenleistung des AMX-Kerns liegt demnach zwischen 610 und 680 GFLOPS pro Thread.
Besonders eindrucksvoll: In die populäre Bibliothek llama.cpp integriert, stieg der Prefill-Durchsatz von 291 auf 420 Tokens pro Sekunde – ein Plus von 44 Prozent.
BitNet-Benchmarks: Vom M1 bis zum M3 Max
Die architektonische Effizienz von Apple Silicon zeigte sich auch in separaten Tests zur BitNet-1-Bit-Inferenz. Ein Modell mit 1,3 Milliarden Parametern passt dabei in nur 170 Megabyte Arbeitsspeicher – ein Wert, der die Effizienz dieser extrem komprimierten KI-Modelle unterstreicht.
Die Performance-Steigerung über die Chip-Generationen hinweg ist beachtlich:
- M1: 32,7 Tokens pro Sekunde
- M2 Pro: 78,6 Tokens pro Sekunde
- M3 Max: 119,0 Tokens pro Sekunde
Auch beim Energieverbrauch zeigt sich der Fortschritt: Während der M1 noch 0,84 Joule pro Token benötigt, kommt der M3 Max mit nur 0,38 Joule aus. Ein interessantes Detail: CPU-basierte Inferenz ist für Einzelnutzer hoch effizient – Metal-Beschleunigung lohnt sich erst ab Batch-Größen von vier oder mehr.
Wer LLMs auf Apple Silicon schneller betreiben will, findet in diesem Guide die entscheidenden Hebel: maßgeschneiderte AMX-Kernel, BitNet-Quantisierung und MoE-Offloading. Jetzt kostenlosen Performance-Guide anfordern
744 Milliarden Parameter auf dem Schreibtisch
Quantisierungstechniken machen es möglich: Das Mixture-of-Experts-Modell GLM-5.2 mit 744 Milliarden Parametern läuft in 2-Bit-Quantisierung auf einem Mac mit 256 Gigabyte Unified Memory. Das entspricht einem Speicherbedarf von 245 GB.
Für Systeme mit weniger RAM – etwa einer 24-GB-GPU – gibt es ebenfalls eine Lösung: Durch MoE-Offloading (Auslagerung einzelner Experten-Module) bleiben immer noch 5 bis 15 Tokens pro Sekunde möglich. Branchenbeobachter sehen darin einen Meilenstein: Open-Source-Modelle nähern sich so den Fähigkeiten großer Cloud-KI-Systeme an.
Software-Ökosystem wächst rasant
Die Infrastruktur für lokale KI auf macOS entwickelt sich parallel rasant weiter. Der oMLX-Inference-Server erreichte Mitte Juni Version 0.4.4 und bringt Continuous Batching sowie gestaffeltes KV-Caching mit – das nutzt sowohl RAM als auch SSD-Speicher. Damit ist Multi-Model-Serving auf Apple Silicon möglich, kompatibel mit OpenAI- und Anthropic-APIs.
Nur einen Tag später erschien PRE 2.0 (Personal Reasoning Engine), optimiert für Gemma 4 auf Apple Silicon. Auf einem MacBook Pro M4 Max mit 128 GB RAM erreicht die Plattform rund 73 Tokens pro Sekunde bei einem Kontextfenster von 128.000 Tokens.
Große Modelle passen nicht in Ihren lokalen Speicher? Mit MoE-Offloading laufen selbst 744B-Parameter-Modelle auf 24 GB – bei 5-15 Tokens pro Sekunde. Der Guide zeigt, wie. MoE-Offloading-Guide jetzt sichern
Wiener Startup will Speicherbedarf drastisch senken
Neue Methoden zur Modellkompression versprechen, die Hardware-Anforderungen weiter zu senken. Das Wiener Startup Ora Computing sicherte sich eine Seed-Finanzierung von 3,5 Millionen Euro für seine Tensor-Network-KI-Kompression. Die Technologie soll den Speicherbedarf um bis zu 80 Prozent reduzieren und die Inferenz um das Vierfache beschleunigen – bei minimalen Genauigkeitsverlusten. Solche hardwareunabhängigen Verfahren könnten die Lücke zwischen hochparametrigen Spitzenmodellen und lokaler Hardware endgültig schließen.

