Apple M1 AMX: Forscher knacken 44% Durchsatz-Boost für KI-Modelle

Maßgeschneiderte Kernel steigern LLM-Durchsatz auf Apple Silicon um bis zu 44 Prozent gegenüber hauseigenen Frameworks.

Borncity Redaktion • 25.06.2026, 10:01 Uhr

Mit maßgeschneiderten Programmen lassen sich Large Language Models (LLMs) deutlich schneller betreiben als mit Apples hauseigenen Frameworks. Die Erkenntnisse zeigen: Der M1 AMX ist vor allem durch Speicherzugriffe ausgebremst – und nicht durch fehlende Rechenleistung.

Maßgeschneiderte Kernel übertreffen Apple Accelerate

Das Team entwickelte einen sogenannten bit-exakten Kernel mit fein abgestimmten Multithread-Panels und optimierter Datenvorbereitung. Das Ergebnis spricht für sich: In Benchmarks mit 12 verschiedenen LLM-Vorberechnungsformen (Prefill) erzielte der neue Ansatz eine 1,17-fache Verbesserung gegenüber BNNS Graph, 1,58-fach schneller als BNNSMatMul und rund doppelt so schnell wie cblas_sgemm. Die reine Rechenleistung des AMX-Kerns liegt demnach zwischen 610 und 680 GFLOPS pro Thread.

Besonders eindrucksvoll: In die populäre Bibliothek llama.cpp integriert, stieg der Prefill-Durchsatz von 291 auf 420 Tokens pro Sekunde – ein Plus von 44 Prozent.

BitNet-Benchmarks: Vom M1 bis zum M3 Max

Die architektonische Effizienz von Apple Silicon zeigte sich auch in separaten Tests zur BitNet-1-Bit-Inferenz. Ein Modell mit 1,3 Milliarden Parametern passt dabei in nur 170 Megabyte Arbeitsspeicher – ein Wert, der die Effizienz dieser extrem komprimierten KI-Modelle unterstreicht.

Die Performance-Steigerung über die Chip-Generationen hinweg ist beachtlich:

M1: 32,7 Tokens pro Sekunde
M2 Pro: 78,6 Tokens pro Sekunde
M3 Max: 119,0 Tokens pro Sekunde

Auch beim Energieverbrauch zeigt sich der Fortschritt: Während der M1 noch 0,84 Joule pro Token benötigt, kommt der M3 Max mit nur 0,38 Joule aus. Ein interessantes Detail: CPU-basierte Inferenz ist für Einzelnutzer hoch effizient – Metal-Beschleunigung lohnt sich erst ab Batch-Größen von vier oder mehr.

Wer LLMs auf Apple Silicon schneller betreiben will, findet in diesem Guide die entscheidenden Hebel: maßgeschneiderte AMX-Kernel, BitNet-Quantisierung und MoE-Offloading. Jetzt kostenlosen Performance-Guide anfordern

744 Milliarden Parameter auf dem Schreibtisch

Quantisierungstechniken machen es möglich: Das Mixture-of-Experts-Modell GLM-5.2 mit 744 Milliarden Parametern läuft in 2-Bit-Quantisierung auf einem Mac mit 256 Gigabyte Unified Memory. Das entspricht einem Speicherbedarf von 245 GB.

Für Systeme mit weniger RAM – etwa einer 24-GB-GPU – gibt es ebenfalls eine Lösung: Durch MoE-Offloading (Auslagerung einzelner Experten-Module) bleiben immer noch 5 bis 15 Tokens pro Sekunde möglich. Branchenbeobachter sehen darin einen Meilenstein: Open-Source-Modelle nähern sich so den Fähigkeiten großer Cloud-KI-Systeme an.

Software-Ökosystem wächst rasant

Die Infrastruktur für lokale KI auf macOS entwickelt sich parallel rasant weiter. Der oMLX-Inference-Server erreichte Mitte Juni Version 0.4.4 und bringt Continuous Batching sowie gestaffeltes KV-Caching mit – das nutzt sowohl RAM als auch SSD-Speicher. Damit ist Multi-Model-Serving auf Apple Silicon möglich, kompatibel mit OpenAI- und Anthropic-APIs.

Nur einen Tag später erschien PRE 2.0 (Personal Reasoning Engine), optimiert für Gemma 4 auf Apple Silicon. Auf einem MacBook Pro M4 Max mit 128 GB RAM erreicht die Plattform rund 73 Tokens pro Sekunde bei einem Kontextfenster von 128.000 Tokens.

Große Modelle passen nicht in Ihren lokalen Speicher? Mit MoE-Offloading laufen selbst 744B-Parameter-Modelle auf 24 GB – bei 5-15 Tokens pro Sekunde. Der Guide zeigt, wie. MoE-Offloading-Guide jetzt sichern

Wiener Startup will Speicherbedarf drastisch senken

Neue Methoden zur Modellkompression versprechen, die Hardware-Anforderungen weiter zu senken. Das Wiener Startup Ora Computing sicherte sich eine Seed-Finanzierung von 3,5 Millionen Euro für seine Tensor-Network-KI-Kompression. Die Technologie soll den Speicherbedarf um bis zu 80 Prozent reduzieren und die Inferenz um das Vierfache beschleunigen – bei minimalen Genauigkeitsverlusten. Solche hardwareunabhängigen Verfahren könnten die Lücke zwischen hochparametrigen Spitzenmodellen und lokaler Hardware endgültig schließen.

Maßgeschneiderte Kernel übertreffen Apple Accelerate

BitNet-Benchmarks: Vom M1 bis zum M3 Max

744 Milliarden Parameter auf dem Schreibtisch

Software-Ökosystem wächst rasant

Wiener Startup will Speicherbedarf drastisch senken

Ähnliche Beiträge

Galaxy Glasses: Samsung fordert Meta mit neuer AR-Brille heraus

PC-Markt schrumpft um 4,9%: MacBook Neo trotzt Speicherkrise

Notebook-Rabatte: Geekom M16 und HP-Modelle bis 48% günstiger

Windows 11: Notfall-Patch KB5121767 behebt Dell-Treiberkonflikt

MacBook Neo 2: Apple rüstet Einsteiger-Notebook mit A19 Pro auf

Framework Desktop: 192 GB RAM für KI-Modelle bis 300 Milliarden Parameter