Apple hat auf der WWDC26 einen technischen Durchbruch präsentiert, der die Art und Weise, wie künstliche Intelligenz auf dem Mac genutzt wird, grundlegend verändern könnte. Statt auf Cloud-Dienste zu setzen, zeigt der Konzern, wie leistungsfähige KI-Agenten direkt auf der eigenen Hardware arbeiten.
Während Apple die künstliche Intelligenz revolutioniert, nutzen viele Anwender die bereits vorhandenen Möglichkeiten noch gar nicht voll aus. Dieser kostenlose Ratgeber zeigt Ihnen, wie Sie KI-Tools wie ChatGPT schon heute sicher und effizient in Ihren Alltag integrieren. Gratis-Report: ChatGPT als praktischen Alltagshelfer nutzen
Vier Schichten für intelligente Assistenten
Im Zentrum der Neuentwicklung steht das MLX-Framework, eine quelloffene Bibliothek, die speziell für Apples hauseigene Chips optimiert ist. Die vorgestellte Architektur besteht aus vier Ebenen: der Basisbibliothek MLX, einer Erweiterung für Sprachmodelle (MLX-LM), einem Server, der mit OpenAI-Standards kompatibel ist, sowie verschiedenen Agenten-Frameworks.
In einer Live-Demonstration zeigte Apple, wie ein lokaler Agent eigenständig GitHub-Pull-Requests abruft, Code-Änderungen zusammenfasst und eine SwiftUI-Anwendung kompiliert – und das alles ohne eine einzige Verbindung zur Cloud. Entwickler haben bereits Mitte Juni 2026 damit begonnen, die Implementierung zu dokumentieren. Die Einrichtung erfolgt über Python 3.11 und virtuelle Umgebungen, sodass lokale Modelle nahtlos mit Programmier-Assistenten und Desktop-Anwendungen zusammenarbeiten können.
M5-Chip und verteilte Rechenleistung
Die technische Grundlage für diesen Schritt liefert Apples neueste chip-Generation. Der M5-Prozessor bietet eine vierfach höhere Matrix-Multiplikationsleistung als sein Vorgänger M4. Doch Apple geht noch einen Schritt weiter: Mit der neuen verteilten Inferenzfähigkeit von MLX lassen sich mehrere Macs über Thunderbolt oder Ethernet zusammenschließen.
Vier vernetzte Rechner erzielen dabei eine bis zu dreifache Leistungssteigerung. Ein einzelnes Modell mit 1,6 Billionen Parametern kann so auf einen Hardware-Pool mit insgesamt 800 GB Arbeitsspeicher verteilt werden. In Benchmark-Tests vom Juni 2026 erreichte selbst ein älterer M1 Max mit 64 GB RAM Verarbeitungsgeschwindigkeiten von über 90 Tokens pro Sekunde – dank einer Technik namens „Multi-Token Prediction“.
Dritte Generation der Foundation Models
Nur einen Tag nach der WWDC, am 12. Juni 2026, enthüllte Apple seine dritte Generation der Foundation Models (AFM 3). Die Modellfamilie umfasst fünf spezialisierte Engines:
- AFM 3 Core: Ein 3-Milliarden-Parameter-Modell für Standardaufgaben auf dem Gerät
- AFM 3 Core Advanced: Ein 20-Milliarden-Parameter-Modell mit sparsamer Architektur – nur 1 bis 4 Milliarden Parameter sind gleichzeitig aktiv
- AFM 3 Cloud und AFM 3 Cloud Pro: Server-basierte Modelle für rechenintensive Aufgaben
Apple-Manager Craig Federighi stellte klar, dass der Konzern für seine Kernfunktionen weder auf Modelle noch auf Suchinfrastruktur von Drittanbietern setzt. Zwar läuft das AFM 3 Cloud Pro Modell auf NVIDIA-Blackwell-GPUs in der Google Cloud, doch Apple kontrolliert den gesamten Software-Stack über seine Private Cloud Compute (PCC)-Architektur. Diese stellt sicher, dass Nutzerdaten weder gespeichert noch vom Cloud-Anbieter eingesehen werden können.
Um die volle Leistung der neuen Mac-Generation und ihrer KI-Funktionen von Anfang an im Griff zu haben, sind die richtigen Grundlagen entscheidend. Erfahren Sie in diesem kostenlosen Starterpaket, welche Einstellungen Apple-Experten jedem Nutzer für einen optimalen Start empfehlen. Kostenloses Mac-Starterpaket jetzt herunterladen
Vom App- zum Intention-zentrierten Rechnen
Mit dem neuen „Core AI“-Framework können Entwickler Modelle aus PyTorch exportieren und durch Komprimierungstechniken wie 4-Bit- und 8-Bit-Quantisierung optimieren. Ein Modell mit 850 Millionen Parametern schrumpft so von 3 GB auf rund 430 MB – ideal für den Einsatz auf mobilen Geräten und Desktops.
Branchenbeobachter sehen in diesen Entwicklungen einen fundamentalen Wandel: weg vom app-zentrierten Rechnen, hin zu einem intention-zentrierten Ansatz. Ein „System Orchestrator“ entscheidet künftig, ob eine Aufgabe von einem lokalen Modell, einer spezifischen App-Funktion oder einer sicheren Cloud-Engine übernommen wird. Herkömmliche Anwendungen werden dabei zu aufrufbaren Funktionen für das KI-System – ein Konzept, das die Art und Weise, wie wir mit Computern interagieren, grundlegend verändern könnte.

