Der chinesische Technologiekonzern bringt drei spezialisierte Modelle auf den Markt, die Maschinen das Navigieren, Greifen und Vorausdenken beibringen sollen.
Peking – Alibaba Cloud hat mit der Qwen-Robot Suite ein Paket von drei KI-Modellen vorgestellt, die Robotern echtes Verständnis für ihre Umgebung ermöglichen sollen. Die am 16. und 17. Juni angekündigte Suite zielt darauf ab, digitale Intelligenz mit physischen Robotersystemen zu verschmelzen – ein Bereich, der als „Embodied AI“ bekannt ist.
Während Alibaba die physische Intelligenz von Robotern vorantreibt, stellt der Gesetzgeber bereits die Weichen für den sicheren Einsatz solcher Technologien. Dieser kostenlose Leitfaden hilft Unternehmen, die komplexen Anforderungen der neuen EU-KI-Verordnung frühzeitig zu verstehen und rechtssicher umzusetzen. EU AI Act in 5 Schritten verstehen: Fristen, Pflichten und Risikoklassen kompakt erklärt
Die Entwicklung folgt auf die Gründung eines speziellen Robotik-Teams im Tongyi-Labor des Konzerns im Oktober 2025, das heute von Justin Lin geleitet wird. Die Suite soll als vielseitiges Betriebssystem für die Robotik-Wirtschaft dienen und ist mit Hardware von Herstellern wie AgileX, Franka, Universal Robots und Unitree kompatibel.
Navigationsmodell mit beeindruckenden Benchmarks
Das Navigationsmodell Qwen-RobotNav basiert auf der Qwen3-VL-Architektur und wurde mit 15,6 Millionen Trainingsbeispielen gefüttert. Es ist für die visuell-sprachliche Navigation (VLN) in fünf verschiedenen Umgebungen ausgelegt.
Die Ergebnisse können sich sehen lassen: Im VLN-CE RxR-Benchmark erreichte das Modell eine Erfolgsquote von 76,5 Prozent, auf dem EVT-Bench eine Tracking-Genauigkeit von 90 Prozent. Alibaba demonstrierte die Fähigkeiten durch einen Zero-Shot-Einsatz auf dem vierbeinigen Roboter Unitree Go2 – ohne spezielle Vorkenntnisse der Umgebung.
Greifen und Handeln: Das Manipulationsmodell
Für die physische Interaktion mit der Umwelt kommt Qwen-RobotManip zum Einsatz. Das auf Qwen3.5-4B basierende Modell konzentriert sich auf Aufgaben der Kategorie Vision-Language-Action (VLA). Mehr als 38.100 Stunden Open-Source-Trainingsdaten flossen in die Entwicklung, die einen 80-dimensionalen Zustands-Aktions-Raum nutzt.
Der Erfolg gibt dem Konzern recht: Bei der RoboChallenge Table30-v1 belegte das Modell den ersten Platz mit einer Aufgabenerfolgsrate von 45 Prozent und einem Prozess-Score von 59,83. Technische Benchmarks zeigen eine Erfolgsquote von 91,4 Prozent auf LIBERO-Plus. Besonders beeindruckend: Die Fähigkeit zur plattformübergreifenden Übertragung (Cross-Embodiment Transfer) verbesserte sich um das 3,2-Fache im Vergleich zu früheren Versionen.
Vorausschauendes Verständnis durch Videomodelle
Die dritte Säule der Suite ist Qwen-RobotWorld – ein Video-Weltmodell mit 20 Milliarden Parametern und einer 60-lagigen MMDiT-Architektur. Das Modell verarbeitet 8,6 Millionen Video-Text-Paare und mehr als 200 Millionen Einzelbilder, um physikalische Szenarien und Umweltreaktionen vorherzusagen.
Mit der zunehmenden Integration von KI-Systemen in den Betrieb wachsen auch die regulatorischen Anforderungen an Dokumentation und Qualitätssicherung. Erfahren Sie in diesem kostenlosen Report, welche KI-Systeme als Hochrisiko eingestuft werden und wie Sie Ihr Unternehmen auf die neuen Compliance-Regeln vorbereiten. Welche KI-Systeme gelten als Hochrisiko – und was müssen Unternehmen jetzt konkret tun?
Qwen-RobotWorld unterstützt über 20 Robotertypen und 500 Aktionskategorien. Es belegt derzeit Spitzenplätze in mehreren Branchen-Benchmarks, darunter EWMBench und DreamGen Bench. Die Idee dahinter: Roboter sollen die Konsequenzen ihrer Handlungen in einer bestimmten Umgebung simulieren können, bevor sie sie ausführen.
Framework-Integration und Unternehmenseinsatz
Zur Koordination dieser Modelle hat Alibaba Qwen-RobotClaw entwickelt – ein zweistufiges Agenten-Framework, das Qwen3.7-Plus als strategischen Planer nutzt. Über die Chat2Robot-Schnittstelle können komplexe Anweisungen in konkrete physische Aktionen übersetzt werden.
Die Qwen-Robot Suite befindet sich derzeit in einer Pilotphase mit ausgewählten Enterprise-Kunden von Alibaba Cloud. Das Unternehmen plant den Einsatz in Bereichen wie autonomen Fahrzeugen und logistischen Fahrerlosen Transportfahrzeugen (AGVs). Mit diesem Schritt tritt Alibaba in direkte Konkurrenz zu anderen Entwicklern physischer KI-Systeme wie Google DeepMind, Nvidia sowie Spezialfirmen wie Physical Intelligence und Figure AI.

