{"id":312476,"date":"2025-06-09T10:39:01","date_gmt":"2025-06-09T08:39:01","guid":{"rendered":"https:\/\/www.borncity.com\/blog\/?p=312476"},"modified":"2025-06-09T16:25:43","modified_gmt":"2025-06-09T14:25:43","slug":"neue-ai-modelle-apple-forscher-legen-die-illusion-des-denkens-offen","status":"publish","type":"post","link":"https:\/\/borncity.com\/blog\/2025\/06\/09\/neue-ai-modelle-apple-forscher-legen-die-illusion-des-denkens-offen\/","title":{"rendered":"Neue AI-Modelle: Apple-Forscher legen die \"Illusion des Denkens\" offen"},"content":{"rendered":"<p><img loading=\"lazy\" decoding=\"async\" style=\"margin: 0px 10px 0px 0px; display: inline; float: left; border-width: 0px;\" title=\"Edge\" src=\"https:\/\/borncity.com\/blog\/wp-content\/uploads\/2025\/04\/image-4.png\" alt=\"Copilot\" width=\"95\" height=\"91\" align=\"left\" border=\"0\" \/>Es ist ein Forschungspapier, welches in den letzten Stunden zu regen Diskussionen bei AI-Beobachtern gef\u00fchrt hat. Apple-Forscher diskutieren in einem Papier die M\u00f6glichkeiten und Grenzen der neuesten Large (Reasoning) Language Modelle, von denen ja angenommen wird,\u00a0 dass diese m\u00f6glicherweise \"denken zu k\u00f6nnen\". Beim Papier bleibt von dieser Vermutung wenig \u00fcbrig.<\/p>\n<p><!--more--><\/p>\n<p><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/vg05.met.vgwort.de\/na\/4fc38b8473694990968ed258a7d47788\" alt=\"\" width=\"1\" height=\"1\" \/>Im Abstrakt des Papers hei\u00dft es, dass neuere Generationen von Frontier-Sprachenmodellen \"Large Reasoning Models\" (LRMs) eingef\u00fchrt haben, die detaillierte Denkprozesse generieren, bevor sie Antworten liefern. W\u00e4hrend diese Modelle zwar eine verbesserte Leistung bei Reasoning-Benchmarks zeigen, sind ihre grundlegenden F\u00e4higkeiten, Skalierungseigenschaften und Grenzen jedoch noch nicht ausreichend bekannt.<\/p>\n<p>Derzeitige Evaluierungen konzentrieren sich in erster Linie auf etablierte mathematische und kodierende Benchmarks und betonen die Genauigkeit der endg\u00fcltigen Antworten. Dieses Evaluierungsparadigma leidet, laut den Apple-Forschern, jedoch h\u00e4ufig unter Datenverunreinigungen und liefert keine Erkenntnisse und Einblicke in die Struktur und Qualit\u00e4t der Argumentation.<\/p>\n<p><a href=\"https:\/\/ml-site.cdn-apple.com\/papers\/the-illusion-of-thinking.pdf\" target=\"_blank\" rel=\"noopener\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/i.postimg.cc\/66n7zLK1\/image.png\" alt=\"Apple on AI models\" width=\"611\" height=\"738\" \/><\/a><\/p>\n<p>In der Forschungsarbeit mit dem Titel <a href=\"https:\/\/ml-site.cdn-apple.com\/papers\/the-illusion-of-thinking.pdf\" target=\"_blank\" rel=\"noopener\">The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity<\/a> werden diese L\u00fccken systematisch mit Hilfe von kontrollierbaren \"R\u00e4tselumgebungen\" untersucht. Diese Umgebungen erm\u00f6glichen eine pr\u00e4zise Manipulation der kompositorischen Komplexit\u00e4t unter Beibehaltung konsistenter logischer Strukturen.<\/p>\n<p>Dieser Aufbau erm\u00f6glicht den Forschern zufolge die Analyse der endg\u00fcltigen Antworten, sondern auch der internen Argumentationsspuren, was Einblicke in die Art und Weise bietet, wie LRMs \u201edenken\".<\/p>\n<p>Durch umfangreiche Experimente mit verschiedenen R\u00e4tseln zeigen die Forscher, dass LRMs an der Grenze jenseits bestimmter Komplexit\u00e4ten einen vollst\u00e4ndigen Genauigkeitseinbruch erleben.<\/p>\n<p>Dar\u00fcber hinaus weisen sie eine kontraintuitive Skalierungsgrenze auf: Ihr Denkaufwand steigt bis zu einem gewissen Punkt mit der Problemkomplexit\u00e4t, dann\u00a0sinkt er trotz eines angemessenen Token-Budgets.<\/p>\n<p>Durch den Vergleich von LRMs mit ihren Standard-LLM mit ihren Standard-LLM-Pendants unter gleichwertigen Inferenzberechnungen identifizieren die Forscher drei Leistungsbereiche:<\/p>\n<p>(1) Aufgaben mit geringer Komplexit\u00e4t, bei denen Standardmodelle \u00fcberraschenderweise besser abschneiden als LRMs,<\/p>\n<p>(2) Aufgaben mit mittlerer Komplexit\u00e4t, bei denen zus\u00e4tzliches Denken in LRMs einen Vorteil darstellt, und<\/p>\n<p>(3) Aufgaben hoher Komplexit\u00e4t bei denen beide Modelle vollst\u00e4ndig zusammenbrechen.<\/p>\n<p>Die Forscher haben dabei festgestellt, dass LRMs bei der exakten Berechnung keine expliziten Algorithmen verwenden und denken bei allen R\u00e4tseln inkonsistent ist. Die Forscher untersuchen in ihrer Arbeit auch die Argumentationsspuren eingehender, indem sie die Muster der erforschten L\u00f6sungen untersuchen und das Berechnungsverhalten der Modelle analysieren, um ihre St\u00e4rken und Grenzen zu beleuchten. Die Ergebnisse werfen schlie\u00dflich entscheidende Fragen \u00fcber die wahren Denkf\u00e4higkeiten der neuen Sprachmodelle auf. In <a href=\"https:\/\/garymarcus.substack.com\/p\/a-knockout-blow-for-llms\" target=\"_blank\" rel=\"noopener\">diesem Artikel<\/a> ordnet jemand das Forschungsergebnisse ein.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Es ist ein Forschungspapier, welches in den letzten Stunden zu regen Diskussionen bei AI-Beobachtern gef\u00fchrt hat. Apple-Forscher diskutieren in einem Papier die M\u00f6glichkeiten und Grenzen der neuesten Large (Reasoning) Language Modelle, von denen ja angenommen wird,\u00a0 dass diese m\u00f6glicherweise \"denken &hellip; <a href=\"https:\/\/borncity.com\/blog\/2025\/06\/09\/neue-ai-modelle-apple-forscher-legen-die-illusion-des-denkens-offen\/\">Weiterlesen <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"comment_status":"open","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[7459],"tags":[8382,3836],"class_list":["post-312476","post","type-post","status-publish","format-standard","hentry","category-software","tag-ai","tag-software"],"_links":{"self":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/312476","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/comments?post=312476"}],"version-history":[{"count":0,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/posts\/312476\/revisions"}],"wp:attachment":[{"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/media?parent=312476"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/categories?post=312476"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/borncity.com\/blog\/wp-json\/wp\/v2\/tags?post=312476"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}