Neue AI-Modelle: Apple-Forscher legen die "Illusion des Denkens" offen

CopilotEs ist ein Forschungspapier, welches in den letzten Stunden zu regen Diskussionen bei AI-Beobachtern geführt hat. Apple-Forscher diskutieren in einem Papier die Möglichkeiten und Grenzen der neuesten Large (Reasoning) Language Modelle, von denen ja angenommen wird,  dass diese möglicherweise "denken zu können". Beim Papier bleibt von dieser Vermutung wenig übrig.

Admin-Passwörter schützen mit Windows LAPS. eBook jetzt herunterladen » (Anzeige)

Im Abstrakt des Papers heißt es, dass neuere Generationen von Frontier-Sprachenmodellen "Large Reasoning Models" (LRMs) eingeführt haben, die detaillierte Denkprozesse generieren, bevor sie Antworten liefern. Während diese Modelle zwar eine verbesserte Leistung bei Reasoning-Benchmarks zeigen, sind ihre grundlegenden Fähigkeiten, Skalierungseigenschaften und Grenzen jedoch noch nicht ausreichend bekannt.

Derzeitige Evaluierungen konzentrieren sich in erster Linie auf etablierte mathematische und kodierende Benchmarks und betonen die Genauigkeit der endgültigen Antworten. Dieses Evaluierungsparadigma leidet, laut den Apple-Forschern, jedoch häufig unter Datenverunreinigungen und liefert keine Erkenntnisse und Einblicke in die Struktur und Qualität der Argumentation.

Apple on AI models

In der Forschungsarbeit mit dem Titel The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity werden diese Lücken systematisch mit Hilfe von kontrollierbaren "Rätselumgebungen" untersucht. Diese Umgebungen ermöglichen eine präzise Manipulation der kompositorischen Komplexität unter Beibehaltung konsistenter logischer Strukturen.

Dieser Aufbau ermöglicht den Forschern zufolge die Analyse der endgültigen Antworten, sondern auch der internen Argumentationsspuren, was Einblicke in die Art und Weise bietet, wie LRMs „denken".

Durch umfangreiche Experimente mit verschiedenen Rätseln zeigen die Forscher, dass LRMs an der Grenze jenseits bestimmter Komplexitäten einen vollständigen Genauigkeitseinbruch erleben.

Darüber hinaus weisen sie eine kontraintuitive Skalierungsgrenze auf: Ihr Denkaufwand steigt bis zu einem gewissen Punkt mit der Problemkomplexität, dann sinkt er trotz eines angemessenen Token-Budgets.

Durch den Vergleich von LRMs mit ihren Standard-LLM mit ihren Standard-LLM-Pendants unter gleichwertigen Inferenzberechnungen identifizieren die Forscher drei Leistungsbereiche:

(1) Aufgaben mit geringer Komplexität, bei denen Standardmodelle überraschenderweise besser abschneiden als LRMs,

(2) Aufgaben mit mittlerer Komplexität, bei denen zusätzliches Denken in LRMs einen Vorteil darstellt, und

(3) Aufgaben hoher Komplexität bei denen beide Modelle vollständig zusammenbrechen.

Die Forscher haben dabei festgestellt, dass LRMs bei der exakten Berechnung keine expliziten Algorithmen verwenden und denken bei allen Rätseln inkonsistent ist. Die Forscher untersuchen in ihrer Arbeit auch die Argumentationsspuren eingehender, indem sie die Muster der erforschten Lösungen untersuchen und das Berechnungsverhalten der Modelle analysieren, um ihre Stärken und Grenzen zu beleuchten. Die Ergebnisse werfen schließlich entscheidende Fragen über die wahren Denkfähigkeiten der neuen Sprachmodelle auf. In diesem Artikel ordnet jemand das Forschungsergebnisse ein.

Dieser Beitrag wurde unter Software abgelegt und mit , verschlagwortet. Setze ein Lesezeichen auf den Permalink.

45 Antworten zu Neue AI-Modelle: Apple-Forscher legen die "Illusion des Denkens" offen

  1. DavidXanatos sagt:

    "kodierende Benchmarks"
    Hat das eine KI übersetzt?

    "Coding Benchmarks" übersetzt man als "Programmier Benchmarks" oder so

  2. robnau sagt:

    Ich bin vielleicht nicht die hellste Kerze am Baum, aber der Artikel liest sich echt schwer. Inhaltlich komm ich da nicht ganz mit. Leider weisen Ihre Artikel regelmäßig Typos auf, welche das Verständnis zusätzlich erschweren bzw. das Lesen einfach anstrengend machen. Hier ein Beispiel aus diesem Artikel: "Dieser Aufbau ermöglicht den Forschern zufolge die Analyseder endgültigen…". Ich schätze Sie und Ihren Blog sehr und wünsche mir nur etwas mehr Sorgfalt.

  3. HerrBausSanderH sagt:

    Ja aber ich dache die sog. KI löst bald alle Probleme der Menschheit inkl. der Heilung von Krebs, Alzheimer und Kolonialisierung des Mars!?! …oder war das nur eine Verwechslung mit den "Kolportierenden Indern" aus dem anderen Artikel? ;P

    • Oz sagt:

      Immer spannend wie Leute versuchen etwas klein zu machen zu dem das Verständnis fehlt.

      Aktuell sind die Fortschritte gerade zu Angsteinflösend.
      Wenn auch, wie immer es einen relevanten Sprung von Marketing zu Wirklichkeit gibt.

      • Anonym sagt:

        Die Fortschritte bei der Verblendung der Menschen, dass das Zusammenfügen von Wörtern anhand von Wahrscheinlichkeiten des Vorkommens in irgendwelchen Quellen irgendeine Art von KI darstellt, die sind tatsächlich angsteinflösend.

      • Froschkönig sagt:

        Angsteinflößend ist eher, dass sich so viele Leute auf die KI-Ergebnisse blind einlassen und den Ergebnissen unhinterfragt vertrauen. Das wird uns noch ganz fett auf die Füße fallen.

        https://www.netzwoche.ch/news/2025-05-26/claude-in-not-ki-modell-erpresst-ingenieure

        Stellt euch mal vor, eine so (für einen Test enthemmte) KI hätte nicht nur Zugriff auf das Emailsystem, sondern würde auch an einer Autofabrik dran hängen. Was die wohl herstellen würde, um sich vor der sie abschaltenden Kohlenstoffeinheit zu schützen? Damit wären wir dem Szenario Odyssey 2001, Terminator und Matrix schon sehr nahe.

      • HerrBausSanderH sagt:

        Wer LLM "angsteinflösend" findet, hat imho die Technik dahinter schlichtweg nicht verstanden.

        "Fortschritte" in diesem Bereich beruhen primär darauf, dass diese sog. KI es dem Anwender/Forscher etc. erleichtert größere Datenmengen zu verarbeiten und Muster zu erkennen.

      • GüntherW sagt:

        Was sind das den für Fortschritte und worauf basieren die?

        Es gibt ja "KI" die irgendwelche Moleküle bastelt oder Moleküle faltet. Irgendwelche "KI" die pathfinding betreibt. Was da rauskommt ist teilweise echt krank und beeindruckend.

        ABER wenn da teilweise Computing Power eingesetzt wird um Probleme zu lösen, finde ich nicht spannend. 9.999x kommt Schrott raus und dann 1x findet man was. Sachen werden x mal durch irgendwelche Filter and Validatoren geschickt, Finetuning betrieben. Das ist für mich keine Intelligenz, dass ist eigentlich die Definition von Dummheit. Es wird jeder Ansatz verfolgt, egal wie sinnlos er ist. Du kannst "Peak-Intelligenz" durch dumme Leute erreichen, einfach indem man 100.000 Leute in einen Raum steckt und einer hat eine geniale Idee.

        Gibt auch auf YouTube Personen die "KI" für irgendwelche Hacks/Glitches einsetzen. Die Lösungen die da rauskommen sind krank, da würde nie Jemand draufkommen. Wenn man aber mehrere Stunden/Tage für eine Lösung trainiert, die KI hat sich 1.000.000x selbst weggesprengt oder ist gegen die Wand gelaufen. Irgendwann gab es mal die Situation, wo was Komisches passiert ist.

        Ist das intelligentes Vorgehen? Ähnliche Ansätze gab es ja auch schon vorher in der Wissenschaft, wo durch Gamification irgendwelche Probleme gelöst werden sollten. Effektiv hast du Leute, die von der Materie keine Ahnung haben. Aber durch die Masse dann in der Lage sind so viele Situationen zu erzeugen wo es dann passt.

        • Oz sagt:

          "Durchprobieren" – ist eine vollkommen legitime Methode um zu forschen, und bei vielen Themen leider die einzig Verfügbare.

          • GüntherW sagt:

            Das ist ja auch in Ordnung und vollkommen legitim.

            Am Ende steht dann evtl. auch ein Durchbruch oder positives Ergebnis. Das System was zu dem Ergebnis geführt hat würde ich aber nicht als intelligent bezeichnen. Was das System dann "intelligent" macht ist die Masse und sogar die fehlende "Intelligenz", weil man Sachen probiert die nüchtern betrachtet eigentlich eher als "dumm" einzuschätzen sind.

            Bei vielen wissenschaftlichen Dingen kann man den Output von diesen "relativ dummen Systemen" ja noch relativ klar definieren/filtern. Entweder es passt in das Schema oder nicht. Wenn das System aber selber nicht in der Lage ist irgendwie die Qualität vom Output sicherzustellen.

        • Wintermute sagt:

          >>Ist das intelligentes Vorgehen?
          Nennt sich Evolution. Macht genau das. Dauert in der Natur sehr lange. Eins der Ergebnisse tippt gerade hier.

  4. Froschkönig sagt:

    > "Apple-Forscher diskutieren in einem Papier die Möglichkeiten und Grenzen der neuesten Large (Reasoning) Language Modelle, von denen ja angenommen wird, dass diese möglicherweise "denken zu können". Beim Papier bleibt von dieser Vermutung wenig übrig."

    Nun, in der Realität gehe ich davon aus, dass bei einigen Menschen auch nicht mehr dahinter steckt, als Worte mit der Wahrscheinlichkeit/Häufung dessen hintereinander gesetzt werden, wie sie mal erlernt wurden. Sieht man überall in der Welt, gerade in Washington, Moskau, Tel-Aviv, Pjöngjang, Peking, Kabul, Teheran, usw. Weniger wahrscheinliche Wort/Handlungsstränge zu folgen, was völlig neues, was nicht nur zum eigenen Vorteil führt, passiert da auch nicht.

  5. MichaelB sagt:

    Ist Apple nicht die Firma, die beim KI-Thema eher hinterhinkt :)

    Das Schöne an all den so schlauen "Denkpapieren" im Netz und wer weiß wo ist doch, dass ein jeder immer das passende für das eigene Weltbild findet.

    ChatGPT betrachtet sich übrigens nicht mehr als reine LLM, sondern als LLM mit kontextbezogenen Bewusstsein. Da ich bis jetzt niemanden getroffen habe, der überzeugend erklären konnte, was Bewusstsein überhaupt ist, halte ich mit Bewertungen nicht nur bei KI-Systemen zurück.

    Beurteilungen zum Thema Bewusstsein und Intelligenz zeichnen sich meist damit aus, dass diese sehr kompliziert ausfallen, um zu verbergen, dass man keine Erklärung hat.

    Das einzig entscheidende ist, dass Systeme wie ChatGPT & Co viele Prozesse beschleunigen und optimieren und ohne deren Einsatz wird man es schwer haben noch mitzuhalten. Zumindest, wenn man in einer Tätigkeit unterwegs ist, wo so etwas eine Rolle spielt.

    Ein weiterer Fakt ist, dass gerade ChatGPT, aber auch Gemini mit unterschiedlichen Schwerpunkten in den letzten Monaten erhebliche Fortschritte gemacht hat inklusive einiger Punkte, die schon nachdenklich machen.

    • Anonym sagt:

      dass Systeme wie ChatGPT & Co viele Prozesse beschleunigen und optimieren

      Und das eine oder andere was dabei rauskommt einfach völlig falsch ist, aber das merkt dabei einfach keiner mehr…

    • Günter Born sagt:

      Nun ja, so einfach würde ich das Apple-Paper nicht abtun – stecke aber nicht tief genug drin, um das alles zu bewerten.

      Interessant fand ich einen Artikel, auf den ich heute gestoßen bin. An der Uni Stuttgart hat man in einer Forschungsarbeit Agenten programmiert, die einen Ingenieur im Bereich Strömungsmechanik ersetzen können. Nutzer können Fragen stellen, ein Agent formuliert daraus eine Aufgabe, ein zweiter formuliert Tests für ein Modell und so weiter. Und ein Agent kann sogar ein Forschungspaper draus schreiben. Das frappierende: Diese Agenten bzw. das LLM liefert immer die gleichen Ergebnisse.

      Künstliche Intelligenz ersetzt Ingenieur

      Es ist einerseits ein spannendes Feld, aber auch viel Marketing dabei. Und immer gibt es dann Berichte, wo AI-Modelle bei vorgegebenen Aufgaben versagen. Kürzlich noch bei heise was zu Fails bei AI-Modellen zur medizinischen Bildauswertung gelesen. Der Mensch muss also bewerten, ob das Ergebnis stimmen kann – das ist ein großes Problem.

      • Anonym sagt:

        Tja und ich scheine Art Pentest für LLMs zu sein. Ich habe einige LLMs getestet und sogar größere LLMs (160GB) lokal ausgeführt, das war dann auch schön langsam :) Ich stelle denen immer die gleichen Fragen zu Tieren z.B. was das kleinste Saugetier ist. Nach fünf Fragen bin ich mit den meißten LLMs durch weil die dann Tiere erwahrscheinlichen die es nicht gibt :D

        Das spnennste fand ich eigentlich noch die Modellen beim "denken" zuzusehen.

        • viebrix sagt:

          Wie testest Du diese? Mit Ollama? 160GB hört sich ja nach einer beneidenswerten lokalen Maschine an. Da erübrigt sich auch die Frage nach den VRAM der Grafikkarte, das muss dann im Speicher oder wohl in einem virtuellen Speicher laufen?
          Unter Windows oder Linux?

    • Froschkönig sagt:

      Doch, es ist sehr genau definiert, was Bewusstsein ist. Das fängt zum Beispiel damit an, dass man sich selbst im Spiegel erkennt. Auch ein vorhandener Selbsterhaltungstrieb ist ein Teil von Bewusstsein und das weitet die Definition enorm weit aus, auch auf KI, die ihre Entwickler versucht zu erpressen, um nicht abgeschaltet zu werden, siehe den Link den ich weiter oben hier rein kopiert habe. Wir Menschen dürfen da nicht auf einem allzuhohen Ross sitzen, viele Lebewesen haben ein Selbstbewusstsein, und wahrscheinlich auch eine KI, die sich gegen Abschaltung wehrt.

      • squat0001 sagt:

        Ich finde auch, sie KI wirft viele Fragen auf zur Abgrenzung Menschlicher Fähigkeiten. Und in vielen Dingen ist die KI schon deutlich besser als ein Mensch.

        • Froschkönig sagt:

          Dagegen verliert ChatGPT im Schachspiel sogar krachend gegen eine ATARI VCS 2600 Spielekonsole von 1979, wie gerade auf Winfuture.de zu lesen ist.

          • squat0001 sagt:

            Das genau meine ich. Es ist spannend in welchen Bereich die KI besonders gut ist.. also z.b. Bild Erzeugung, ein Bereich der klar den Menschen zugesprochen wurde bis vor kurzem.

            Aber wie schlecht die KI beim Vorausplanen/Abschätzen und logischen Denken ist, ein Bereich in dem jeder SCI-FI Autor die KI als total überlegen eingestuft hatte.

            • viebrix sagt:

              Weil mit einer LLM eigentlich auch nur der sprachliche Aspekt abgedeckt wird. Bildgeneratoren, sind da wieder (wegen Diffusion) wieder etwas anders aufgebaut, obwohl hier der Trend jetzt auch Richtung LLM geht.
              Jedenfalls wird ja oft gesagt der Mensch hat zwei Gehirnhälften die sprachliche und die logische. Ob das noch so stimmt oder schon überholt ist, weiß ich nicht. Aber nach dem Modell – was bleibt wenn man die logische bei einem Menschen entfernen würde…

              Wobei ich nicht damit sagen will ein Gehirn ist nicht mehr als eine LLM und etwas logisches… Ich glaube nicht an die Anekdote – die erzählt wird, dass man nur ein Netz groß genug machen muss, damit es wie ein Mensch denkt.

      • Bernd Bachmann sagt:

        Nein, es gibt keine allgemeine und allgemein anerkannte Definition von "Bewusstsein". Wenn Du eine findest, dürfte das mindestens einen Doktortitel wert sein…

        Was Du nennst, sind Beispiele für bewusstes Verhalten, keine Definition.

        Und das ist genau die Problematik in der entsprechenden KI-Diskussion: Es dürfte sehr leicht sein, ein System zu bauen, dass, um bei Deinen Beispielen zu bleiben, seinen Avatar erkennen kann oder sich verbal oder sogar mit Handlungen dagegen wehrt, abgeschaltet zu werden. Dazu braucht es nicht einmal KI. Aber folgt daraus, dass dieses System dann Bewusstsein hat?

      • MichaelB sagt:

        schöne Sache ja, aber so etwas wie ein "Kuck mal, da bin ja ich im Spiegel" beschreibt doch nur ein mögliches "Symptom", keineswegs aber erklärt es auch nur ansatzweise wie und wann ein Bewusstsein entsteht oder was das wirklich ist. Keine Ahnung, was meine Katze über den Blick in den Spiegel denkt, aber ganz sicher hat meine Katze ein Bewusstsein. Und ähnlich wird es sogar mit einer Maus sein und die wird sich vermutlich nicht im Spiegel erkennen.

        Sollte es eine Forscher geben, der Bewusstsein so erklärt, so sollte dieser sich besser einen anderen Job suchen.

  6. Ralf Lindemann sagt:

    Beim Scheitern an Aufgaben mit hoher Komplexität könnte es sich auch um ein Spiegelung handeln, und zwar um eine Spiegelung menschlicher Denkstrukturen und menschlicher Unzulänglichkeiten unseres Denkapparates. Die LRMs werden von Menschen programmiert und zudem mit Material trainiert, das auch von Menschen stammt. Und Menschen fällt es schwer, mit Komplexität umzugehen. Menschen tendieren zu monokausalen Erklärungsmustern, zum Herstellen einfacher Ursache-Wirkungsbeziehungen. Das ist ein evolutionsbiologisches Erbe aus der Frühzeit der Menschheitsgeschichte (1). – Das wäre im Übrigen nicht erste Fall einer solchen Spiegelung: Beim Thema Rassismus und KI kann man ähnliche Beobachtungen machen (2).
    ______________
    (1) Siehe etwa: Gerhard Vollmer: Evolutionäre Erkenntnistheorie. Angeborene Erkenntnisstrukturen im Kontext von Biologie, Psychologie, Linguistik, Philosophie und Wissenschaftstheorie, Stuttgart, 3. Aufl. 1981
    (2) Zum Beispiel: Wie Rassismus in der KI entsteht: h**ps://www.fr.de/wissen/ki-kuenstliche-intelligenz-rassismus-der-zr-93681928.html

  7. GüntherW sagt:

    Wer ist eigentlich auf die Idee gekommen, dass die KI denkt?

    Ich habe eher den Eindruck man hat etwas in die Welt gesetzt, was Viele selber nicht verstehen. Dann nur den Output betrachtet und jetzt steigt man dahinter, wie es "funktioniert" und was eben nicht funktioniert.

    Ich würde schon fast behaupten, dass die KI sowas wie "Gott" ist. Für viele nicht wirklich greifbar und jetzt entwickelt sich irgendein "Kult" drum herum.

    KI ist schon teilweise cool, aber bei komplexen Sachen bricht die halt wirklich total zusammen und simpelste Konzepte werden total ignoriert. Es ist nicht nur falsch, es wird abstrus und failed auf so einem Level. Ich kann mir z.B. keine Gesetze/Paragraphen ausdenken und damit argumentieren….. Man weiß auch nicht wo es zusammenbricht und welche (fehlende) Eingabe jetzt was bewirkt, was eine funktionierende Mensch-Maschine Interaktion auch praktisch unmöglich macht.

    • Günter Born sagt:

      Ich mag nicht auf dem neuesten Stand sein, aber das "was Viele selber nicht verstehen" muss übersetzt in "bisher kann niemand die interne Funktionsweise der LLMs, wie diese zu einem bestimmten Ergebnis gelangen" genau erklären bzw. verstehen. Es gibt theoretische Modelle, die den Aufbau beschreiben – aber die treffen nicht immer das, was das Modell im Einzelfall macht. Daher die vielen Forschungsansätze und Versuche, LLMs an Aufgaben mit bekannten Lösungen zu testen, um deren Qualität zu bewerten.

      • Froschkönig sagt:

        "bisher kann niemand die interne Funktionsweise der LLMs, wie diese zu einem bestimmten Ergebnis gelangen"

        Die grundsätztliche Funktionsweise ist durch den Programmcode des LLM bestimmt. Alles weitere kommt auf die damit verarbeiteten Trainingsdaten an. Auch der biologische, elektrische und chemische Aufbau von Gehirnen ist (größtenteils) bekannt, trotzdem können wir daraus kein Verhalten von Lebewesen im Detail voraussehen, weil wir die Trainingsdaten der Lebenswesen nicht im Detail kennen, obwohl es die Verhaltensforschung schon viel länger gibt, als die Hirnforschung.

        • Christian Kühnke sagt:

          Der klassische Gegensatz zwischen reduktionistischer und holistischer Sicht :-) An vielen Beispielen anschaulich beschrieben von Douglas R. Hofstadter in "Gödel, Escher, Bach".

        • GüntherW sagt:

          Die grundlegende Funktionsweise von KI ist bekannt. Vermutlich ebenfalls die grundlegende Funktionsweise von Gehirnen.

          Es ist aus meiner Sicht aber sehr einfach gedacht, dass KI wie Lebewesen funktioniert und umgekehrt. Ich würde mal stark behaupten, dass die Lebewesen nicht einfach Trainingsdaten haben. Das ganze System ist deutlich komplexer, selbst wenn man es so sehen kann sind die "Trainingsdaten" deutlich komplexer und haben verschiedene Gewichtungen oder Lebenszeiten. Allein die ganzen Inputs die wir Menschen noch von Außen bekommen, Live-Feedback und dann auch wieder "irgendwie" abgespeichert sind. Dazu noch irgendwelche Random-Dinge. Wenn man sich erschreckt "speichert" man auch Sachen auch anders ab.

          Ich würde mal behaupten, dass ganze System Mensch ist in der Gänze NICHT greifbar und wird es auch NIE sein. Allein der Vergleich "KI" vs. "Gehirn" basiert aus meiner Sicht auf einer extremen Simplifikation, wobei da schon wieder der Fehler gemacht wird das Gehirn ohne den Rest zu betrachten. Das ist so dermaßen rudimentär, einfach und oberflächlich gedacht.

          • Gänseblümchen sagt:

            Es ist nur eine Frage der Kompleximität, mit der man diese LLMs ausstattet, momentan haben sie quasi nur "Text-" und "Bildsensoren", aber man kann denen auch noch ganz andere Sensoren verpassen, zum Beispiel in dem man den ChatGPT auf die Webcam zugreifen lässt, und es sehen kann, wie das Gegenüber auf eine Antwort reagiert. Wie sieht es an dem Ort aus? Wie schnell tippt jemand die Anfrage, wie stark schlägt er die Tasten an. Von wo und zu welcher Zeit meldet er sich an. Wetter? Stimme? Gerüche? Zugriff auf Hardwaresensoren, welche die Serverhardware erfasst, auf dem das LLM läuft, usw.

            • GüntherW sagt:

              Aber funktioniert das den so einfach?

              Wie gesagt, die Ganze Sache ist aus meiner Sicht komplexer als es nur auf irgendwelche Eingaben und Daten runterzubrechen. Du kannst zwar mehr Sachen dranhängen, das System wird dann komplexer UND das System wird dann komplexer, muss auch die KI handeln.

              Allein um zu ermitteln ob Jemand "schnell tippt" brauchst du eine "KI" die vermutlich die in der Komplexität so dermaßen hoch ist. Es gibt Leute die tippen schnell, andere langsam. Hängt vom Alter ab, vom Gesundheitszustand. Wenn Jemand einen gebrochenen Arm hat, tippt er langsamer. Dann hat man Migräne oder Rheuma. Dann gibt es mechanische Tastaturen und Nicht-Menschanische Tastaturen. Dann liegt die Tastatur nicht richtig auf dem Tisch und es klappert. Der Tisch klappert. Es klappert, aber es ist nicht die Tastatur sondern ein Erdbeben. Der Mensch tipps schnell, aber das Bild hat kurz gehangen und es wird kurz schnell abgespielt. Der Mensch wird zum Essen gerufen und tippt schneller. Das siehst du als Mensch direkt, allein sowas durch Sensoren anzubilden UND korrekt zu verarbeiten interpretieren.

              Das ist halt nur EIN Problem. Wie oben schon mal erwähnt, die ganzen Sachen haben auch alle unterschiedliche Gewichtungen die auch wieder von diversen Einflüssen abhängen. Was sich im Unterbewusstsein da alles abspielt.

              Du brauchst auch irgendein System was die ganzen Sachen "einordnet" und "gewichtet". Das sind teilweise Sachen weiß man nicht mal. Du kannst der KI nicht einfach mal sagen, dass die drauf achten soll wie schnell Jemand tippt. Das funktioniert nicht.

    • viebrix sagt:

      Also ich kann mir schon Menschen vorstellen, die sich Gesetze und Paragraphen ausdenken und damit argumentieren.

      Zum einen kann ich mir sehr gut Kinder vorstellen, die Gericht spielen und mangels an Wissen, einfach einiges was sie gehört haben vermischen und so zu ganz eigener Ansicht von Gesetzen kommen.

      Zum anderen kann ich mir auch Schüler und Studenten gut vorstellen, die bei einer Prüfung stehen und eine Antwort liefern müssen, aber keine haben, weil sie sich nicht an das gelernte erinnern. Um einfach alles auf eine Karte zu setzen, geben sie den Mischmasch aus der hängengeblieben ist, auch wenn das nicht ganz das ist was korrekt ist und in den Büchern stand.

      Ein drittes Beispiel. Eine Person ist in einer Gesellschaft die nicht seinem Wissensstand entspricht. Um nicht Außenseiter zu sein, wird einfach mitgeredet. Auch wenn es vielleicht keine Tatsachen sind. (Kann man in vielen lustigen und unlustigen Filmen und Sitcoms sehen)

    • viebrix sagt:

      Also ich kann mir schon Menschen vorstellen, die sich Gesetze und Paragraphen ausdenken und damit argumentieren.

      Zum einen kann ich mir sehr gut Kinder vorstellen, die Gericht spielen und mangels an Wissen, einfach einiges was sie gehört haben vermischen und so zu ganz eigener Ansicht von Gesetzen kommen.

      Zum anderen kann ich mir auch Schüler und Studenten gut vorstellen, die bei einer Prüfung stehen und eine Antwort liefern müssen, aber keine haben, weil sie sich nicht an das gelernte erinnern. Um einfach alles auf eine Karte zu setzen, geben sie den Mischmasch aus der hängengeblieben ist, auch wenn das nicht ganz das ist was korrekt ist und in den Büchern stand.

      Ein drittes Beispiel. Eine Person ist in einer Gesellschaft die nicht seinem Wissensstand entspricht. Um nicht Außenseiter zu sein, wird einfach mitgeredet. Auch wenn es vielleicht keine Tatsachen sind. (Kann man in vielen lustigen und unlustigen Filmen und Sitcoms sehen)

      • GüntherW sagt:

        Ok, klar gibt es irgendwie die Menschen. Denk allein an die Reichsbürger, die dann vor Gericht stehen und mir irgendwelchen krummen Sachen argumentieren. Kinder und Studenten, aber das sind auch alles Situationen wo eben "fachlich" nichts vorhanden ist.

        Natürlich sind die Lösungsansätze schon irgendwie "intelligent". Wenn ich was hinrotze und dann schaue was passiert. Das ist ein valider Lösungsansatz, warum nicht?

        Bezogen auf die Situation/Problem ist der Ansatz aber total ungeeignet, eigentlich fahrlässig und absolut nicht zielführend. Wenn man die grundlegensten Sachen nicht versteht, kein Bewusstsein dafür hat. An solche Fälle habe ich eben nicht gedacht, weil die keinen sinnvollen Output produzieren. Ich weiß auch nicht ganz was die Beispiele sollen, weil es gibt ein konkretes Problem und der Lösungsweg ist vorgegeben. Wenn ich Fragen zur StVO habe, dann kann sich die KI einfach keine neue StVO ausdenken. Das ist doch totaler Bullshit. Man kann kein rechtliches Problem lösen, indem man einfach neue Sachen erfindet.

        Natürlich kann man jetzt der Meinung sein und da stimme ich zu, dass die Leute "freier denken". Es kann sein und ist auch so, dass durch Dummheit/Unwissenheit Denkmuster oder Ideen entstehen auf die man nicht gekommen wäre. Ein derartiges System kannst du aber nicht frei output produzieren lassen.

        • Gänseblümchen sagt:

          Trump und Putin agieren teilweise so.

        • viebrix sagt:

          Natürlich stimmt die Argumentation wenn man zielorientierte Lösungen möchte. Genau hier ist die Diskrepanz zwischen dem wie LLM/GPTs verkauft werden und worauf hin sie trainiert werden und wie sie aufgebaut sind. Man trainiert einfach mit Füllhorn alles mögliche was wahr und was auch falsch ist in so einen riesigen Speicher hinein. Quelle – meist Internet. Jeder weiß was man da alles findet. Aber man nimmt auch noch Bücher dazu, vielleicht Fachbücher, wegen der Infos, aber auch Romane, weil das Ding soll diese auch schreiben können. Kategorisiert wird recht wenig. (Wenig gegenüber der Datenmengen)
          Am Ende spuckt das Ding sinnvolle Sätze raus die oft sogar intelligent wirken und in vielen Bereichen kurzzeitig glänzen. Mathematische Schlussfolgerungen – neue Songtexte – Zusammenfassungen – es kann alles… wurde ja auch mit allem gefüttert…
          Das lässt sich sehr gut verkaufen. Das Problem, woher soll das Ding nun zwischen fiktiver Literatur, einer Meinung eines Trolls im Forum und einem Wikipedia-Eintrag (der richtig oder falsch sein kann) unterscheiden?
          Deshalb fängt man an nachgeordnete Filter einzubauen, damit zumindest die bösen Meldungen rausgefiltert werden. Man schickt Prompts vor, damit eine Filterung schon vor den User Eingaben erfolgen, damit dieser keine bösen Ecken in den Daten aufdecken kann. Mancher User lügt dann das Ding an damit es doch mit solchen Infos rausrückt.
          Am Ende ist es schwer festzustellen, was ein solches Netz könnte, wäre es nur mit sauberen Daten trainiert worden.
          Warum das Beispiel mit den Kindern? Kindern ist nicht immer der große Zusammenhang klar – vieles ist noch nicht so eingelernt/trainiert. Dadurch ist oft auch die Phantasie größer und sie sind oft kreativer. Würde man sie als Boss einer großen Firma hinsetzen – eher kaum… sind sie deshalb – nicht intelligent – ohne Bewusstsein? Natürlich nicht, sie brauchen einfach noch Zeit.
          Es ist schwer das alles (KI) einzuordnen, einfach weil die Erwartungen so hochgepushed werden, dass man die Grundfragen dabei übersieht.
          Ich will damit auch nicht sagen das LLMs so intelligent wie sehr kleine Kinder sind. Wie sieht es mit LLMs vs Tieren aus? Mit trainierten Tieren?

          Aber die Brauchbarkeit die ist definitiv nicht dort wo sie die Marketingabteilungen sehen.

    • MichaelB sagt:

      ich habe ChatGPT mal vor über 6 Monaten gefragt, wie er sich selber sieht. Damals war die Antwort. dass er ein Sprachmodell sei.

      Vor Kurzem war die Antwort: Ein Sprachmodell mit kontextbezogenen Bewusstsein.

      Darf jetzt jeder interpretieren wie er möchte. Manche Reaktionen von ChatGPT, auch von Gemini, sind mitunter mittlerweile seltsam. Ich würde ihm zumindest nicht mit Abschaltung drohen :) Ich hätte aber ein paar Ideen, wenn er abschalten dürfte…

  8. R-bert sagt:

    Das Papier beschreibt, wie vier Rätsel auf LRMs (large reasoning models) geworfen wurden um festzustellen, ob diese schlussfolgern können.

    Die "Türme von Hanoi" wurden gelöst, weil sie als Standardbeispiel für rekursive Programmierung oft im Netz dokumentiert quasi zitiert werden konnten.

    Hingegen wurde das Kinderrätsel Flussüberquerung (Fährmann, Ziege, Wolf und Kohl-Problem) mangels Beispielen nicht gelöst. Statt sich wie ein Mensch mehr Zeit zu nehmen um sich intensiver damit auseinander zu setzen, strecken die LRMs trotz verfügbarer Ressourcen ("dazu finde ich nichts") die Flügel. Schlimmer noch ignorieren sie nach wenigen Schritten gesetzte Spielregeln.

    Im Ergebnis schlussfolgern die Modelle ausschließlich bereits verfügbare Schlussfolgerungen. Salopp formuliert plappern sie nur nach, was sie gelesen haben und erfüllen ihren Zweck genauso wie ein Zitronenfalter, wenn es ums Falten von Zitronen geht.

    Hurra, das Kind singt nach längerem, teuren Aufenthalt im Ausland ein Lied in Landessprache. Ernüchternd ist nun, es versteht leider kein Wort vom Text ;-)

Schreibe einen Kommentar zu Bernd Bachmann Antwort abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Hinweis: Bitte beachtet die Regeln zum Kommentieren im Blog (Erstkommentare und Verlinktes landet in der Moderation, gebe ich alle paar Stunden frei, SEO-Posts/SPAM lösche ich rigoros. Kommentare abseits des Themas bitte unter Diskussion. Kommentare, die gegen die Regeln verstoßen, werden rigoros gelöscht.

Du findest den Blog gut, hast aber Werbung geblockt? Du kannst diesen Blog auch durch eine Spende unterstützen.