Kann ChatGPT sich in die Gedanken anderer einfühlen?

Christoph Pöppe

In den alten Zeiten, als von den elektrostatischen Kopierern noch nicht die Rede war und von Laserdruckern schon gar nicht, wurden Dokumente in kleiner Auflage – Arbeitsblätter in der Schule, Aufgabenzettel für die Anfängervorlesung und ähnliches – im Umdruckverfahren hergestellt. Man schrieb den Text auf ein Blatt Kunstdruckpapier mit einem Blatt Kohlepapier dahinter. (Damals gab es noch „Durchschläge“: Die Kohle färbte auf ein dahinter liegendes Blatt ab und erzeugte so eine Kopie; diese längst vergessene Technik lebt in der Abkürzung „cc“ für „carbon copy“ fort.) Beim Umdruckverfahren lag allerdings das sehr intensiv beschichte Kohlepapier „verkehrtherum“, so dass die Kohle spiegelverkehrt auf die Rückseite des Blattes gepresst wurde. Nach vollbrachter Schreibarbeit spannte man das Blatt – Kohle nach außen – auf eine Trommel und drückte es mit geeigneter Mechanik gegen ein brennspiritusbefeuchtetes, saugfähiges Blatt Papier. Der Spiritus löste von der Vorlage ein wenig Kohle, die vom Papier eingesogen wurde, wodurch ein seitenrichtiges Abbild entstand.

Für ein gute Druckqualität empfahl es sich, auf der mechanischen Schreibmaschine – richtige Typenhebel, nix Kugelkopf, nix Typenrad – kraftvoll in die Tasten zu hauen, damit auch reichlich Kohle aufs Papier kam. Da konnte im Eifer des Gefechts der Typenhebel fürs kleine „o“ schon mal ein Loch ins Papier stanzen, wodurch am Ende von dem Buchstaben nur ein schmaler äußerer Rand im Druck sichtbar war.

In einer Diplomprüfung in angewandter Mathematik stellt der Prüfer die Frage, wie das Skalarprodukt im Raum L2 definiert sei, und erhält die überraschende Antwort „Integral über f(x) komponiert mit g(x) dx“. Nach einer Pause der Ratlosigkeit versucht der Prüfer, mit gezielten Fragen dem Kandidaten die richtige Antwort „Integral über f(x) mal g(x) dx“ zu entlocken – vergebens. Der Kandidat beharrt auf seiner Version, fürchtet sogar, er würde aufs Glatteis geführt, und kramt schließlich zum Beweis das Skript heraus, nach dem er gelernt hat. Da steht \( \int f(x) \circ g(x) dx \), und der Kringel in der Mitte ist in der Tat das Zeichen für die Komposition (Hintereinanderausführung) von Funktionen. Zu dumm, dass der Mensch, der die Vorlage für das – im Umdruckverfahren hergestellte – Skript tippte, bei dem Malpunkt zwischen f(x) und g(x) so heftig zugeschlagen hatte, dass nur noch der Kringel stehen blieb.

Der Kandidat hat also zweifelsfrei sehr exakt gelernt; aber das hilft nichts. Denn hätte er die Formel fürs Skalarprodukt auch nur an den einfachsten Beispielen anzuwenden versucht, wäre ihm klargeworden, dass die Version mit dem Kringel nicht stimmen kann.

Warum erzähle ich diese – ziemlich alte – Geschichte? Weil in einem kürzlich durchgeführten Experiment die Software ChatGPT noch wesentlich schlechter aussieht als damals der Prüfling. Joachim Escher, Professor für Mathematik an der Universität Hannover, stellt ChatGPT ein paar einfache Fragen zur elementaren Zahlentheorie [1]. Nichts Tiefsinniges; es geht um Teilbarkeit und Primzahlen, was man so in der 7. Klasse lernt. ChatGPT gibt haarsträubende Antworten. Es behauptet, 2023 sei eine Primzahl (nein, 2023 = 7 . 172), macht dann auf die Bitte, 2023 durch 119 (= 7 . 17) zu teilen, elementare Rechenfehler mit dem Ergebnis, dass die Division nicht ohne Rest aufgeht, und beharrt auf diesem falschen Ergebnis. Wenig später behauptet es, 2023 sei gleich 43 . 47 (nein, es kommt 2021 heraus). „Merkwürdig, wenn die eine Zahl auf 3 und die andere auf 7 endet, mit welcher Ziffer endet dann das Produkt?“ fragt Escher, ganz der wohlwollende Prüfer. Und selbst dann kommt ChatGPT nicht auf die Idee, es könnte ein Rechenfehler vorliegen. Ein echter Mensch wäre bei dieser Prüfung glatt durchgefallen.

Sowohl ChatGPT als auch der unglückliche Prüfling hatten sich fleißig eine große Menge an Material reingezogen (ersteres nutzte beim Training reichlich 175 Milliarden Dokumente), aber eben nicht ernsthaft verarbeitet. Deswegen mussten sie beide scheitern. Der Mensch, weil er ohne diese Verarbeitung einen – sagen wir – Schreibfehler in der Quelle nicht erkennen und entsprechend nicht ausbessern konnte. Die künstliche Intelligenz, weil… das wissen wir nicht so genau. Vielleicht hat eine der Quellen tatsächlich einen falschen Rechenweg enthalten. Wahrscheinlicher ist es, dass ChatGPT, wie das so seine Art ist, an eine vorliegende Sequenz von Worten das statistisch plausibelste Wort angehängt hat, und das immer wieder. So konstruiert das Programm diese erstaunlich eloquenten Sätze. Aber diese statistische Methode hilft natürlich nicht gegen Rechenfehler.

Ich komme zu dem Schluss, dass diese künstliche Intelligenz eben doch ziemlich blöde ist, und lehne mich beruhigt zurück, da ich mich meiner überlegenen Intelligenz vergewissert habe.

Nur drei Monate später wird diese Gewissheit empfindlich gestört. In derselben Zeitschrift wie Joachim Escher, nur eine Ausgabe später, berichtet Christian Spannagel, Professor an der PH Heidelberg, dass ChatGPT auf klassische Aufgaben korrekte Antworten gibt, sogar auf mehrfaches Befragen hin verschiedene Wege zur Lösung derselben Aufgabe beschreitet und insgesamt die Leistungen eines guten Studierenden erbringt [2]. Von der Vorstellung, 2023 sei eine Primzahl, lässt es zwar nicht ab, und auch sonst gibt es immer wieder mal falsche Antworten. Aber auf eine Textaufgabe, die erst in eine mathematische Formulierung umzusetzen ist, liefert es, zwanzigmal gefragt, zwanzigmal die richtige Lösung, mit verschiedenen Lösungswegen und jedesmal etwas anders formuliert. Die neue Version GPT-4, wohlgemerkt; dem Vorgänger GPT-3.5 gelangen nur 13 von 20 Versuchen.

So wie es aussieht, hat diese künstliche Intelligenz in wenigen Monaten mächtig zugelernt. Zu allem Überfluss kann sie mittlerweile auf ein sehr mächtiges Rechengerät zurückgreifen: Die Firma Wolfram, welche die Universal-Mathematik-Software Mathematica entwickelt hat und vertreibt, hat einen „Adapterstecker“ zu ChatGPT programmiert, ein Programm, das eine Frage in natürlicher Sprache – vom menschlichen Nutzer oder von ChatGPT selbst formuliert – entgegennimmt, in den Formalismus von Mathematica umsetzt, an dieses weiterreicht und das Ergebnis der Berechnung, in natürliche Sprache umformuliert, zurückgibt. Um genau zu sein, es ist nicht Mathematica allein, sondern dessen Erweiterung Wolfram alpha, die außer den Rechenkapazitäten noch allerlei geografische und andere Daten bereithält.

Seit seiner Erstveröffentlichung im November 2022 hat ChatGPT nicht nur gewaltiges Aufsehen erregt, sondern auch an Fähigkeiten erheblich zugelegt. Wenn dieser steile Aufstieg so weitergeht: Ist die Software auf dem Weg zu einer echten Intelligenz?

Der renommierte und fachkundige Journalist Anil Ananthaswamy hat ChatGPT auf eine spezielle Intelligenzleistung getestet, die unter den Fachleuten als theory of mind diskutiert wird: Ist der Kandidat in der Lage, sich in die Gedankenwelt eines anderen hineinzuversetzen? Für kleine Kinder pflegt man dafür den „Sally-Anne-Test“ heranzuziehen. Sally legt eine Murmel in den linken von zwei Körben und verlässt dann den Raum. Währenddessen legt Anne, die im Raum geblieben ist, die Murmel vom linken in den rechten Korb. Sally kommt zurück. An dieser Stelle wird der Kandidat, der das alles beobachtet hat, gefragt: „In welchem Korb wird Sally die Murmel suchen?“

Sehr kleine Kinder pflegen zu antworten: „Im rechten“, da ist die Murmel ja schließlich. Erst wenn sie ungefähr drei bis vier Jahre alt sind, können sie erkennen, dass Sally den linken Korb wählen wird, weil sie Annes Verlegeaktion nicht mitbekommen hat. Erst dann haben sie sich eine theory of mind zugelegt – in diesem Fall von Sallys mind.

Der Sally-Anne-Test ist in der Literatur ausgiebig beschrieben worden. Zweifellos waren diese Beschreibungen auch unter den Milliarden Texten, die ChatGPT während seiner Trainingsphase verarbeitet hat. Auf eine Frage, die auch nur ungefähr die Geschichte vom Sally-Anne-Test erzählt, würde es ohne weiteres eine korrekte Antwort „aus dem Gedächtnis rekonstruieren“ können, wie der Kandidat, der zwar die Formel fürs Skalarprodukt richtig rezitieren kann, aber im Übrigen keine Ahnung davon hat. Das wäre also noch kein Beweis dafür, dass ChatGPT eine theory of mind hat.

Also legt Ananthaswamy seine Frage raffinierter an. Er erzählt nach wie vor die Sally-Anne-Geschichte, aber die Beteilgten heißen nicht Sally und Anne, sondern Alice und Bob, der Kontext ist völlig anders, und damit es noch ein bisschen schwerer ist, kommt die Aufgabe hinzu, aus der gewonnenen Erkenntnis eine Schlussfolgerung zu ziehen. In einem Vortrag, den Ananthaswamy am 5. Juli 2023 in der Mathematik-Informatik-Station (MAINS) in Heidelberg gehalten hat, führt er seine Frage an ChatGPT und dessen Antwort vor (ab Minute 7).

ChatGPT besteht den Test mit einer glatten Eins. Es zieht nicht nur die richtige Schlussfolgerung, sondern begründet auch, warum Alice (statt Sally) annimmt, ihre richtige Brille liege in der linken statt der rechten Schublade, und deswegen am nächsten Tag heftige Kopfschmerzen hat.

Hat ChatGPT also eine theory of mind? Schwer zu sagen, vor allem weil OpenAI, die Firma, die es entwickelt hat, wesentliche Einzelheiten für sich behält. Stephen Wolfram („Mathematica“) hat in einem sehr ausführlichen Überblick zusammengetragen, was man trotzdem weiß. Und eine theory of mind oder Ähnliches ist ChatGPT definitiv nicht explizit einprogrammiert worden. Noch ist sein Verhalten auch sehr instabil. In einem Artikel in „Science“ weiß Melanie Mitchell zu berichten, dass es gewisse amerikanische Standard-Prüfungsfragen korrekt beantwortet, aber an denselben Fragen, geringfügig anders formuliert, kläglich scheitert.

Aber nehmen wir an, dass die Software mit der nächsten Version noch erheblich an Stabilität zulegt und dann auch noch härtere Tests besteht. Wird dann die Grenze zwischen deren Fähigkeiten und echtem Verständnis verschwimmen? Und was ist eigentlich echtes Verständnis?

Für einen Mathematiker wie mich wird diese Frage besonders pikant, denn bei den Gegenständen der Mathematik weiß man typischerweise nicht – kann es nicht wissen –, was sie „eigentlich“ sind. Was man wissen – und in der Prüfung abfragen – kann, ist nur, wie man mit ihnen umgeht. Und das wiederum ist in Definitionen festgelegt, die man auswendig lernen kann.

Was also – sagen wir – ein Skalarprodukt ist, erschließt sich erst durch den Umgang mit diesem Begriff, das heißt durch den Sprachgebrauch. Und hier drehen die drei Philosophen Christoph Durt, Tom Froese und Thomas Fuchs den Spieß um: Allein im alltäglichen Gebrauch der Sprache ist so viel außersprachliche Bedeutung (meaning) enthalten, dass ein large language model (LLM) wie ChatGPT allein durch den Konsum großer Mengen geschriebener Sprache während der Trainingsphase genug meaning aufsaugt, um damit zumindest diverse Tests zu bestehen.

Das ganze Gebiet ist in heftiger Bewegung. Mit weiteren Überraschungen ist zu rechnen.

[1] Joachim Escher & ChatGPT: Mündliche Prüfung mit ChatGPT. Oder warum die Primzahl 2023 = 43 x 47 ist. Mitteilungen der Deutschen Mathematiker-Vereinigung 31 (2), S. 102–103, 2023

[2] Christian Spannagel: Hat ChatGPT eine Zukunft in der Mathematik? Mitteilungen der Deutschen Mathematiker-Vereinigung 31 (3), S. 168–172, 2023

The post Kann ChatGPT sich in die Gedanken anderer einfühlen? originally appeared on the HLFF SciLogs blog.