Zitat:
Zitat von qbz
00:16:33 - Wie funktioniert GPT-3?
|
Ich hab mir dieses Kapitel angehört. Für Nichtinformatiker sicher ok. Warum nicht. Danke für den Link.
Wenn man ihr aber so zuhört, fragt man sich als Informatiker, an der einen oder anderen Stelle schon, ob da wirkliches Verständnis da ist, oder ob ihr Text von ChatGPT generiert wurde

Ich weiß, dass war jetzt böse und ich will der Dame auch nicht unrecht tun.
Sie schreibt dem Modell jedoch in dem kurzen Schnippsel den ich gesehen habe, Fähigkeiten zu, die so nicht richtig sind. Wenn man nochmal gemein sein will, könnte man auch sagen, da fehlen Grundlagen. Besonders aufgestoßen sind mir Behauptung wie z.B. das Modell könne Berechnungen durchführen. Schieben wir das mal auf eine flapsige Ausdrucksweise einer Nichtinformatikerin.
Ich will erklären wo das Problem liegt.
Ein wesentlicher Unterschied eines statistischen Sprachmodells zu einem wissensbasierten Sprachmodell oder gar zu einem Wissensmodell ist, dass außer Wahrscheinlichkeiten von Wortfolgen keinerlei a-priori Kenntnisse über Sprache vorliegen. Weder über Grammatik, noch über Semantik und schon gar nicht über (wenn man bei einer klassischen Definition von Wissen bleibt) Begründungen für das, was das Modell uns als Wahrheit anbietet.
ChatGPT ist ein Computerprogramm, dessen Entwickler Sprache als einen zufälligen Strom von Worten begreifen. Das is ein extrem simplifizierendes Modell - ein Linguistiker würde sich wohl den Strick nehmen

Die Funktion des Programms ist es, nach einer Starteingabe weitere Wörter auszugeben, deren Reihenfolge möglichst nahe an dem ist, was durch Trainingsdaten als „erfolgreiches Ergebnis“ definiert ist. Die Qualität des generierten Tokenstreams (i.W.S. Folge von Worten) verbessert sich durch Feedback und „Selbstjustierung“. Ein „erfolgreiches Ergebnis“ ist eine Folge von Worten, die auch ein Mensch erzeugt haben könnte. Der Mensch erzeugt solche Texte üblicherweise durch inhaltliches Verständnis, Interpretation des Sprechaktes des Gegenübers, Basiswissen usw. usw.
Hier bewegt sich selbst natürliche Dummheit auf einem deutlich anderen Niveau wie künstliche Intelligenz auf Basis eines statistischen Sprachmodells.
Wenn wir also als Starteingabe die Wörter (Anm.: der Länge 1) „3“, „+“, „4“ und „=„ eingeben, findet das Programm, dass das Wort „7“ die höchste Wahrscheinlichkeit für eine erfolgreiche Fortsetzung des Eingabewortstrom is. Das is alles. Hier ist keinerlei Semantik, Wissen, Argumentation o.ä. im Spiel. Nichts.
Es wird weder erkannt, dass es sich um eine mathematische Aufgabe handelt, das 3 und 4 Summanden sind, dass + ein binärer Operator ist, noch dass 7 die Lösung der Aufgabe z.B. in N ist und schon gar nicht wird irgendwas im mathematischen Sinne berechnet. Das Modell hat auch keinerlei Ahnung davon, ob diese Addition nun z.B. vielleicht in einem Restklassenring modulo 5 (oder sonstwas - egal) stattfindet oder in N usw. usw.
Das wir Menschen dem vorgelegten Ergebniswortstrom eine inhaltliche Bedeutung geben ist keine Leistung des Sprachmodells, sondern unseres menschlichen Verstandes.
Diese genaue Unterscheidung dessen, was das Modell tatsächlich tut, ist m.E. wichtig, wenn man über das Potential dieser Art von Sprachmodellen debattiert.
Sapere aude!
