Wie funktioniert ChatGPT?
Eine kommentierte Zusammenfassung des großartigen, aber relativ langen Artikels: What Is ChatGPT Doing … and Why Does It Work? von Stephen Wolfram
Intro
Der referenzierte Original-Artikel ist hier zu finden: https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/
ChatGPT ist ein fortschrittliches Sprachmodell von OpenAI, das menschenähnlichen Text generieren kann. Es wurde auf einem großen Textkorpus trainiert und kann verschiedene Aufgaben ausführen, von der Beantwortung von Fragen bis hin zur Generierung von kreativem Inhalt. Es basiert auf einem Modell namens “Generative Pre-trained Transformer”, das sinnvolle Antworten auf Eingabetexte generiert.
Das Grundkonzept
ChatGPT versucht immer, eine “vernünftige Fortsetzung” des bisherigen Textes zu produzieren. Dazu durchsucht es Milliarden von Seiten menschlich geschriebenen Textes nach dem gegebenen Text und berechnet die Wahrscheinlichkeiten der möglichen nächsten Wörter. ChatGPT verwendet jedoch nicht den wörtlichen Text; es sucht nach Dingen, die in der Bedeutung ähnlich sind. Das Ergebnis ist eine Rangliste von Wörtern mit Wahrscheinlichkeiten. Das Erstaunliche ist, dass ChatGPT bei der Erstellung eines Aufsatzes immer wieder fragt: “Angesichts des bisherigen Textes, welches sollte das nächste Wort sein?” - und jedes Mal ein Wort hinzufügt. Genauer gesagt fügt es ein “Token” hinzu, das ein Teil eines Wortes sein könnte (weshalb es manchmal “neue Wörter erfinden” kann).
Neuronale Netzwerke
ChatGPT verwendet ein neuronales Netzwerk, um menschenähnlichen Text zu generieren. Neuronale Netze sind eine Art von künstlicher Intelligenz, die auf der Struktur des menschlichen Gehirns basiert. Sie bestehen aus Schichten von Neuronen, die miteinander verbunden sind und Signale weiterleiten. Sie lernen aus Beispielen und passen ihre Verbindungen an.
Das nächste Wort im Fokus
Bei jedem Schritt erhält ChatGPT eine Liste von Wörtern mit Wahrscheinlichkeiten. Aber welches sollte es tatsächlich auswählen, um dem Aufsatz hinzuzufügen? Man könnte denken, es sollte das “höchstplatzierte” Wort sein (d.h. dasjenige, dem die höchste “Wahrscheinlichkeit” zugewiesen wurde). Aber das führt oft zu einem sehr “flachen” Aufsatz, der nie “irgendeine Kreativität zeigt” (und manchmal sogar wortwörtlich wiederholt). Aber wenn wir manchmal (zufällig) niedriger platzierte Wörter wählen, bekommen wir einen “interessanteren” Aufsatz.
Die Tatsache, dass hier Zufälligkeit im Spiel ist, bedeutet, dass wir bei Verwendung desselben Aufforderungstextes mehrmals wahrscheinlich jedes Mal unterschiedliche Aufsätze erhalten werden. Und zum Beispiel ist für die Aufsatzerstellung ein sogenannter “Temperatur”-Parameter am besten geeignet: 0.8. Es gibt keine “Theorie” hinter diesem Parameter; es ist nur eine Frage dessen, was sich in der Praxis bewährt hat. Und das Konzept der “Temperatur” kommt aus der statistischen Physik - aber es gibt keine “physikalische” Verbindung - zumindest soweit wir wissen.
Fazit
ChatGPT zeigt auf bemerkenswerte Weise die Fähigkeit von Sprachmodellen auf neuronalen Netzen zur Generierung menschenähnlichen Textes und bietet Einblicke in die Struktur und Einfachheit menschlicher Sprache.