Das Aufkommen von Wikipedia vs. Chatbot-Hype

Könnt ihr euch noch daran erinnern, als sie Angst vor Fehlern in der hatten? Heute bauen Uni-Bibliotheken -#Chatbots in ihre Webseiten ein.

Als die Wikipedia in den 2000ern im Mainstream ankam, gab es – insbesondere im akademischen Umfeld – viele Warnungen vor ihrer Nutzung. Diese bezogen sich vor allem auf die Tatsache, dass jede Person Artikel der Wikipedia anpassen kann. Böswilligen Personen wäre es somit möglich, Falschinformationen in die Wikipedia einzuschleusen. Tatsächlich gab es Vorfälle dieser Art. Sobald derartiges entdeckt wird, werden die entsprechenden Artikel allerdings in der Regel schnell korrigiert (der Vollständigkeit halber sei angemerkt, dass es seit einigen Jahren in der deutschen Wikipedia zusätzlich einen Sichtungsprozess gibt, bei dem Änderungen von Neulingen erst von einer erfahrenen Person freigegeben werden müssen). Vermutlich sind die allermeisten Personen nie mit schwerwiegenden Fehlern in der Wikipedia in Kontakt gekommen. Auch wenn die Wikipedia nicht perfekt ist, funktioniert das System im Großen und Ganzen sehr gut.

In den letzten Jahren sind -Chatbots im Mainstream angekommen. Diese basieren auf Large Language Models (LLM), einer Technologie, die Texte generiert. Diese Texte sind in der Regel grammatikalisch fehlerfrei. Inhaltlich trifft dies allerdings nicht immer zu. Im Gegensatz zur Wikipedia, bei der man selten auf einen schweren Fehler stößt, hat vermutlich fast jede Person schon einmal eine falsche Antwort von einem erhalten. Auch vor Chatbots wird – auch im akademischen Umfeld – gewarnt. Allerdings scheint es bei der Nutzung von Chatbots wenig Zurückhaltung zu geben. Sie werden beispielsweise von Uni-Bibliotheken aktiv verbreitet, indem Chatbots auf den jeweiligen Webseiten integriert werden.

Die Zeiten ändern sich… Scheinbar hat man heute an Uni-Bibliotheken wenig Probleme mit dem Einsatz einer Technologie, die unstrittig die eine oder andere ausspuckt, während man früher vor einer Enzyklopädie gewarnt hat, die theoretisch Fehler enthalten könnte.

Unterschiedliche LLMs mit nur einem einzigen Befehl lokal starten

hat die Möglichkeit geschaffen, mit einem einzigen Befehl Lage Langauge Models auf dem eigenen Computer auszuführen (sofern der Computer entsprechend ausgestattet ist). Es muss lediglich eine einzige Datei heruntergeladen und ausgeführt werden. Die Modelle sollten auf verschiedenen Betriebssystemen sowie CPU- und GPU-Architekturen laufen (ich habe es unter auf einer Intel-CPU ausprobiert). Es stehen mehrere Modelle zum Download bereit:

https://github.com/Mozilla-Ocho/llamafile

Unter Linux (und anderen Unix-Betriebssystemen) muss der Datei vor dem Start das Ausführungsrecht erteilt werden. Unter Windows gibt es wohl Einschränkungen bei Modellen, die größer als 4 GB sind.

Danke Mozilla!

LLMs: Chain-of-thought prompting

Man konnte zeigen, dass man von Large Language Models (wie ) bei einigen Fragestellungen häufiger richtige Antworten erhält, wenn man der Frage beispielsweise das Zusatzkommando „Let’s think step by step“ hinzufügt. Das Modell generiert dann ggf. eine Wortfolge, die wie eine schrittweise Herleitung des Ergebnisses aussieht. M. E. ist daran interessant, dass solche Modelle, obwohl sie keinerlei Verständnis von Frage und Antwort haben, auf diese Weise bessere Antworten generieren.

Ein entsprechendes Paper findet sich hier: https://openreview.net/pdf?id=e2TBb5y0yFf

Im Paper wird folgendes Beispiel genannt:

„Q: A juggler can juggle 16 balls. Half of the balls are golf balls, and half of the golf balls are blue. How many blue golf balls are there?
A: Let’s think step by step.

(Output) There are 16 balls in total. Half of the balls are golf balls. That means that there are 8 golf balls. Half of the golf balls are blue. That means that there are 4 blue golf balls.“

Ohne die Zusatzanweisung „Let’s think step by step“ hätte das Modell, das im Beispiel verwendet wurde, eine falsche Antwort gegeben: Es hätte „8“ geantwortet.

Gerade weil das Modell kein Verständnis davon hat, welche Wortfolgen erzeugt werden, muss man dabei im Auge behalten, dass auch diese Methode nicht zu fehlerfreien Antworten führt. Bei vielen Antworten wird es sich weiterhin um „Halluzinationen“ handeln.

„Like previous GPT models, the GPT-4 base model was trained to predict the next word in a document“

Was bedeutet das nach meinem Verständnis:

Bei ist es so, dass es sich den bestehenden Text „anschaut“ und dann, anhand von dem, was da bereits steht, das nächste Wort errechnet (immer nur ein Wort). Bei der Berechnung werden die wahrscheinlichsten Kandidaten für das nächste Wort ermittelt. Dann schreibt GPT einen der Kandidaten hin* und fängt erneut an. Text „lesen“, nächstes Wort ausrechnen. Text „lesen“, nächstes Wort ausrechnen. Usw. usf.

(Wobei intern keine Worte sondern nur Zahlen verwendet werden.)

Wenn ein Mensch etwas sinnvolles schreibt, hat er / sie vermutlich schon vorher eine gewisse Vorstellung von dem, was er / sie schreiben will.

Wenn ein Mensch schreibt „Delphine sind Säugetiere, weil sie lebende Nachkommen auf die Welt bringen und Milch geben.“, dann hat er / sie sich evtl. aus den Tatsachen hinter dem „weil“ die vorhergehende Aussage „Säugetier“ hergeleitet.

Bei GPT kann das nicht passieren. GPT schreibt das Wort „weil“ einfach nur, weil der Algorithmus dies (basierend auf den Wörtern, die bereits vorhanden sind) errechnet hat.

Die Wahrscheinlichkeiten werden beim „Training“ des Modells ermittelt. Das Modell wird mit Unmengen an Text gefüttert und leitet sich daraus die Wahrscheinlichkeiten ab.

* Es hat sich gezeigt, dass die Texte „besser“ und interessanter werden, wenn nicht immer das wahrscheinlichste Wort verwendet wird. Eigentlich handelt es sich auch nicht unbedingt um Wörter sondern um sogenannte Token. Dabei kann es sich u. a. um Worte, Teilworte oder einzelne Buchstaben handeln.