ChatGPT kann sich verbessern, indem es seine Fehler reflektiert und aus ihnen lernt, selbst wenn die AI-Entwicklung pausiert, wird GPT4 weiterhin klüger werden. Dabei zieht es aus dem beeindruckenden Reflexionspapier und drei weiteren Veröffentlichungen der letzten 72 Stunden neue Erkenntnisse. In meinem Blogbeitrag werde ich nicht nur zeigen, wie GPT4 seine eigenen Rekorde bricht, sondern auch, wie es AI-Forschern hilft, bessere Modelle zu entwickeln. Außerdem werde ich das bahnbrechende Hugging-GPT-Modell behandeln, das wie ein zentrales Gehirn auf Tausende andere AI-Modelle zugreifen kann, um Aufgaben wie Text-Bild, Text-Video und Fragebeantwortung zu kombinieren.
Das Reflexionspapier und der zugehörige Substack-Beitrag, die weltweit Aufmerksamkeit erregten, wurden erst vor einer Woche veröffentlicht. Ich habe sowohl das Papier als auch den führenden Autor Noah Shin gelesen und mit ihm über ihre Bedeutung ausführlich diskutiert. Auch andere haben auf die Ergebnisse reagiert, darunter der legendäre Andre Carpathy von Tesla und OpenAI, der sagte, dass diese Metakognitionsstrategie zeige, dass wir das volle Potenzial von GPT4 noch nicht gesehen haben.
Aber was genau wurde in der Studie herausgefunden? Die Überschrift besagt, dass ich genau das erklären und demonstrieren werde, was getestet wurde. Schauen wir uns zunächst an, wie GPT4 selbst eingesetzt wurde, um vergangene Standards von GPT4 zu übertreffen, indem es die Reflexionstechnik nutzt. Dabei handelt es sich nicht um irgendeine zufällige Herausforderung, sondern um einen vom AI-Forschern entworfenen Codierungstest namens “Human Eval”. Dieser Test besteht aus realistischen handgeschriebenen Programmieraufgaben, die Sprachverständnis, logisches Denken, Algorithmen und Mathematik bewerten.
Wie hat sich also GPT4 verbessert und seine eigenen Aufzeichnungen übertroffen? Ein Beispiel aus der Reflexionsstudie zeigt deutlich, wie der Algorithmus anhand von Fehlern seine Strategie verbessert. Die Autoren stellen fest, dass GPT-Modelle eine neu entstandene Fähigkeit zur Selbstreflexion besitzen, die frühere Modelle nicht hatten oder zumindest nicht in demselben Maße. Es ist ein bisschen so, als ob GPT-Modelle lernen, wie man lernt.
Ein weiteres Experiment namens “Alf World” zeigt, dass die Fähigkeit zur Selbstreflexion nicht nur bei der Codierung, sondern auch bei einer Vielzahl von Aufgaben hilfreich ist. Dabei geht es darum, Text und verkörperte Welten interaktiv aufeinander abzustimmen. Das Modell musste beispielsweise eine Pfanne auf den Esstisch stellen und die Anweisung verstehen und ausführen.
Es gibt einige Insider, die darauf hinweisen könnten, dass GPT4 in einem anderen Papier eine Bewertung von 82 Prozent im “Human Eval” erreicht hat. Allerdings betont der Autor des Reflexionsteils, dass es vor allem auf den relativen Leistungsgewinn ankommt. Unabhängig von der Ausgangsbasis kann GPT4 sich mit Hilfe der Reflexion verbessern. Die Zahl 88 ist also keine Obergrenze, sondern deutet nur darauf hin, dass in den letzten Stunden Ergebnisse von bis zu 91 Prozent erzielt wurden.
Nun möchte ich Ihnen einige Experimente zeigen, die ich gemacht habe und die ich auch mit dem Autor geteilt habe. Als Beispiel habe ich GPT4 aufgefordert, ein Gedicht zu schreiben, bei dem jedes Wort mit “E” beginnt. Das Ergebnis war recht gut, aber nicht perfekt. Nach einer Rückfrage hat die AI festgestellt, dass das Gedicht nicht den Anforderungen entsprach und hat daraufhin ein überarbeitetes Gedicht verfasst, bei dem tatsächlich jedes Wort mit “E” beginnt.
Mein nächstes Experiment war mathematischer Natur. Ich bat GPT4, mir ein Multiple-Choice-Quiz mit fünf Fragen zur Wahrscheinlichkeitslehre zu erstellen, bei dem es zu jeder Frage nur eine richtige Antwort geben sollte. Das Modell hat ein anständiges Quiz erstellt, aber bei einer Frage gab es ein Problem mit zwei möglichen richtigen Antworten. Nachdem ich die Künstliche Intelligenz darauf hingewiesen hatte, dass dies nicht den Anforderungen entsprach, korrigierte sie den Fehler und erstellte das Quiz entsprechend den Vorgaben.
Es ist erwähnenswert, dass das vorherige Modell, GPT3.5, nicht in der Lage war, sich selbst zu reflektieren. Die generierten Gedichte enthielten Wörter, die nicht mit “E” begannen, und es fehlte die Fähigkeit zur Selbstreflexion.
Mit GPT4 sehen wir also eine Verschiebung des Engpasses von der korrekten syntaktischen und semantischen Generierung zur korrekten syntaktischen und semantischen Testgenerierung. GPT4 hat das Potenzial, unsere Erwartungen zu übertreffen und uns noch erstaunlichere Ergebnisse zu liefern. Dies ist nur ein kleiner Einblick in die Möglichkeiten und den Fortschritt, den AI-Modelle wie GPT4 bieten. Es bleibt spannend, was die Zukunft für die künstliche Intelligenz bereithält.