Die Weiterentwicklung von GPT 4 — (Mit Reflexion, HuggingGPT, Bard Upgrade und vielem mehr)

source

Chat­G­PT kann sich verbessern, indem es seine Fehler reflek­tiert und aus ihnen lernt, selb­st wenn die AI-Entwick­lung pausiert, wird GPT4 weit­er­hin klüger wer­den. Dabei zieht es aus dem beein­druck­enden Reflex­ion­spa­pi­er und drei weit­eren Veröf­fentlichun­gen der let­zten 72 Stun­den neue Erken­nt­nisse. In meinem Blog­beitrag werde ich nicht nur zeigen, wie GPT4 seine eige­nen Reko­rde bricht, son­dern auch, wie es AI-Forsch­ern hil­ft, bessere Mod­elle zu entwick­eln. Außer­dem werde ich das bahn­brechende Hug­ging-GPT-Mod­ell behan­deln, das wie ein zen­trales Gehirn auf Tausende andere AI-Mod­elle zugreifen kann, um Auf­gaben wie Text-Bild, Text-Video und Frage­beant­wor­tung zu kombinieren.

Das Reflex­ion­spa­pi­er und der zuge­hörige Sub­stack-Beitrag, die weltweit Aufmerk­samkeit erregten, wur­den erst vor ein­er Woche veröf­fentlicht. Ich habe sowohl das Papi­er als auch den führen­den Autor Noah Shin gele­sen und mit ihm über ihre Bedeu­tung aus­führlich disku­tiert. Auch andere haben auf die Ergeb­nisse reagiert, darunter der leg­endäre Andre Carpa­thy von Tes­la und Ope­nAI, der sagte, dass diese Metakog­ni­tion­sstrate­gie zeige, dass wir das volle Poten­zial von GPT4 noch nicht gese­hen haben.

Aber was genau wurde in der Studie her­aus­ge­fun­den? Die Über­schrift besagt, dass ich genau das erk­lären und demon­stri­eren werde, was getestet wurde. Schauen wir uns zunächst an, wie GPT4 selb­st einge­set­zt wurde, um ver­gan­gene Stan­dards von GPT4 zu übertr­e­f­fen, indem es die Reflex­ion­stech­nik nutzt. Dabei han­delt es sich nicht um irgen­deine zufäl­lige Her­aus­forderung, son­dern um einen vom AI-Forsch­ern ent­wor­fe­nen Codierung­stest namens “Human Eval”. Dieser Test beste­ht aus real­is­tis­chen handgeschriebe­nen Pro­gram­mier­auf­gaben, die Sprachver­ständ­nis, logis­ches Denken, Algo­rith­men und Math­e­matik bewerten.

Wie hat sich also GPT4 verbessert und seine eige­nen Aufze­ich­nun­gen übertrof­fen? Ein Beispiel aus der Reflex­ion­sstudie zeigt deut­lich, wie der Algo­rith­mus anhand von Fehlern seine Strate­gie verbessert. Die Autoren stellen fest, dass GPT-Mod­elle eine neu ent­standene Fähigkeit zur Selb­stre­flex­ion besitzen, die frühere Mod­elle nicht hat­ten oder zumin­d­est nicht in dem­sel­ben Maße. Es ist ein biss­chen so, als ob GPT-Mod­elle ler­nen, wie man lernt.

Ein weit­eres Exper­i­ment namens “Alf World” zeigt, dass die Fähigkeit zur Selb­stre­flex­ion nicht nur bei der Codierung, son­dern auch bei ein­er Vielzahl von Auf­gaben hil­fre­ich ist. Dabei geht es darum, Text und verkör­perte Wel­ten inter­ak­tiv aufeinan­der abzus­tim­men. Das Mod­ell musste beispiel­sweise eine Pfanne auf den Esstisch stellen und die Anweisung ver­ste­hen und ausführen.

Es gibt einige Insid­er, die darauf hin­weisen kön­nten, dass GPT4 in einem anderen Papi­er eine Bew­er­tung von 82 Prozent im “Human Eval” erre­icht hat. Allerd­ings betont der Autor des Reflex­ion­steils, dass es vor allem auf den rel­a­tiv­en Leis­tungs­gewinn ankommt. Unab­hängig von der Aus­gangs­ba­sis kann GPT4 sich mit Hil­fe der Reflex­ion verbessern. Die Zahl 88 ist also keine Ober­gren­ze, son­dern deutet nur darauf hin, dass in den let­zten Stun­den Ergeb­nisse von bis zu 91 Prozent erzielt wurden.

Nun möchte ich Ihnen einige Exper­i­mente zeigen, die ich gemacht habe und die ich auch mit dem Autor geteilt habe. Als Beispiel habe ich GPT4 aufge­fordert, ein Gedicht zu schreiben, bei dem jedes Wort mit “E” begin­nt. Das Ergeb­nis war recht gut, aber nicht per­fekt. Nach ein­er Rück­frage hat die AI fest­gestellt, dass das Gedicht nicht den Anforderun­gen entsprach und hat daraufhin ein über­ar­beit­etes Gedicht ver­fasst, bei dem tat­säch­lich jedes Wort mit “E” beginnt.

Mein näch­stes Exper­i­ment war math­e­ma­tis­ch­er Natur. Ich bat GPT4, mir ein Mul­ti­ple-Choice-Quiz mit fünf Fra­gen zur Wahrschein­lichkeit­slehre zu erstellen, bei dem es zu jed­er Frage nur eine richtige Antwort geben sollte. Das Mod­ell hat ein anständi­ges Quiz erstellt, aber bei ein­er Frage gab es ein Prob­lem mit zwei möglichen richti­gen Antworten. Nach­dem ich die Kün­stliche Intel­li­genz darauf hingewiesen hat­te, dass dies nicht den Anforderun­gen entsprach, kor­rigierte sie den Fehler und erstellte das Quiz entsprechend den Vorgaben.

Es ist erwäh­nenswert, dass das vorherige Mod­ell, GPT3.5, nicht in der Lage war, sich selb­st zu reflek­tieren. Die gener­ierten Gedichte enthiel­ten Wörter, die nicht mit “E” began­nen, und es fehlte die Fähigkeit zur Selbstreflexion.

Mit GPT4 sehen wir also eine Ver­schiebung des Eng­pass­es von der kor­rek­ten syn­tak­tis­chen und seman­tis­chen Gener­ierung zur kor­rek­ten syn­tak­tis­chen und seman­tis­chen Test­gener­ierung. GPT4 hat das Poten­zial, unsere Erwartun­gen zu übertr­e­f­fen und uns noch erstaunlichere Ergeb­nisse zu liefern. Dies ist nur ein klein­er Ein­blick in die Möglichkeit­en und den Fortschritt, den AI-Mod­elle wie GPT4 bieten. Es bleibt span­nend, was die Zukun­ft für die kün­stliche Intel­li­genz bereithält.

Schlagwörter: