Die Weiterentwicklung von GPT 4 – (Mit Reflexion, HuggingGPT, Bard Upgrade und vielem mehr)

Die Weiterentwicklung von GPT 4 – (Mit Reflexion, HuggingGPT, Bard Upgrade und vielem mehr)

source

ChatGPT kann sich ver­bes­sern, indem es sei­ne Feh­ler reflek­tiert und aus ihnen lernt, selbst wenn die AI-Ent­wick­lung pau­siert, wird GPT4 wei­ter­hin klü­ger wer­den. Dabei zieht es aus dem beein­dru­cken­den Refle­xi­ons­pa­pier und drei wei­te­ren Ver­öf­fent­li­chun­gen der letz­ten 72 Stun­den neue Erkennt­nis­se. In mei­nem Blog­bei­trag wer­de ich nicht nur zei­gen, wie GPT4 sei­ne eige­nen Rekor­de bricht, son­dern auch, wie es AI-For­schern hilft, bes­se­re Model­le zu ent­wi­ckeln. Außer­dem wer­de ich das bahn­bre­chen­de Hug­ging-GPT-Modell behan­deln, das wie ein zen­tra­les Gehirn auf Tau­sen­de ande­re AI-Model­le zugrei­fen kann, um Auf­ga­ben wie Text-Bild, Text-Video und Fra­ge­be­ant­wor­tung zu kom­bi­nie­ren.

Das Refle­xi­ons­pa­pier und der zuge­hö­ri­ge Sub­stack-Bei­trag, die welt­weit Auf­merk­sam­keit erreg­ten, wur­den erst vor einer Woche ver­öf­fent­licht. Ich habe sowohl das Papier als auch den füh­ren­den Autor Noah Shin gele­sen und mit ihm über ihre Bedeu­tung aus­führ­lich dis­ku­tiert. Auch ande­re haben auf die Ergeb­nis­se reagiert, dar­un­ter der legen­dä­re And­re Car­pa­thy von Tes­la und Ope­nAI, der sag­te, dass die­se Meta­ko­gni­ti­ons­stra­te­gie zei­ge, dass wir das vol­le Poten­zi­al von GPT4 noch nicht gese­hen haben.

Aber was genau wur­de in der Stu­die her­aus­ge­fun­den? Die Über­schrift besagt, dass ich genau das erklä­ren und demons­trie­ren wer­de, was getes­tet wur­de. Schau­en wir uns zunächst an, wie GPT4 selbst ein­ge­setzt wur­de, um ver­gan­ge­ne Stan­dards von GPT4 zu über­tref­fen, indem es die Refle­xi­ons­tech­nik nutzt. Dabei han­delt es sich nicht um irgend­ei­ne zufäl­li­ge Her­aus­for­de­rung, son­dern um einen vom AI-For­schern ent­wor­fe­nen Codie­rungs­test namens „Human Eval“. Die­ser Test besteht aus rea­lis­ti­schen hand­ge­schrie­be­nen Pro­gram­mier­auf­ga­ben, die Sprach­ver­ständ­nis, logi­sches Den­ken, Algo­rith­men und Mathe­ma­tik bewer­ten.

Wie hat sich also GPT4 ver­bes­sert und sei­ne eige­nen Auf­zeich­nun­gen über­trof­fen? Ein Bei­spiel aus der Refle­xi­ons­stu­die zeigt deut­lich, wie der Algo­rith­mus anhand von Feh­lern sei­ne Stra­te­gie ver­bes­sert. Die Autoren stel­len fest, dass GPT-Model­le eine neu ent­stan­de­ne Fähig­keit zur Selbst­re­fle­xi­on besit­zen, die frü­he­re Model­le nicht hat­ten oder zumin­dest nicht in dem­sel­ben Maße. Es ist ein biss­chen so, als ob GPT-Model­le ler­nen, wie man lernt.

Ein wei­te­res Expe­ri­ment namens „Alf World“ zeigt, dass die Fähig­keit zur Selbst­re­fle­xi­on nicht nur bei der Codie­rung, son­dern auch bei einer Viel­zahl von Auf­ga­ben hilf­reich ist. Dabei geht es dar­um, Text und ver­kör­per­te Wel­ten inter­ak­tiv auf­ein­an­der abzu­stim­men. Das Modell muss­te bei­spiels­wei­se eine Pfan­ne auf den Ess­tisch stel­len und die Anwei­sung ver­ste­hen und aus­füh­ren.

Es gibt eini­ge Insi­der, die dar­auf hin­wei­sen könn­ten, dass GPT4 in einem ande­ren Papier eine Bewer­tung von 82 Pro­zent im „Human Eval“ erreicht hat. Aller­dings betont der Autor des Refle­xi­ons­teils, dass es vor allem auf den rela­ti­ven Leis­tungs­ge­winn ankommt. Unab­hän­gig von der Aus­gangs­ba­sis kann GPT4 sich mit Hil­fe der Refle­xi­on ver­bes­sern. Die Zahl 88 ist also kei­ne Ober­gren­ze, son­dern deu­tet nur dar­auf hin, dass in den letz­ten Stun­den Ergeb­nis­se von bis zu 91 Pro­zent erzielt wur­den.

Nun möch­te ich Ihnen eini­ge Expe­ri­men­te zei­gen, die ich gemacht habe und die ich auch mit dem Autor geteilt habe. Als Bei­spiel habe ich GPT4 auf­ge­for­dert, ein Gedicht zu schrei­ben, bei dem jedes Wort mit „E“ beginnt. Das Ergeb­nis war recht gut, aber nicht per­fekt. Nach einer Rück­fra­ge hat die AI fest­ge­stellt, dass das Gedicht nicht den Anfor­de­run­gen ent­sprach und hat dar­auf­hin ein über­ar­bei­te­tes Gedicht ver­fasst, bei dem tat­säch­lich jedes Wort mit „E“ beginnt.

Mein nächs­tes Expe­ri­ment war mathe­ma­ti­scher Natur. Ich bat GPT4, mir ein Mul­ti­ple-Choice-Quiz mit fünf Fra­gen zur Wahr­schein­lich­keits­leh­re zu erstel­len, bei dem es zu jeder Fra­ge nur eine rich­ti­ge Ant­wort geben soll­te. Das Modell hat ein anstän­di­ges Quiz erstellt, aber bei einer Fra­ge gab es ein Pro­blem mit zwei mög­li­chen rich­ti­gen Ant­wor­ten. Nach­dem ich die Künst­li­che Intel­li­genz dar­auf hin­ge­wie­sen hat­te, dass dies nicht den Anfor­de­run­gen ent­sprach, kor­ri­gier­te sie den Feh­ler und erstell­te das Quiz ent­spre­chend den Vor­ga­ben.

Es ist erwäh­nens­wert, dass das vor­he­ri­ge Modell, GPT3.5, nicht in der Lage war, sich selbst zu reflek­tie­ren. Die gene­rier­ten Gedich­te ent­hiel­ten Wör­ter, die nicht mit „E“ began­nen, und es fehl­te die Fähig­keit zur Selbst­re­fle­xi­on.

Mit GPT4 sehen wir also eine Ver­schie­bung des Eng­pas­ses von der kor­rek­ten syn­tak­ti­schen und seman­ti­schen Gene­rie­rung zur kor­rek­ten syn­tak­ti­schen und seman­ti­schen Test­ge­ne­rie­rung. GPT4 hat das Poten­zi­al, unse­re Erwar­tun­gen zu über­tref­fen und uns noch erstaun­li­che­re Ergeb­nis­se zu lie­fern. Dies ist nur ein klei­ner Ein­blick in die Mög­lich­kei­ten und den Fort­schritt, den AI-Model­le wie GPT4 bie­ten. Es bleibt span­nend, was die Zukunft für die künst­li­che Intel­li­genz bereit­hält.

Schlagwörter: