OpenAI sin nye språkmodell kan «resonnere» ved hjelp av en indre monolog

Vi fikk modellen til å lage et dataspill fra bunnen av. Men Sam Altman og gjengen har ikke helt løst hallusinasjon. Les mer om ukens tech-nyheter i Bits&Bytes.

Bits & Bytes

fre. 13. sep. 2024

Siden sommeren har det versert rykter om at OpenAI har jobbet med en ny språkmodell, under kodenavnet Strawberry.

Dette skulle ikke bare være en ren oppdatering – men heller et ledd i å lukke gapet mellom hvordan mennesker tenker og hvordan maskiner «tenker».

Nå er modellen endelig lansert. Det fruktige navnet er forkastet til fordel for det noe mer Star Wars-aktige GPT o1.

Selv sier OpenAI at modellen er i stand til å «resonnere». Dette handler om at språkmodellen kan løse problemer ved å emulere en form for logikk, i stedet for å gjenkjenne mønstre og regne seg frem til statistisk sett gode svar.

– GPT o1 er trent ved å bruke helt nye optimaliseringsalgoritmer og egne, skreddersydde treningsdata, sier Jerry Tworek fra OpenAI til The Verge.

Den skal være bedre egnet for komplekse problemer innen for eksempel programmering og matematikk, men er ikke like god til å skrive eller svare på generelle spørsmål som tidligere varianter.

ChatGPT har begynt å prate med seg selv

Aftenposten skriver at modellen har en skjult, indre monolog med seg selv. OpenAI sier at modellen er «trent opp til å tenke gjennom problemene før den svarer».

Det innebærer at GPT o1 bruker lenger tid på å svare på en instruksjon. Den er også betraktelig mye dyrere i drift. For øyeblikket koster tilgangen til modellen gjennom et API fire ganger så mye som GPT-4.

For betalende brukere er den tilgjengelig som en begrenset preview. Målet er at den på sikt skal rulles ut til alle.

Lagde dataspill

Skribenten bak dagens Bits&Bytes har selv forsøkt å bruke modellen til å utvikle et enkelt dataspill.

Utgangspunktet i første prompt var som følger: «Lag et enkelt dataspill der helten er en skribent. Monstrene er distraherende e-poster. Målet er å unngå alle e-postene slik at man kommer i mål før deadline».

Resultatet var et helt okei spill – i hvert fall etter noen runder med klargjøring og oppdatering av koden. Det spesielt interessante her var hvordan GPT o1 evnet å feilsøke egen kode og gjøre korrigeringer underveis, i motsetning til tidligere modeller som ofte mistet tråden.

Slik rakk vi å «utvikle» og teste ut et helt egetdesignet spill – uten kodekunnskaper – og samtidig nå deadline til denne artikkelen. Det er da i hvert fall noe?

En illusjon av innfall og brainstorming

Modellen er designet for å delvis dele hvordan den indre monologen foregår (den publiserer ikke feil eller digresjoner, selv om det også visstnok er en del av resonneringen).

Dette skaper en slags illusjon av innfall, tankerekker og brainstorming – selv om dette ikke er tilfellet.

– Modellen hallusinerer mindre, men vi kan ikke si at vi har løst hallusinasjoner, sier Tworek.

En annen OpenAI-ansatt, Bob McGrew, sa dette om måten modellen «tenker på»:

– Den kan si noe som: «Åh, nå begynner jeg å få dårlig tid, la meg finne et raskt svar.» I starten av tankeprosessen kan det virke som om den tenker høyt, og si noe som: «Jeg kan gjøre dette eller det, men hva bør jeg gjøre?»

Dette er kanskje ikke KGI (kunstig generell intelligens), som noen spådde Strawberry skulle nærme seg. Men i det minste klarer modellen å identifisere hvor mange r’er som er i ordet Strawberry – som er bedre enn det GPT-4 klarte.

Ønsker du å lese mer om hva som har skjedd innen kunstig intelligens i det siste? Her er de viktigste sakene fra den siste uka.