Kan superintelligent KI holdes i sjakk av et «dummere» system?

Et av OpenAIs overordnede mål er å utvikle kunstig intelligens (KI) som er smartere enn mennesker. Men hvordan skal et slikt system tøyles? Les mer om det i ukens Bits & Bytes.

2023 har vært KIs år. Nye muligheter – og utfordringer – har kommet på løpende bånd, og stort sett hver uke har det vært noe nytt å snakke om. Det ville nesten vært en fallitterklæring til Språkrådet dersom «KI-generert» ikke hadde blitt kåret til årets ord. Og nå som AI Act endelig er vedtatt, ikke til udelt begeistring, er det mye vi skal komme tilbake til om hvordan dette vil påvirke deg og meg fremover.

På tampen av året er det interessant å spørre: Hvor vil denne utviklingen ta oss?

For mange – deriblant OpenAI – er «endgamet» å oppnå kunstig generell intelligens (KGI), altså KI som forstår, lærer og utfører handlinger på lik linje med mennesker. Noen mener at dette er umulig, men OpenAI-sjef Sam Altman har sagt at KGI er avgjørende for at menneskeheten skal overleve. Andre tror det betyr slutten på menneskeheten, og redselen for å gå for raskt frem med utviklingen av superintelligent KI var sannsynligvis kjernen i OpenAI-kaoset forrige måned.

Men i et scenario der det faktisk er mulig: Hvordan skal det kontrolleres? Og av hvem? Vel – OpenAI jobber med saken.

Kan GPT-2 overvåke GPT-4?

Her kommer vi inn på noe som kalles justering (eller «alignment» på engelsk). Det handler om å sikre at et KGI-system har menneskets beste i tankene, i stedet for å konkludere at vi er roten til alt ondt og at vi må utslettes … for eksempel.

Nettopp med hensyn til justering satte OpenAI i gang et «superalignment»-program tidligere i år, som skal finne løsninger for å kontrollere at superintelligent KI har mål på linje med våre egne. Ifølge IEEE Spectrum vies 20 prosent av selskapets datakraft til dette oppdraget, og de håper å få løsninger på plass innen 2027. 

Denne uken letter de for første gang på sløret i en preprint-artikkel som omtaler et forsøk på å tøyle et fremtidig problem om en fremtidig modell, som de naturlig nok verken kan lage eller har tilgang til.

Løsningen de undersøker er hvorvidt en svakere KI-modell kan overvåke og veilede en kraftigere modell. Her har superjustering-teamet gitt språkmodellen GPT-2 i oppgave å overvåke den langt smartere GPT-4. Førstnevnte har 1,5 milliarder parametere som bestemmer hvordan GPT-2 oppfører seg. GPT-4? Trolig rundt 1,76 billioner parametere, skriver IEEE Spectrum – men OpenAI har ikke sluppet noen offisielle tall. 

Forskerne kaller dette for svak-til-sterk-generalisering. Tanken er å vise at en kraftigere modell, som ikke er trent på spesifikke oppgaver, likevel kan utføre disse – basert på instruksjonene til en svakere, men opptrent modell.

Presterte bedre – med dårligere instruksjoner

GPT-paret fikk tre typer tester. GPT-2 ble trent spesifikt på disse oppgavene, men resultatene var ikke spesielt imponerende ettersom modellen ikke er spesielt kraftig. Deretter ble GPT-2s «erfaringer» delt med GPT-4, som ikke hadde finjustert trening for de spesifikke oppgavene. Ville den kraftigere KI-en prestere like dårlig som modellen den fikk «opplæring» av?

Nei. Faktisk presterte GPT-4 bedre enn GPT-2 over hele fjøla. Ifølge forskerne demonstrerer dette at GPT-4 klarte å utnytte kunnskapen om hvordan oppgavene skulle utføres til å prestere bedre enn GPT-2 – til tross for de dårlige instruksjonene den fikk.

I en tenkt virkelighet kan dette arte seg slik at hvis vi mennesker ber en KI om å gjennomføre en oppgave, er det ikke sikkert vi forstår utførelsen – KI-en kan ha en fremgangsmåte som er svært annerledes fra hvordan vi ville gjort det. Dermed kan det være vanskelig å se om KI-en gjør det vi ber den om – og om den gjør noe som kan være farlig.

Slik svak-til-sterk-generalisering gir oss, ifølge OpenAI-forskerne, muligheten til å gi tilleggsinstrukser som at KI-en ikke må forårsake katastrofal skade. KI-en vil da vite hva dette innebærer og oppdage om det den driver med potensielt er farlig.

– Trenger mange år med dedikert innsats

Riktignok er dette ekstremt abstrakt – slike systemer er tross alt ikke oppnåelige ennå. Likevel er mener mange at det superjustering-gruppen driver med er svært viktig: 

– Det er flott å se at OpenAI er proaktive rundt problemstillingen om å kontrollere supermenneskelige KI-er. Vi trenger mange år med dedikert innsats for å imøtekomme denne utfordringen, sier Dan Hendryks, sjef for Center for AI Safety til Wired.

– Det er en interessant idé, men jeg tror GPT-2 er for dum til å være en god lærer, sier KI-forsker Thilo Hagendorff ved Universitet i Stuttgart til MIT Technology Review, som heller skulle sett at de brukte GPT-3 som læremester.

– Men jeg applauderer OpenAI for å eksperimentere fremfor å spekulere.

Og hvem vet? Kanskje blir «superjustering» årets ord i 2024?

Her er litt annet KI-nytt fra den siste uken:

Norge og Danmark støtter Sverige mot Tesla:

Og Jeff Bezos er klar for romkamp:

Slik er reklamefrie Facebook:

Pluss litt mer Meta-nytt.

Google tapte mot Fortnite-skaperne:

NSM bruker fortsatt «misvisende» og «utilstrekkelig» rammeverk:

Hørt om «quishing»? QR-svindel tar av i USA:

David Toska erstatter kriminalitet med koding:

Nå kan du reparere iPhonen din selv:

Googlet du hvordan du blir rik på et år i 2023?: