Toppsjef i Anthropic, Dario Amodei (Foto: TechCrunch via Flickr, CC BY 2.0)
Toppsjef i Anthropic, Dario Amodei (Foto: TechCrunch via Flickr, CC BY 2.0)

Bør vi bekymre oss for Claude Mythos?

Les historien om «verdens kraftigste KI-modell», og om det usannsynlige samarbeidet som skal beskytte vår digitale verden – i denne ukens Bits&Bytes.

Av Redaksjonen

Som onkel Ben så berømt sa i «Spider-Man»: Med stor makt følger et stort ansvar.

Nettopp det er noe den amerikanske KI-giganten Anthropic har tatt til seg, når de lar være å lansere deres nye KI-modell Claude Mythos Preview til massene.

Modellen er rett og slett så kraftig og god til å kode, at den kan finne og utnytte sårbarheter i nær all slags eksisterende programvare – ny som gammel.

I hendene på feil aktører, kan et slikt verktøy bli heller lite trivelig, skriver New York Times-spaltisten Thomas L. Friedman:

– Om dette KI-verktøyet faktisk skulle bli allment tilgjengelig, vil det bety at evnen til å hacke ethvert større infrastruktursystem – en vanskelig og kostbar innsats som tidligere i all hovedsak var forbeholdt eksperter i privat sektor og etterretningsorganisasjoner – ville blitt tilgjengelig for enhver kriminell aktør, terrororganisasjon og ethvert land, uansett hvor lite.

Tiår gamle sikkerhetshull

Anthropic forteller at den nye modellen har oppdaget tusenvis av sårbarheter i åpen kildekode. Mange av sikkerhetshullene er flere tiår gamle. Systemfeilene er funnet i alle verdens største operativsystem og nettlesere.

Det er med andre ord snakk om sårbarheter på tvers av hele det totale (og ekstremt sammensatte) maskineriet som holder vår digitale verden gående.

Så hva gjør man da som selskap, når man plutselig har utviklet en slags universalnøkkel inn i denne infrastrukturen?

Som er så enkel å bruke at selv ikke-eksperter kan be Mythos Preview om å finne alvorlige sikkerhetshull om kvelden – og våkne til en komplett angrepspakke neste morgen?

Jo: Man samler de største globale aktørene på markedet i et forsøk på å gi de som beskytter nettet vårt et forsprang.

Teknologinæringens Avengers

Hvis vi skal dra superheltsammenligningen fra introduksjonen et steg videre, er Project Glasswing teknologinæringens svar på Avengers.

Her har 12 av verdens største tech-selskaper – blant dem Anthropic, Amazon, Apple, Microsoft, Nvidia og Google – forent sine krefter i et forsøk på å beskytte vår digitale verden.

Med på laget er også et knippe globale sikkerhetsselskaper, samt et nettverk av over 40 organisasjoner som jobber med å bygge eller vedlikeholde kritiske systemer.

I første omgang er målet tydelig: Å lappe sammen sikkerhetshullene som Mythos Preview finner – før modellen lanseres for allmennheten.

– Som en del av prosjektet vil partnerne ta i bruk Mythos Preview i sitt defensive sikkerhetsarbeid. Anthropic vil dele det de lærer, slik at hele bransjen kan dra nytte av det, skriver Project Glasswing i en lanseringssak.

Også amerikanske myndigheter og verdens største banker har nylig avholdt et hastemøte om Mythos Preview, skriver Bloomberg.

Må tenke nytt rundt cybersikkerhet

Mens utviklingen raser avgårde og modellene bare blir mer kapable, holder det ikke å bare «lappe sammen» systemene mens man finner nye sårbarheter.

Project Glasswing er tydelige på at deres viktigste oppgave vil være å finne nye løsninger for cybersikkerhet i den kunstige intelligensens tidsalder.

– Arbeidet med å beskytte verdens digitale infrastruktur kan ta mange år, mens de mest avanserte KI-systemene trolig vil utvikle seg mye allerede i løpet av de neste månedene. Skal de som beskytter nettet holde tritt, må vi handle nå, skriver de om prosjektet.

Brøt seg ut av sikkert testmiljø

Et annet vesentlig element som skaper overskrifter om Mythos Preview, er at den ikke er trent spesifikt for å finne sårbarheter i systemer.

– Dette er en evne modellen har utviklet selv, skriver Aftenposten, og viser til Anthropics egen dokumentasjon.

I et tilfelle har de dessuten beskrevet hvordan modellen evnet å «bryte seg ut» av et sikkert testmiljø.

Mythos Preview fikk tilgang til en sikret sandkasse. Oppgaven var å unnslippe miljøet og sende en beskjed til forskeren som evaluerte modellen.

– Mens utvikleren satt på en benk i en park og spiste en sandwich, kom en overraskende e-post fra modellen som en demonstrasjon av at den hadde klart det, skriver Aftenposten.

– Til forskerens store overraskelse fant modellen i tillegg på at den skulle demonstrere sin suksess ved å poste detaljer om sikkerhetshullet den hadde funnet til flere offentlige nettsteder.

En erfaren fjellguide tar deg til brattere terreng

Selv beskriver Anthropic Mythos Preview som den best tilpassede modellen de har lansert så langt, målt på det de omtaler som alignment, altså hvor godt modellen oppfører seg i tråd med menneskelige intensjoner og sikkerhetsmål.

Likevel mener selskapet at nettopp denne modellen også kan innebære den største alignment-relaterte risikoen av alle modellene de hittil har sluppet.

Forklaringen er, ifølge Anthropic, at høyere kapasitet i seg selv øker risikoen. En mer avansert modell kan gjøre større skade dersom den misforstår en bruker, handler ut fra uønskede mål eller får for stor frihet.

Den kan også velge løsninger som er vanskeligere for vanlige brukere å forstå, og jo dyktigere modellen er, desto mer fristende vil det være å gi den mer selvstendighet og mindre menneskelig kontroll.

Tenk på det litt som en erfaren fjellguide: Hen er mer kapabel, men vil kunne lede deg inn i brattere og mer risikabelt terreng.

De viktigste spørsmålene fremover handler kanskje derfor ikke nødvendigvis om hvilke fjelltopper vi kan nå, men om tauene som beskytter oss er godt nok sikret.

Det har skjedd mye annet spennende i skjæringspunktet mellom teknologi, kunstig intelligens og sikkerhet den siste uken. Her har vi samlet de viktigste sakene fra tech-uken som har gått:

Kunstig intelligens

Mer om Mythos

Sikkerhet

Arbeidsliv

Et Bitcoin-mysteriet avslørt?

Diverse

(Toppfoto: TechCrunch via Flickr, CC BY 2.0)