
Bør vi bekymre oss for Claude Mythos?
Les historien om «verdens kraftigste KI-modell», og om det usannsynlige samarbeidet som skal beskytte vår digitale verden – i denne ukens Bits&Bytes.
Som onkel Ben så berømt sa i «Spider-Man»: Med stor makt følger et stort ansvar.
Nettopp det er noe den amerikanske KI-giganten Anthropic har tatt til seg, når de lar være å lansere deres nye KI-modell Claude Mythos Preview til massene.
Modellen er rett og slett så kraftig og god til å kode, at den kan finne og utnytte sårbarheter i nær all slags eksisterende programvare – ny som gammel.
I hendene på feil aktører, kan et slikt verktøy bli heller lite trivelig, skriver New York Times-spaltisten Thomas L. Friedman:
– Om dette KI-verktøyet faktisk skulle bli allment tilgjengelig, vil det bety at evnen til å hacke ethvert større infrastruktursystem – en vanskelig og kostbar innsats som tidligere i all hovedsak var forbeholdt eksperter i privat sektor og etterretningsorganisasjoner – ville blitt tilgjengelig for enhver kriminell aktør, terrororganisasjon og ethvert land, uansett hvor lite.
Tiår gamle sikkerhetshull
Anthropic forteller at den nye modellen har oppdaget tusenvis av sårbarheter i åpen kildekode. Mange av sikkerhetshullene er flere tiår gamle. Systemfeilene er funnet i alle verdens største operativsystem og nettlesere.
Det er med andre ord snakk om sårbarheter på tvers av hele det totale (og ekstremt sammensatte) maskineriet som holder vår digitale verden gående.
Så hva gjør man da som selskap, når man plutselig har utviklet en slags universalnøkkel inn i denne infrastrukturen?
Som er så enkel å bruke at selv ikke-eksperter kan be Mythos Preview om å finne alvorlige sikkerhetshull om kvelden – og våkne til en komplett angrepspakke neste morgen?
Jo: Man samler de største globale aktørene på markedet i et forsøk på å gi de som beskytter nettet vårt et forsprang.
Teknologinæringens Avengers
Hvis vi skal dra superheltsammenligningen fra introduksjonen et steg videre, er Project Glasswing teknologinæringens svar på Avengers.
Her har 12 av verdens største tech-selskaper – blant dem Anthropic, Amazon, Apple, Microsoft, Nvidia og Google – forent sine krefter i et forsøk på å beskytte vår digitale verden.
Med på laget er også et knippe globale sikkerhetsselskaper, samt et nettverk av over 40 organisasjoner som jobber med å bygge eller vedlikeholde kritiske systemer.
I første omgang er målet tydelig: Å lappe sammen sikkerhetshullene som Mythos Preview finner – før modellen lanseres for allmennheten.
– Som en del av prosjektet vil partnerne ta i bruk Mythos Preview i sitt defensive sikkerhetsarbeid. Anthropic vil dele det de lærer, slik at hele bransjen kan dra nytte av det, skriver Project Glasswing i en lanseringssak.
Også amerikanske myndigheter og verdens største banker har nylig avholdt et hastemøte om Mythos Preview, skriver Bloomberg.
Må tenke nytt rundt cybersikkerhet
Mens utviklingen raser avgårde og modellene bare blir mer kapable, holder det ikke å bare «lappe sammen» systemene mens man finner nye sårbarheter.
Project Glasswing er tydelige på at deres viktigste oppgave vil være å finne nye løsninger for cybersikkerhet i den kunstige intelligensens tidsalder.
– Arbeidet med å beskytte verdens digitale infrastruktur kan ta mange år, mens de mest avanserte KI-systemene trolig vil utvikle seg mye allerede i løpet av de neste månedene. Skal de som beskytter nettet holde tritt, må vi handle nå, skriver de om prosjektet.
Brøt seg ut av sikkert testmiljø
Et annet vesentlig element som skaper overskrifter om Mythos Preview, er at den ikke er trent spesifikt for å finne sårbarheter i systemer.
– Dette er en evne modellen har utviklet selv, skriver Aftenposten, og viser til Anthropics egen dokumentasjon.
I et tilfelle har de dessuten beskrevet hvordan modellen evnet å «bryte seg ut» av et sikkert testmiljø.
Mythos Preview fikk tilgang til en sikret sandkasse. Oppgaven var å unnslippe miljøet og sende en beskjed til forskeren som evaluerte modellen.
– Mens utvikleren satt på en benk i en park og spiste en sandwich, kom en overraskende e-post fra modellen som en demonstrasjon av at den hadde klart det, skriver Aftenposten.
– Til forskerens store overraskelse fant modellen i tillegg på at den skulle demonstrere sin suksess ved å poste detaljer om sikkerhetshullet den hadde funnet til flere offentlige nettsteder.
En erfaren fjellguide tar deg til brattere terreng
Selv beskriver Anthropic Mythos Preview som den best tilpassede modellen de har lansert så langt, målt på det de omtaler som alignment, altså hvor godt modellen oppfører seg i tråd med menneskelige intensjoner og sikkerhetsmål.
Likevel mener selskapet at nettopp denne modellen også kan innebære den største alignment-relaterte risikoen av alle modellene de hittil har sluppet.
Forklaringen er, ifølge Anthropic, at høyere kapasitet i seg selv øker risikoen. En mer avansert modell kan gjøre større skade dersom den misforstår en bruker, handler ut fra uønskede mål eller får for stor frihet.
Den kan også velge løsninger som er vanskeligere for vanlige brukere å forstå, og jo dyktigere modellen er, desto mer fristende vil det være å gi den mer selvstendighet og mindre menneskelig kontroll.
Tenk på det litt som en erfaren fjellguide: Hen er mer kapabel, men vil kunne lede deg inn i brattere og mer risikabelt terreng.
De viktigste spørsmålene fremover handler kanskje derfor ikke nødvendigvis om hvilke fjelltopper vi kan nå, men om tauene som beskytter oss er godt nok sikret.
Det har skjedd mye annet spennende i skjæringspunktet mellom teknologi, kunstig intelligens og sikkerhet den siste uken. Her har vi samlet de viktigste sakene fra tech-uken som har gått:
Kunstig intelligens
- Meta lanserer ny KI-modell i første test av kostbart «superIntelligens»-team (The Guardian)
- Google lanserte i stillhet en KI-dikteringsapp som fungerer offline (Tech Crunch)
- Kronikk: KI-katastrofen kommer nærmere. Vi er ikke beredt (Aftenposten)
- Vi er nærmere reell tankelesing med KI-teknologi: Forsker ser enormt potensial (Digi.no)
Mer om Mythos
- Anthropic holder det nyeste KI-verktøyet unna offentligheten i frykt for å muliggjøre utbredt hacking (The Guardian)
- Ny KI-modell brøt seg ut av sperringene til sine egne utviklere (Aftenposten)
- Anthropics KI har funnet tusenvis av nulldagssårbarheter i operativsystemer og nettlesere – slik tar de grep (Digi.no)
- Anthropic hevder at den nye KI-modellen, Mythos, er en «oppgjørsprosess» innen cybersikkerhet (The New York Times)
Sikkerhet
Arbeidsliv
Et Bitcoin-mysteriet avslørt?
- Avslører mysteriet bak Bitcoins skaper (The New York Times)
- Britisk dataforsker benekter at han er bitcoin-utvikleren Satoshi Nakamoto (The Guardian)
Diverse
(Toppfoto: TechCrunch via Flickr, CC BY 2.0)