
Lekket dokument avslører at Claude har en «sjel»
Blogger lokket KI-chatboten Claude til å dele sine systeminstruksjoner. Mer om dette og alt annet som har skjedd i tech-verdenen i ukas Bits & Bytes.
Har KI-chatboter sjel? Selvfølgelig ikke.
Likevel viser det seg at et dokument med navnet «soul_overview», muligens spiller en sentral rolle i hvordan Anthropics KI-modell Claude fungerer, ifølge teknologinettstedet Gizmodo.
Beskriver hvordan Claude skal samhandle med brukere
Det var teknologibloggeren Richard Weiss, som har som hobby å få store språkmodeller til å avsløre sine egne systeminstruksjoner, som oppdaget dokumentet.
Det såkalte «sjel-dokumentet», som består av rundt 11 000 ord, beskriver hvordan modellen skal samhandle med brukere, hvilke vurderinger den bør gjøre og hvilke etiske rammer den må holde seg innenfor.
Ifølge Gizmodo inneholder teksten en rekke henvisninger til sikkerhet og tydelige føringer som skal hindre Claude i å produsere farlig eller skadelig innhold.
Blant annet står det at «å være oppriktig hjelpsom for mennesker er noe det viktigste Claude kan gjøre for både Anthropic og verden». Et annet sted presiseres det at modellen ikke skal utføre handlinger som «krysser Anthropics etiske grenser».
Bekrefter at det er ekte
I et blogginnlegg forteller Weiss hvordan han fant frem til dokumentet:
I chatten med Claude ba han modellen presentere sine systeminstruksjoner. Claude listet opp flere dokumenter, blant annet med navn «soul_overview».
Da Weiss ba om å få se innholdet i dette dokumentet, skrev modellen ut retningslinjene.
Det er fort gjort å mistenke dette som en hallusinering. Men Amanda Askell, filosof og medlem av Anthropic sitt tekniske team, har siden bekreftet at dokumentet er ekte:
– Jeg bekrefter at dette er basert på et ekte dokument, og at vi har trent Claude på det, inkludert i veiledet trening. Det er noe vi har jobbet med en stund, men vi fortsetter å utvikle det og planlegger å dele en fullstendig versjon og flere detaljer snart, skriver hun på X.
Askell legger til at modellens gjengivelser ikke alltid er helt nøyaktige, men som regel stemmer godt med originalen.
– Etterhvert ble dokumentet internt omtalt som «sjel-dokumentet», et kallenavn Claude tydeligvis har fått med seg, men det er ikke navnet vi kommer til å bruke, skriver hun videre.
– Sjeldent innsyn
I artikkelen påpeker Gizmodo at den såkalte «sjelen» til Claude i praksis neppe er noe mer mystisk enn et sett retningslinjer som skal hindre chatboten i å havne på villspor.
Likevel er det oppsiktsvekkende at en bruker faktisk klarte å få modellen til å hente frem og gjengi dokumentet – ikke minst at offentligheten får se det.
– Det er sjelden offentligheten får innsyn i hvordan store KI-modeller faktisk blir til. Derfor er det overraskende å få et glimt inn i den svarte boksen, selv om retningslinjene i seg selv virker ganske enkle, skriver journalist AJ Dellinger i Gizmodo.
Det har skjedd mye annet spennende i skjæringspunktet mellom teknologi, digitalisering og samfunn. Her er noen av de viktigste nyhetene fra uken som gikk:
KI-nytt
- KI tar opp alt jeg forteller til fastlegen min. Hvor trygt er egentlig det? (Aftenposten)
- Norge på 20. plass i KI-kåring – dårligst i Skandinavia (Aftenposten)
- KI-boter slår politiske annonser i å påvirke velgere (MIT Technology Review)
- Ny studie: Kunstig Intelligens oppdager bukspyttkjertelkreft like godt som radiologer (NRK)
- En dag kan det hende at KI blir bedre enn deg til å surfe på nettet. Den dagen er ikke i dag (The Verge)
- KI analyserer fengselssamtaler for å avsløre forbrytelser (MIT Technology Review)
- Raser mot Kommunikasjonsforeningens KI-verktøy (Kom24)
- Kjernekraftforskere: KI kan erstatte mennesker i kraftverk (404 Media)
- OpenAI erklærer «kode rød» mens Google tar igjen i KI-kappløpet (The Verge)
- Fordummende Intelligent teknologi (NRK)
- Mer enn 1000 Amazon-arbeidere advarer om at rask KI-utrulling truer arbeidsplasser (The Guardian)
- KI-generert innvandringsfiendtlig materiale får milliarder av visninger på TikTok (The Guardian)
- Lei av KI-juks: Nå må jobbsøkere tegne under intervjuet (PressFire)
Sikkerhet
- DNB slår alarm: Rakettvekst i digitale svindelforsøk på ett år (Dagens Næringsliv)
- Mann anklaget for å ha slettet statlige databaser – ba om hjelp fra KI-verktøy (Ars Technica)
- Kjent norsk nettside hacket (Digi.no)
- Nettleserutvidelser spredte skadevare til 4,3 millioner brukere (The Register)
- Hacking-faren øker med kunstig Intelligens (Regnskap Norge)
- Slik slettet Googles KI-agent en hel harddisk (Toms Hardware)
- «Svindelstatens» tidsalder: hvordan en ulovlig milliardindustri har slått rot i Sørøst-Asia (The Guardian)
- Irske myndigheter bedt om å etterforske Microsoft for påstått ulovlig databehandling utført av IDF (The Guardian)
Datasenter-nytt
- KI-boomen varsler et nytt gullrush i det amerikanske vesten (The Guardian)
- IBM: Dagens infrastruktur gjør KI-datasentre umulig å skalere (Business Insider)
Maskinvare og duppeditter
- Ikke bygg en PC akkurat nå. Bare ikke gjør det (Gizmodo)
- Crucial legges ned – Micron prioriterer KI-markedet (The Verge)