Foto: Anthropic
Foto: Anthropic

Lekket dokument avslører at Claude har en «sjel»

Blogger lokket KI-chatboten Claude til å dele sine systeminstruksjoner. Mer om dette og alt annet som har skjedd i tech-verdenen i ukas Bits & Bytes.

Bits & Bytes

Av Redaksjonen

Har KI-chatboter sjel? Selvfølgelig ikke.

Likevel viser det seg at et dokument med navnet «soul_overview», muligens spiller en sentral rolle i hvordan Anthropics KI-modell Claude fungerer, ifølge teknologinettstedet Gizmodo.

Beskriver hvordan Claude skal samhandle med brukere

Det var teknologibloggeren Richard Weiss, som har som hobby å få store språkmodeller til å avsløre sine egne systeminstruksjoner, som oppdaget dokumentet.

Det såkalte «sjel-dokumentet», som består av rundt 11 000 ord, beskriver hvordan modellen skal samhandle med brukere, hvilke vurderinger den bør gjøre og hvilke etiske rammer den må holde seg innenfor.

Ifølge Gizmodo inneholder teksten en rekke henvisninger til sikkerhet og tydelige føringer som skal hindre Claude i å produsere farlig eller skadelig innhold.

Blant annet står det at «å være oppriktig hjelpsom for mennesker er noe det viktigste Claude kan gjøre for både Anthropic og verden». Et annet sted presiseres det at modellen ikke skal utføre handlinger som «krysser Anthropics etiske grenser».

Bekrefter at det er ekte

I et blogginnlegg forteller Weiss hvordan han fant frem til dokumentet:

I chatten med Claude ba han modellen presentere sine systeminstruksjoner. Claude listet opp flere dokumenter, blant annet med navn «soul_overview».

Da Weiss ba om å få se innholdet i dette dokumentet, skrev modellen ut retningslinjene.

Det er fort gjort å mistenke dette som en hallusinering. Men Amanda Askell, filosof og medlem av Anthropic sitt tekniske team, har siden bekreftet at dokumentet er ekte:

– Jeg bekrefter at dette er basert på et ekte dokument, og at vi har trent Claude på det, inkludert i veiledet trening. Det er noe vi har jobbet med en stund, men vi fortsetter å utvikle det og planlegger å dele en fullstendig versjon og flere detaljer snart, skriver hun på X.

Askell legger til at modellens gjengivelser ikke alltid er helt nøyaktige, men som regel stemmer godt med originalen.

– Etterhvert ble dokumentet internt omtalt som «sjel-dokumentet», et kallenavn Claude tydeligvis har fått med seg, men det er ikke navnet vi kommer til å bruke, skriver hun videre.

– Sjeldent innsyn

I artikkelen påpeker Gizmodo at den såkalte «sjelen» til Claude i praksis neppe er noe mer mystisk enn et sett retningslinjer som skal hindre chatboten i å havne på villspor.

Likevel er det oppsiktsvekkende at en bruker faktisk klarte å få modellen til å hente frem og gjengi dokumentet – ikke minst at offentligheten får se det.

– Det er sjelden offentligheten får innsyn i hvordan store KI-modeller faktisk blir til. Derfor er det overraskende å få et glimt inn i den svarte boksen, selv om retningslinjene i seg selv virker ganske enkle, skriver journalist AJ Dellinger i Gizmodo.

Det har skjedd mye annet spennende i skjæringspunktet mellom teknologi, digitalisering og samfunn. Her er noen av de viktigste nyhetene fra uken som gikk:

KI-nytt

Sikkerhet

Datasenter-nytt

Maskinvare og duppeditter

Diverse