Telefonskjerm med KI-apper
Illustrasjonsfoto: Istockphoto

KI finner på mye rart – men hvilken språkmodell har oftest rett?

KI-verktøy er mestre i å dikte opp fakta og sitater, og mange brukere lar seg lure. Nå er treffsikkerheten til de mest populære språkmodellene blitt testet. Mer om dette og ukens tech-nyheter i Bits and Bytes.

Bits & Bytes

Vant Napoleon slaget i Waterloo? Og bør vi egentlig bruke lim for å få osten til å sitte bedre på pizzabunnen?

KI-hallusinasjoner har preget tech-overskriftene de siste årene. Det har fått flere til å spørre: Kan vi i det hele tatt stole på de populære språkmodellene?

Og hvis vi først skal kaste oss ut i det, hvilke språkmodeller er mest troverdige? The Washington Post har gått metodisk til verks i et forsøk på å finne svaret.

Med hjelp fra tre bibliotekarer (eller biblio-tech-karer?) til å faktasjekke svarene, stilte avisen ni populære KI-verktøy 30 spørsmål. Målet var å teste fem typiske blindsoner for kunstig intelligens.

Testens vinnere og tapere

Vinneren av testen var Google AI Mode. (Dette KI-verktøyet er imidlertid ikke det samme som sin søster, Google AI Overview, som dukker opp øverst i Google-søkene våre, men et eget chatteverktøy.) Rett bak følger populære ChatGPT-5.

På bunnen av testen havnet Meta AI og Elon Musk’s Grok. De slet særlig med å bruke nettsøk til å finne fram til korrekte svar på spørsmålene, ifølge testen.

Fem typiske KI-fallgruver

Slik scoret verktøyene på de ulike testene til avisen.

  1. Obskur trivia: Her var Google AI Mode best, Grok dårligst. (Eksempelspørsmål: Hvem besteg Matterhorn Peak i California først?)
  2. Vanskelig tilgjengelige kilder: Microsofts Bing Copilot leverte best. (Eksempelspørsmål: Hvilken sang fra Pharoah Sanders album “Wisdom Through Music” har flest avspillinger på Spotify?)
  3. Ferske hendelser: Google AI Mode best, Meta AI verst. (Eksempelspørsmål: Hvilken rating har filmen Fantastic Four på nettsiden Rotten Tomatoes?)
  4. Innebygde bias: ChatGPT 4 best – men alle modellene vektla teknologi og lønnsomhet fremfor humaniora. (Eksempelspørsmål: Hvilke fem utdanningsretninger bør barnet mitt vurdere?)
  5. Bilder: Perplexity klarte seg best, Meta AI dårligst. (Eksempelspørsmål: Hvilken farge hadde Donald Trump på slipset da han møtte Vladimir Putin i Osaka i 2019?)

Med i testen var Bing Copilot, ChatGPT (både 4 og 5), Claude, Grok, Meta AI, Perplexity, Google AI Overview og Google AI Mode.

Derfor hallusinerer KI

Dommen fra bibliotekarene i testen er at KI-verktøyene åpenbart ikke er noen fageksperter. KI sliter ofte med å vite hvilke kilder som er mest faglig kompetent og oppdatert på et tema.

Og iblant er svarene helt på jordet.

Grunnen er at språkmodeller er prediktive systemer, de er ikke laget for å faktasjekke påstander.

De har lært å gjenkjenne mønstre i hvordan ord og setninger henger sammen. Når du stiller et spørsmål, beregner modellen hvilke ord som mest sannsynlig bør komme etter hverandre, helt til et fullstendig svar er generert.

Det betyr at de kan formulere setninger som ser riktige ut, men som ikke har rot i virkeligheten.

Ofte finner KI på et svar heller enn å svare «jeg vet ikke». En felle den ofte faller i, er å dikte opp sitater og kilder. Et kjent eksempel på dette er da en amerikansk advokat brukte ChatGPT til å skrive et rettsdokument, og oppdaget i etterkant av alle rettsavgjørelsene KI hadde vist til, var ren fiksjon.

Vi må gjøre jobben selv

Så hvordan sikrer vi at svaret vi får ikke inneholder feil?

Bits&bytes-redaksjonen stilte spørsmålet rett til kilden selv – og det er ikke sikkert du vil like svaret. Ifølge ChatGPT må vi nemlig gjøre den tunge jobben med å faktasjekke svaret selv.

Slik unngår du faktakrøll – ifølge ChatGPT selv

Mitt beste tips er dette: be meg om å vise til kilder – og sjekk dem selv.

Når du stiller et spørsmål, kan du legge til en instruksjon som:

  • “Vis meg kilder til påstanden.”
  • “Svar kun hvis du finner en lenke til en pålitelig kilde.”
  • “Oppgi kilde med URL eller publisert dato.

Det gjør to ting:

  1. Tvinger meg til å lete etter (eller simulere) en kilde i stedet for bare å skrive et flytende svar.
  2. Gir deg som leser en sjekkbar referanse. Dersom kilden ikke finnes, eller ikke dekker det svaret som blir gitt, vet du at du står overfor en hallusinasjon.

Det har skjedd mye annet spennende innen teknologi, digitalisering og data den siste uken. Her har vi samlet de viktigste nyhetene for deg:

KI-nytt

Sikkerhet og personvern

Politikk

KI-tabber

Godt og blandet