
KI finner på mye rart – men hvilken språkmodell har oftest rett?
KI-verktøy er mestre i å dikte opp fakta og sitater, og mange brukere lar seg lure. Nå er treffsikkerheten til de mest populære språkmodellene blitt testet. Mer om dette og ukens tech-nyheter i Bits and Bytes.
Vant Napoleon slaget i Waterloo? Og bør vi egentlig bruke lim for å få osten til å sitte bedre på pizzabunnen?
KI-hallusinasjoner har preget tech-overskriftene de siste årene. Det har fått flere til å spørre: Kan vi i det hele tatt stole på de populære språkmodellene?
Og hvis vi først skal kaste oss ut i det, hvilke språkmodeller er mest troverdige? The Washington Post har gått metodisk til verks i et forsøk på å finne svaret.
Med hjelp fra tre bibliotekarer (eller biblio-tech-karer?) til å faktasjekke svarene, stilte avisen ni populære KI-verktøy 30 spørsmål. Målet var å teste fem typiske blindsoner for kunstig intelligens.
Testens vinnere og tapere
Vinneren av testen var Google AI Mode. (Dette KI-verktøyet er imidlertid ikke det samme som sin søster, Google AI Overview, som dukker opp øverst i Google-søkene våre, men et eget chatteverktøy.) Rett bak følger populære ChatGPT-5.
På bunnen av testen havnet Meta AI og Elon Musk’s Grok. De slet særlig med å bruke nettsøk til å finne fram til korrekte svar på spørsmålene, ifølge testen.
Fem typiske KI-fallgruver
Slik scoret verktøyene på de ulike testene til avisen.
- Obskur trivia: Her var Google AI Mode best, Grok dårligst. (Eksempelspørsmål: Hvem besteg Matterhorn Peak i California først?)
- Vanskelig tilgjengelige kilder: Microsofts Bing Copilot leverte best. (Eksempelspørsmål: Hvilken sang fra Pharoah Sanders album “Wisdom Through Music” har flest avspillinger på Spotify?)
- Ferske hendelser: Google AI Mode best, Meta AI verst. (Eksempelspørsmål: Hvilken rating har filmen Fantastic Four på nettsiden Rotten Tomatoes?)
- Innebygde bias: ChatGPT 4 best – men alle modellene vektla teknologi og lønnsomhet fremfor humaniora. (Eksempelspørsmål: Hvilke fem utdanningsretninger bør barnet mitt vurdere?)
- Bilder: Perplexity klarte seg best, Meta AI dårligst. (Eksempelspørsmål: Hvilken farge hadde Donald Trump på slipset da han møtte Vladimir Putin i Osaka i 2019?)
Med i testen var Bing Copilot, ChatGPT (både 4 og 5), Claude, Grok, Meta AI, Perplexity, Google AI Overview og Google AI Mode.
Derfor hallusinerer KI
Dommen fra bibliotekarene i testen er at KI-verktøyene åpenbart ikke er noen fageksperter. KI sliter ofte med å vite hvilke kilder som er mest faglig kompetent og oppdatert på et tema.
Og iblant er svarene helt på jordet.
Grunnen er at språkmodeller er prediktive systemer, de er ikke laget for å faktasjekke påstander.
De har lært å gjenkjenne mønstre i hvordan ord og setninger henger sammen. Når du stiller et spørsmål, beregner modellen hvilke ord som mest sannsynlig bør komme etter hverandre, helt til et fullstendig svar er generert.
Det betyr at de kan formulere setninger som ser riktige ut, men som ikke har rot i virkeligheten.
Ofte finner KI på et svar heller enn å svare «jeg vet ikke». En felle den ofte faller i, er å dikte opp sitater og kilder. Et kjent eksempel på dette er da en amerikansk advokat brukte ChatGPT til å skrive et rettsdokument, og oppdaget i etterkant av alle rettsavgjørelsene KI hadde vist til, var ren fiksjon.
Vi må gjøre jobben selv
Så hvordan sikrer vi at svaret vi får ikke inneholder feil?
Bits&bytes-redaksjonen stilte spørsmålet rett til kilden selv – og det er ikke sikkert du vil like svaret. Ifølge ChatGPT må vi nemlig gjøre den tunge jobben med å faktasjekke svaret selv.
Slik unngår du faktakrøll – ifølge ChatGPT selv
Mitt beste tips er dette: be meg om å vise til kilder – og sjekk dem selv.
Når du stiller et spørsmål, kan du legge til en instruksjon som:
- “Vis meg kilder til påstanden.”
- “Svar kun hvis du finner en lenke til en pålitelig kilde.”
- “Oppgi kilde med URL eller publisert dato.
Det gjør to ting:
- Tvinger meg til å lete etter (eller simulere) en kilde i stedet for bare å skrive et flytende svar.
- Gir deg som leser en sjekkbar referanse. Dersom kilden ikke finnes, eller ikke dekker det svaret som blir gitt, vet du at du står overfor en hallusinasjon.
Det har skjedd mye annet spennende innen teknologi, digitalisering og data den siste uken. Her har vi samlet de viktigste nyhetene for deg:
KI-nytt
- Hele Storbritannia kan få ChatGPT Plus (The Guardian)
- ChatGPT fant feilen der Unilabs mislyktes: – Utfordrende (NRK)
- Claude-agent lanseres i Chrome (Tech Crunch)
- Stor oppgradering i Gemini (Ars Technica)
- Halvparten av alle voksne i Storbritannia frykter at KI vil ta jobben deres (The guardian)
- Youtube bruker KI til å redigere brukeres videoer i skjul (BBC)
Sikkerhet og personvern
- Hackere brukte Anthropic-KI til storstilt svindeloperasjon (BBC)
- Nå trener Snapchat KI på ditt innhold (NRK)
- Cyberangrep mot svensk datasystem (SVT)
- Anthropic med ultimatum: Gi oss chattene dine, eller bli utestengt (Tech Crunch)
- Utvikler får fire års fengsel for «kill switch»-hevn (Ars Technica)
- 300 millioner amerikaneres personopplysninger i fare etter DOGE-stunt (AP)
Politikk
- USA tar 10 prosent av Intel fordi «CEO vil beholde jobben» (Ars Technica)
- Nå angriper Trump Europa – igjen (Aftenposten)
- Mystisk radiostasjon fyrer opp atomfrykt mellom USA og Russland (WIRED)
KI-tabber
- Legger seg flate etter KI-kampanje for «Ingen kommentar»: - Har gått fort i svingene (Kampanje)
- Tenåringer bruker chatboter som terapeuter. Det er alarmerende (The New York Times)
- Nes kommune med KI-tabbe: - Absolutt ikke meningen (VG)
- Taco Bell sliter med KI (The Verge)
Godt og blandet
- Googles nye Pixel 10 Pro XL imponerer stort (Tek.no)
- Kunngjorde nytt selskap: Elon Musk vil «simulere» Microsoft med kunstig intelligens (Digi.no)
- Google vil stoppe «sideloading» av uverifiserte Android-apper fra neste år (Ars Technica)
- SpaceX-raketten skytes endelig opp etter en rekke med forsinkelser (The Guardian)
- Nvidias nye «robot-hjerne» koster 3.499 dollar – satser på roboter (CNBC)
- Landets nye underklasse har apper som sjefer (NRK)
- Sju KI-funksjoner iPhone 17 bør kopiere fra Google og OpenAI (ZDNET)