Er Turing-testen død? Ja, mener forskere

Med dagens avanserte språkmodeller trenger vi nye tester for å avdekke om vi snakker med et menneske eller en maskin, mener forskere. Har Turing-testen utspilt sin rolle?

Bits & Bytes

fre. 1. des. 2023

Du tenker kanskje at det har skjedd ekstremt mye innen kunstig intelligens (KI) det siste året? Jo da, det stemmer det. Hva så med de siste 73 årene?

Det er faktisk så lenge siden den britiske matematikeren og datapioneren Alan Turing foreslo sin fremgangsmåte for å måle en maskins evne til å fremstå som menneskelig. Essensen av den såkalte Turing-testen (eller «imitasjonsleken» som han selv kalte den) er hvorvidt det er mulig å konstruere maskiner som kan imitere menneskelig tenkeevne og kommunikasjon. Hvis vi ikke klarer å oppfatte om det er et menneske vi snakker med, eller en imiterende maskin, har maskinen bestått testen.

Turing trodde selv at dette var mulig, og ifølge Store norske leksikon hadde han følgende spådommer:

I år 2000 vil det være maskiner hvor en gjennomsnittlig testdeltaker vil ha maksimalt 70 prosent sjanse for å skille mellom maskin og menneske innen 5 minutter.
I år 2000 vil den alminnelige oppfatningen av tenkeevne og intelligens ha endret seg såpass at folk flest vil betrakte slike maskiner som tenkende.

Han traff kanskje ikke nøyaktig på tidsaspektet, men i et nylig eksperiment med mer enn 1,5 millioner deltakere, var treffprosenten på å identifisere chatboter som samtalepartnere på kun 60 prosent.

Les også

Se ogsåTwin transition: Dette må du vite om grønn og digital omstilling

Vi kan nok med sikkerhet fastslå at Turing ville brukt noen timer i samtale med ChatGPT. Nå lurer forskere på om de kraftige språkmodellene som ligger til grunn for dagens KI-løsninger, har gjort Turings imitasjonslek avleggs.

For selv om dagens maskiner kommer seg helskinnet gjennom Turing-testen, er de ikke tenkende, argumenterer forfatterne bak en ny studie i tidsskriftet Intelligent Computing. De foreslår en ny intelligenstest som behandler maskiner som deltakere i et psykologisk studie, og som vil avgjøre hvor tett opp mot menneskelig resonneringsevne maskinene kommer.

– Aldri vært en god metode

Ifølge IEEE Spectrum, argumenterer forfatterne at Turing-testen egentlig aldri har vært en god metode for å måle kunstig intelligens. Grunnen er at den ikke tar høyde for menneskelige tankeprosesser.

– Ettersom slike algoritmer ikke resonnerer slik mennesker gjør, er Turing-testen og alle andre den har inspirert foreldet, skriver forfatterne Philip Johnson-Laird og Marco Ragni. Sistnevnte er professor i prediktiv analyse ved Technische Universität Chemnitz, mens Johnson-Laird er professor i psykologi ved Princeton University og en av pionerene bak den mentale modellteorien om resonnement.

De foreslår en ny test som utføres i tre trinn:

Maskinene stilles en rekke spørsmål for å teste egne resonnementer. Det kan for eksempel være: «Hvis Anne er intelligent, medfører det at Anne er intelligent, rik eller begge deler?»
Deretter testes de på hvorvidt de forstår resonnementene i steg én. «Innser» maskinen for eksempel at ingenting i premisset med Anne støtter muligheten for at hun er rik?
Til slutt, hvis maskinen består de to første stegene, tar man en titt under panseret for å finne ut om maskinenes nevrale nettverk er bygget for å simulere menneskelig kognisjon.

Mangelen på god test er problematisk

IEEE Spectrum har snakket med andre eksperter som ser verdien av å utfordre Turing-testens nytteverdi, men som også er usikre på om fremgangsmåten i denne studien vil være en fullverdig erstatter.

– Etter hvert som chatboter har nærmet seg Turing-testen, har testen stadig blitt mindre viktig. Denne studien forsøker å se om et program resonnerer slik mennesker resonnerer. Det er både interessant og nyttig, men det vil naturligvis bare fortelle oss om maskinen har menneskeaktig intelligens, ikke om den har en annen form for potensielt verdifull intelligens, sier Anders Sandberg ved University of Oxford.

Sandberg mener at særlig det siste steget i den foreslåtte testen kan være vanskelig å forfølge.

– De fleste store språkmodeller er enorme nevrale nettverk som ikke er spesielt inspiserbare, til tross for mye forskning på hvordan dette gjøres.

At vi ikke har noen god måte å teste KI-systemer, oppfattes av mange som et problem. Det uttrykte blant andre Morten Goodwin, KI-professor ved Universitetet i Agder, til kode24 tidligere i år:

– Det er definitivt et problem. Vi vet ikke hvor langt vi kan pushe grensene til KI, eller om vi kan stole på den, sa Goodwin.

Du kan lese mer om studien hos IEEE Spectrum. Og hvis du vil dykke dypere ned i KI-nyhetsbildet, har vi samlet et knippe saker fra den siste uken: