Vil digital innavl bety slutten på språkmodeller?

Språkmodeller kollapser når de trenes på KI-generert innhold. Samtidig sliter konsulentbransjen med KI-genererte jobbsøknader. Mer om dette og andre tech-nyheter i ukas Bits & Bytes:

Bits & Bytes

fre. 16. aug. 2024

Språkmodeller er trent på enorme mengder med ekte tekst fra en rekke ulike kilder. For at modellene skal bli bedre, må de trenes på mer tekst. Men hva skjer når tilgangen på menneskeskapt innhold tar slutt?

Stadig flere KI-selskaper har nå begynt å trene modellene sine på tekst generert av kunstig intelligens – for å kompensere for manglende originalt kildemateriale.

Det blir kanskje feil å kalle det for KI-kannibalisme. Da er muligens et begrep som digital innavl mer presist. Ifølge ny forskning vil nemlig modeller som instrueres til å produsere nytt innhold basert på egen «genetikk» – altså KI-generert tekst – til slutt ende opp med å kollapse helt.

– Dette betyr ikke at dagens modeller blir dårligere. Men det kan bli vanskeligere og vanskeligere å gjøre dem bedre. Forbedringshastigheten kan komme til å falle, sier Ilia Shumailov til Aftenposten.

Han er forsker ved universitetet i Oxford, og har publisert en artikkel som har bevist hvordan språkmodeller trent på syntetisk innhold etter en viss tid begynner å streike: Et fenomen de kaller for «modellkollaps».

Språkmodeller blir dårligere av norske bøker

En del av problemet er, utrolig nok, at menneskeskapt innhold er i ferd med å bli en mangelvare.

Da hjelper det heller ikke at stadig flere aktører, deriblant New York Times, har reservert seg mot at deres artikler skal brukes for å trene opp språkmodeller.

Vil en evig feedback-loop som vil bety slutten på kunstig intelligens? Eller vil løsningen bli å ansette horder av mennesker for å skrive – og mate maskinene – med ekte tekst?

Ikke alle er enige om at syntetiske treningsdata er et stort problem, så lenge det brukes på en smart måte. Og ifølge nok en Aftenposten-artikkel har faktisk en norskutviklet språkmodell blitt dårligere av å trenes på norsk skjønnlitteratur.

«Til hvem det måtte bekymre»

Det viser seg at maskinprodusert tekst er et problem – også for de som ikke er... maskiner.

Dagens Næringsliv skriver om et overveldende omfang av KI-genererte jobbsøknader blant norske konsulentselskaper, særlig blant de ferskeste fra skolebenken.

– Vi observerer en økende tendens blant kandidater til å benytte ulike KI-verktøy i søknadsprosessen. et typisk eksempel er å bruke frasen «til hvem det måtte bekymre», som ofte et resultat av oversettelsesverktøy i forbindelse med ChatGPT, sier Ina Pettersen, ansvarlig for rekruttering i Deloitte.

Dette gjelder ikke bare i Norge. Ifølge en ny undersøkelse gjort av Financial Times, er omkring halvparten av alle jobbsøknader skrevet helvis eller delvis ved hjelp av kunstig intelligens.

På den andre siden av bordet er det en kjent sak at det bare blir vanligere å bruke kunstig intelligens for å ansette og rekruttere, noe blant annet NRK skrev om allerede i våres.

Et eller annet sted i verden holder altså et KI-verktøy, trent på KI-generert tekst, på med å vurdere en KI-skrevet jobbsøknad. Og på sidelinjen følger vi mennesker spent med på fortsettelsen!

NB: En tidligere versjon av artikkelen refererte til en Europol-rapport fra 2022 om at «90 prosent av innholdet på internett kan bli KI-generert innen 2026». Dette er en uttalelse Europol senere har trukket tilbake.