Modellering – hva er det en data scientist gjør som skaper verdi?

Modellering – hva er det en data scientist gjør som skaper verdi? 

Det som gjerne blir sett på som kjerneaktiviteten til en data scientist er datamodellering. Det finnes flere typer modeller, men la oss ta et eksempel: Det som kalles prediktive modeller er modeller som blir utviklet ved hjelp av historiske data for å gjøre prediksjoner – altså prøve å forutsi nye data, der du ikke vet svaret fra før.  

Tenk for eksempel på hvordan værvarselet blir til. Det er selvsagt basert på data – fra værstasjoner, barometere, satellitter, radar og en hel masse andre kilder. Disse dataene kan si noe om situasjonen nå og før. Men hva med i morgen, eller neste torsdag? Hva gjør meteorologene med dataene for å si noe om fremtiden, med større treffsikkerhet enn om de skulle stå på taket og se etter røde solnedganger og lavtflyvende svaler? 

At værvarselet blir mer treffsikkert med årene, handler i stor grad om at man behandler dataene med stadig mer avanserte modeller. I USA har man for eksempel de siste årene laget prediktive modeller for hvor en orkan kan komme til å treffe land, og kan nå si dette med tre ganger så god treffsikkerhet som tidligere. Kompliserte beregningssystemer brukes for å komme fram til hva som er det mest sannsynlige utfallet i morgen, eller på torsdag, gitt all relevant informasjon vi har i dag. 

En prediktiv modell kan ses på som et matematisk problem der man forsøker å tilpasse en funksjon som så godt som mulig klarer å gå fra input-data (det vi vet om været i dag) til output-data (det vi forventer at været blir i morgen). Modellen brukes så til å simulere eller forutsi et utfall. En datamodell som trenes med observerte og historiske værdata, kan se at A pleier å lede til B, og C til D – for eksempel at et lavtrykk som beveger seg inn mot vestlandet pleier å bringe med seg regn, eller at en viss kombinasjon av luftfuktighet, vindretninger og trykk som regel er observert i forkant av tordenvær. Ved å fôre modellen med stadig flere og mer presise målinger og observasjoner, kan denne dermed også med stadig større treffsikkerhet si noe om hvordan været mest sannsynlig vil bli i fremtiden. 

Mer om hva datamodellering innebærer, og hva det kan brukes til i industrien og næringslivet, vil du lære i leksjon 3. Merk forresten at ordet datamodell også kan bli brukt i en annen betydning, om modeller som beskriver innholdet og relasjonene i en database.