Å finne innsiktene i dataen

Å finne innsiktene i dataen 

Moroa begynner når en er ferdig med datainnhenting og datapreparasjon. Herfra handler det i stor grad om modellering. For å henge med i svingene her, kan det være nyttig å huske på eksempelet med værvarsling i kapittel 1 – der vi var vi inne på hva modeller er og hvordan de trenes opp. 

Før man kan gå i gang med å bygge modeller, er det imidlertid ett steg til som man ikke kan hoppe over: såkalt undersøkende dataanalyse. I denne fasen finner data scientisten ut hva som er mulig å gjøre med dataene. Hun kan for eksempel bruke diagrammer, figurer og deskriptiv statistikk – som å beregne gjennomsnitt og variasjon i de ulike sensormålingene – for å få oversikt over og forståelse av dataene. Uten denne innsikten og forståelsen av dataene hun har å jobbe med, har hun heller ikke noe godt grunnlag for å velge hvilke data som burde inkluderes når hun senere skal bruke dataene til å tilpasse en modell. Da vil igjen modellens treffsikkerhet kunne bli betydelig dårligere enn den kunne vært.  

Etter undersøkende dataanalyse kommer endelig selve datamodelleringen, det vi tidligere kalte selve kjerneaktiviteten til en data scientist. En data scientist vil nå trene ulike modeller og sammenligne presisjonen deres for å finne den beste modellen for dette brukstilfellet (eller use case, som det gjerne kalles).  

Hva som er den beste modellen vil avhenge både av hvilke data som er tilgjengelige, og problemet man prøver å løse. Dette defineres sammen med sluttbrukeren og interessenter. Deretter må disse overbevises om at modellen og resultatene vil skape verdi. Derfor må resultatene visualiseres og kommuniseres på en enkel måte.  

Den siste fasen er produksjonssetting, vedlikehold og overvåkning. For at modellen skal fortsette å gi verdi må den settes i produksjon og «skeduleres» – det vil si at modellen i et gitt tidsintervall, for eksempel hver natt, henter inn nye data og resultatene oppdateres. For eksempel vil værmodellen til Yr.no kontinuerlig få inn data om relevante målinger av for eksempel temperatur, vind og oppdatere prognosen for morgendagens værmelding.  

Det er også viktig å overvåke og vedlikeholde modellen slik at dersom presisjonen, treffsikkerheten, skulle falle (for eksempel fordi det er endringer i datagrunnlaget), kan modellen trenes på nytt eller oppdateres.