Hva er data science? Slik brukes data til beslutningsstøtte og verdiskapning

Alle virksomheter har data. Data science kan være nøkkelen til å utnytte den bedre.

Data er overalt. 

Et eller annet sted akkurat nå er det noen som setter en film på pause. Et lån blir innvilget, et salg blir gjennomført, et nyhetsbrev blir åpnet. Noen signerer for en pakke som er levert på døra, andre står fast i trafikken. En sensor plukker opp en trykkendring, et vindkast setter fart på en turbin. Utallige mennesker interagerer i apper og klikker seg rundt på nettet. 

Alt dette og utallige andre ting genererer data – opplysninger i et databehandlingssystem. Data som leder til informasjon, sammenligningsgrunnlag, sporbarhet, statistikk.

For å skape verdi ut av disse dataene trengs det noen som kan dykke ned i dem og grave frem innsikter vi kan handle ut ifra. 

Det er dette som er data science – en tverrfaglig disiplin som kombinerer blant annet programmering, statistikk, dataanalyse og forretningsinnsikt.

Data er i dag en enormt verdifull ressurs, som flere kan og bør utnytte bedre. For å få til dette kan det hende dere allerede har folk i virksomheten som kan læres opp i data science med etter- og videreutdanning. En kan også ansette, eller leie inn ekspertisen utenifra. 

Å komme i gang med å utnytte potensialet ligger i dataene, starter uansett med å bli kjent med mulighetene. I denne enkle guiden vil vi derfor forklare nærmere hva data science er, og hva slags kompetanse det innebærer. 

Hva gjør en data scientist?

I de fleste bransjer har man data om ting som salg, innkjøp, lager, finans, kunder, ordre, transport, vedlikeholdsinformasjon, utstyrsdata og data fra leverandører, for å nevne noe.  Industribedrifter har i tillegg driftsdata, som kommer fra industrielt utstyr, maskiner, prosesser og systemer under drift. 

For å hente innsikter og skape verdi ut av disse dataene, er det flere ting som må skje. 

For det første må du vite hva som er målet og hvilke grunnleggende problemer du skal bidra til å løse. Deretter må du hente inn og strukturere dataene. Å finne, samle inn, rydde opp i- og organisere de relevante dataene kan være svært tidkrevende og omstendelig arbeid – ofte rundt 80 prosent av jobben i et gitt prosjekt, målt i tid og innsats. 

Når du til slutt sitter med ferdig preparerte og brukbare data, starter selve moroa – nemlig å lage algoritmer eller «modeller» som kan brukes for å beskrive dataene og anvende dem til beslutningsstøtte. 

Hva har skjedd? Hvorfor skjedde det? Hva kommer til å skje, når vil det skje og hvorfor? Hva bør vi gjøre med det som skjer? Alt dette er ting modellene kan hjelpe til med å finne svar på. 

For å få til alt dette, må en data scientist for det første forstå teknologien. For det andre kreves det en god forståelse av bransjen bedriften jobber innenfor – det vi kaller domenekunnskap.  

Kombinasjonen av teknologi- og domenekunnskap gjør det mulig å se hvordan man kan bruke data til å ta bedre beslutninger og effektivisere bedriften.

Tre måter vi kan hente verdi ut av data

1. Visualisere data og bruke det som beslutningsstøtte

Gjennom å visualisere data og presentere dem på en god, gjennomtenkt måte, kan vi få oversikt over hvordan det står til med viktige prosesser og målsettinger – og få et solid grunnlag for å ta gode, datadrevne avgjørelser.

2. Integrere data i arbeidet gjennom applikasjoner

Vi kan ta i bruk dataene gjennom ulike applikasjoner laget for helt bestemte formål, alt fra digitale tvillinger som gir en digital kopi av et virkelig objekt eller system, til programmer som automatiserer arbeidsoppgaver.

3. Hente ut ikke-åpenbare innsikter gjennom avansert dataanalyse

Avansert dataanalyse og data science gir oss verktøyene for å hente ut verdifulle, ikke-åpenbare innsikter fra dataene våre. Innsiktene som kommer til syne i dataen kan for eksempel hjelpe bedriften med å effektivisere produksjonen, gjøre smartere vedlikehold, drive mer treffsikker markedsføring, gjøre bedre investeringer og mye, mye mer.

Modeller som beskriver dataene

Selv om selve struktureringen av data kan være det mest tidkrevende arbeidet, er det å lage modeller som egentlig er selve kjerneaktiviteten til en data scientist. Struktureringen er noe en i større og større grad jobber for å kunne automatisere. 

En modell kan beskrive noe som har skjedd, vise årsakssammenhenger eller forutsi noe som kan skje i fremtiden. En kan til og med ta det et skritt videre og få algoritmene til å foreslå alternative handlinger basert på denne informasjonen. 

Som du kanskje skjønner, er vi da inne på å bruke kunstig intelligens – eller nærmere bestemt maskinlæring, som er en undergruppe av kunstig intelligens som bruker statistiske metoder for å muliggjøre at maskinen lærer av erfaringer.

For eksempel: I verden rundt oss har ting konsekvenser. Derfor kan vi se på tidligere hendelser for å se etter mønstre og årsakssammenhenger; vi kan bruke historiske data for å gjøre «prediksjoner».

En prediktiv modell er altså en maskinlæringsalgoritme som vil prøve å forutsi nye data, der vi ikke vet svaret fra før. 

Slik vil en data scientist teste og trene en prediktiv modell

For å virkelig kunne vise hva vi snakker om her, må vi gå litt mer inn i detaljene med et mer konkret eksempel. La oss tenke at vi skal lage en modell som skal brukes av meteorologer for å lage værmeldinger. Da trenger vi en prediktiv modell som kan hjelpe oss med å se inn i fremtiden. 

En datamodell som trenes med observerte og historiske værdata, kan se at A pleier å lede til B, og C til D – for eksempel at et lavtrykk som beveger seg inn mot vestlandet pleier å bringe med seg regn, eller at en viss kombinasjon av luftfuktighet, vindretninger og trykk som regel er observert i forkant av tordenvær. Ved å fôre modellen med stadig flere og mer presise målinger og observasjoner, kan denne dermed også med stadig større treffsikkerhet si noe om hvordan været mest sannsynlig vil bli i fremtiden.

Det kan ses på som et matematisk problem der man forsøker å tilpasse en funksjon som så godt som mulig klarer å gå fra input-data (det vi vet om været i dag) til output-data (det vi forventer at været blir i morgen). Modellen brukes så til å simulere eller forutsi et utfall.

For å kunne få et mål på treffsikkerheten til modellen, deler data scientisten opp de historiske datene i et treningssett og et testsett. Treningssettet brukes til å trene modellen, mens testsettet holdes helt utenfor mens modellen tilpasses. Mengden og kvaliteten på dataene påvirker hvor raskt og godt programmet lærer. Når man er ferdig med modellen ser man hvor god modellen er til å forutsi riktig verdi for testdataene. Siden disse ikke er brukt til å tilpasse modellen, blir dette det samme som å få inn helt nye data. 

Fra resultatene på testsettet kan man si noe om hvor treffsikker modellen er på nye, usette data. Og ved å sammenligne hvor godt modellen treffer på treningssettet og testsettet, kan man finne ut om modellen er overtilpasset til treningsdataene eller ikke.

Når en data scientist trener en modell, har hun fokus på at denne i stor grad klarer å forklare disse historiske dataene, men at den også er generell nok til at den vil passe nye observasjoner.

Data science tilgjengeliggjøres for flere 

Denne måten å jobbe med data på er åpenbart ikke noe hvem som helst kan gå i gang med, og kompetansen data scientists sitter på er i dag høyt etterspurt overalt i industrien og næringslivet. 

Mye av det vanskeligste arbeidet, som å sammenstille data fra mange kilder, kan likevel i stadig større grad automatiseres. Samtidig kommer det flere og bedre verktøy som ikke-spesialister kan bruke for å utforske og finne innsikt i dataene. 

Når flere deler av prosessen automatiseres, og analyseverktøyene blir mer tilgjengelige, betyr det at flere og flere vil få muligheten til å jobbe med data og finne nyttige innsikter.

For ledere spesielt, og alle i arbeid generelt, er første skritt å bli kjent med mulighetene. 

Artikkelen er basert på våre kurs og veivisere om data, som er utviklet med hjelp av blant andre Cognite og Itera. 

Tema

Data

Om din bedrift skal kunne ta del i dataøkonomien, må du forstå hvilke data dere faktisk besitter, hvordan du skal forvalte den – og hvordan du kan skape verdi av den.