Avansert dataanalyse

Avansert dataanalyse

Hva kan avansert dataanalyse løse for oss, og hvilken kompetanse trenger vi for å komme i gang? I dette siste steget får du også introduksjoner til kunstig intelligens og maskinlæring.

Avansert dataanalyse og data science

Husker du at vi introduserte avansert dataanalyse i starten av veiviseren? En kjapp oppsummering: Det er snakk om teknikker vi kan bruke for å analysere og lære fra rådata for å få ny innsikt og nye svar. Det omfatter bruk og utvikling av ulike verktøy basert på statistikk, matematikk og informatikk.

Dette overlapper med hele vår reise fra data til verdi. Men der vi hittil har sett på visualisering, dashbord og applikasjoner, skal vi her gå nærmere inn på hva vi kan oppnå ved å analysere dataene våre. Når vi snakker om å skape verdi ut av data gjennom avansert analyse, er vi inne på stillingsbeskrivelsen til en data scientist. En data scientist er en spesialist på å dykke ned i data og grave frem innsikter som en virksomhet kan handle ut ifra, noe som krever både teknologi- og domenekunnskap. Her vil vi derfor også gå nærmere inn på fagfeltet data science.

Hva består avansert dataanalyse av?

Avansert dataanalyse er som sagt en trinnvis prosess, som overlapper med hele reisen fra data til verdi. La oss se på prosessen, trinn for trinn. Første til tredje trinn overlapper med det du har lært allerede, mens fjerde trinn først er mulig nå som alt det andre er gjort.

Det første trinnet er å bestemme datakravene, eller hvordan dataene skal grupperes. Data kan for eksempel skilles ut etter alder, inntekt eller kjønn. Dataverdiene kan være kvantitative eller kvalitative.

Det andre trinnet er å samle dataene. Disse dataene vil være bransjeavhengige og kan komme fra en rekke kilder som for eksempel IoT-enheter, klikk eller kjøp på nettet, tall fra fysiske butikker, maskiner, databaser eller manuelle registreringer.

Tredje trinn handler om at når dataene er samlet, må de organiseres. Til dette brukes programvare som kan håndtere statiske data, som for eksempel Excel eller mer avanserte former for programvare. Deretter handler det om å rydde opp. Dataene vaskes og kontrolleres for å unngå duplikater, feil eller ufullstendig informasjon. 

Fjerde trinn er gjennomføringen av selve analysene. Analyseprosessene kan gjøres manuelt, men i dag er det mye som er automatisert. Når det gjøres manuelt, er det gjerne en data scientist, eller analytiker, som er ansvarlig.

Og hva er det vi faktisk ser etter i disse analysene? Vi deler gjerne avansert dataanalyse inn i fire hovedkategorier:

1. Deskriptiv analyse – hva har skjedd? 
Deskriptiv, eller beskrivende, analyse sier noe om hva som har skjedd over et gitt tidsrom. Dette kan for eksempel være informasjon om utviklingen i antall sidevisninger, hvilke sidevisninger som har generert salg og hvordan salget har utviklet seg den siste måneden. 

2. Diagnostisk analyse – hvorfor skjedde det? 
Diagnostisk analyse fokuserer mer på hvorfor noe skjedde. Her inkluderes gjerne hypoteser og ulike data. En slik analyse vil for eksempel kunne forsøke å finne svar på hvorfor salget har økt og i hvilken grad dette kan forklares. Skyldes det en markedsføringskampanje, eller har kanskje variasjon i været hatt en minst like stor effekt? 

3. Prediktiv analyse – hva kommer til å skje, når vil det skje og hvorfor vil det skje? 
Prediktiv analyse bygger videre på de to foregående analysene og sier noe om hva som sannsynligvis kommer til å skje på kort sikt. For eksempel kan den gi svar på hva som skjedde med salget forrige gang vi hadde en varm sommer, og hvor mange værmodeller som spår en varm sommer i år.

4. Preskriptiv analyse – hva bør vi gjøre med det som skjer? 
Preskriptiv, eller normativ, analyse tar dette et skritt videre ved å bruke maskinlæring til å løse problemer og foreslå alternative handlinger basert på denne informasjonen. For eksempel at iskremfabrikken bør legge inn et ekstra kveldsskift fra mars for å øke lagerbeholdningen tilstrekkelig når sannsynligheten for en varm sommer overstiger 61 %.

Disse teknikkene brukes nå av stadig flere virksomheter for å løse problemer innen for eksempel bioteknologi, medisin, industri og finans. Med enklere tilgang på store datamengder, har avansert dataanalyse blitt et område i sterk vekst. Den virkelige driveren til denne utviklingen er likevel virksomhetenes ønske om å optimalisere driften gjennom å finne nye vekstmuligheter, øke kundetilfredsheten og forbedre ulike forretningsprosesser. 

💡 Innsikt: Hva kan avansert dataanalyse brukes til?

  • Forsikringsselskaper og banker kan forstå variasjoner i risiko for en forsikrings- eller låneportefølje
  • Meglerhus får dypere innsikt om svingninger i aksje- og energimarkedet
  • Produksjonsbedrifter kan optimalisere energibruk, lagerstyring, bestillinger og bruken av sine maskiner
  • Innholdsleverandører og nettbutikker bruker innsikten til å forstå hva som skal til for at vi fortsetter å se, lese, klikke og kjøpe
  • Helsesektoren kan få dypere innsikt om en celles stoffskifte, spredning av smittsomme sykdommer eller hvordan pasientflyten kan effektiviseres
  • Flyindustrien bruker avansert dataanalyse til flåteplanlegging, ruteplanlegging og lagerstyring
  • Uber kombinerer avansert dataanalyse med datastrømming når de beregner sine flytende priser.

Data science

For å skape verdi trenger næringslivet noen som kan dykke ned i dataene og grave frem innsikter som de kan handle ut ifra. Denne kompetansen innebærer for det første å forstå teknologien, og kunne finne fram til algoritmer og modeller som kan brukes for å beskrive dataene. For det andre kreves det en god forståelse av bransjen bedriften jobber innenfor – det vi kaller domenekunnskap. 

Etter hvert så man derfor behovet for en disiplin som fungerer i rommet mellom statistikk og det som kalles computer science. Det nye feltet fikk med tid og stunder navnet data science. Vi har ikke per i dag et godt, norsk ord for data science. 

En data scientist er en ekspert på å dykke ned i data med verktøy som analyse og statistikk, maskinlæring og dyplæring (altså kunstig intelligens – se 👩‍💻 faktaboks lenger ned på siden), med mål om å hente opp verdifulle og ikke-åpenbare innsikter.

I tillegg til å kunne kode og å ha kunnskap om statistikk, må en data scientist ha business-forståelse og evnen til å kommunisere. Hun må kunne sette seg inn i behovene til bedriften og forstå hvilke problemer de prøver å løse – med andre ord kunne stille gode spørsmål, og være klar på hva en leter etter i dataene. Dataene må så ryddes opp i og organiseres, og presenteres på en måte som gjør funnene tydelige og forståelige. Kombinasjonen av teknologi- og domenekunnskap gjør det mulig å se hvordan man kan bruke data til å ta bedre beslutninger og effektivisere bedriften.

En data scientist kan gjøre data nyttig for bedriften blant annet gjennom å lage modeller; fremheve relasjonene mellom data; visualisere dataene i diagrammer, kart, animasjoner og andre grafiske fremstillinger, og på andre måter å synliggjøre verdifulle innsikter som ellers ville ligget begravet i en masse uforståelige tall, tabeller, programmer og databaser.

Modeller og maskinlæring

Det som gjerne blir sett på som kjerneaktiviteten til en data scientist er datamodellering. Vi har snakket om modeller flere ganger allerede, både eksplisitt og implisitt. Se på faktaboksen over, med eksemplene på hva vi kan oppnå med avansert dataanalyse. Når «forsikringsselskaper og banker kan forstå variasjoner i risiko for en forsikrings- eller låneportefølje», eller «meglerhus får dypere innsikt om svingninger i aksje- og energimarkedet», er det fordi en data scientist (eller et team av dem) har utviklet en modell som gir dem disse innsiktene.

Et annet eksempel nevnte vi allerede i introduksjonen, nemlig «prediktive modeller» som brukes til å lage bedre værvarsler, og som kan regne ut for eksempel hvor og når en orkan vil treffe land. La oss fortsette med dette eksempelet for å få litt mer innsikt i hvordan det fungerer.

En prediktiv modell kan ses på som et matematisk problem der man forsøker å tilpasse en funksjon som så godt som mulig klarer å gå fra input-data (det vi vet om været i dag) til output-data (det vi forventer at været blir i morgen). Modellen brukes så til å simulere eller forutsi et utfall. Kort sagt brukes kompliserte beregningssystemer for å komme fram til hva som er det mest sannsynlige utfallet i fremtiden, gitt all relevant informasjon vi har i dag. Her bruker vi gjerne maskinlæring (se 👩‍💻 faktaboks) og andre former for kunstig intelligens for å gjøre modellen best mulig.

👩‍💻 Teknologier: Kunstig intelligens og maskinlæring

Kunstig intelligens gjør det mulig for datamaskiner å «tenke selv». Da mener vi ikke at de kan tenke på samme måte som et menneske, men at de kan finne mønstre, gjøre anbefalinger og bidra som beslutningsstøtte til mennesker. 

En annen måte å se det på, er at kunstig intelligens viser til et datasystem eller program som kan oppfatte omgivelsene sine og utføre handlinger som maksimerer sjansene for å oppnå et gitt mål. Et typisk eksempel er selvkjørende biler. De oppfatter omgivelsene sine gjennom sensorer (de kan følge med på veien, andre biler, og så videre) og på egenhånd utføre handlinger som maksimerer sjansen for å lykkes med de målene som er definert (å holde seg på veien, følge trafikkreglene, ikke krasje, og så videre).

Maskinlæring er en undergruppe av kunstig intelligens som bruker statistiske metoder for å muliggjøre at maskinen lærer av erfaringer. Som i eksempelet med værmeldingen: her blir den mer treffsikker når den bruker data fra de siste tre årene, enn ved å kun se på de siste tre dagene. 

Maskinlæring er altså er et sett med teknikker som gjør det mulig for datamaskiner å forbedre seg etter hvert som de får mer erfaring. Når vi sier at «maskinen» lærer, snakker vi egentlig om at den tilpasser sine egne algoritmer. En algoritme er, enkelt forklart, en oppskrift som gir et bestemt resultat – akkurat som en matoppskrift eller en bruksanvisning som følges stegvis og nøyaktig. Alle dataprogrammer er basert på algoritmer. De er laget slik at hvis de får input X, så gjør de handling Y. Hver gang. Men nå snakker vi om programmer som «lærer». Algoritmene er laget på en slik måte at de vil endre og tilpasse seg automatisk, for mer effektivt å oppnå målet sitt. 

Når programmet skal trenes opp, brukes det vi kaller treningsdata. Programmet fôres med et datasett, gjerne store mengder data fra ulike kilder. Mengden og kvaliteten på dataene påvirker hvor raskt og godt programmet lærer. Deretter brukes testdata, data som programmet ikke har sett før. Når vi tester programmet med et helt nytt datasett, kan vi finne ut om maskinen har lært det den skal. 

Programmet skriver selv reglene. Siden det ikke er begrenset av mennesker, betyr det også at programmet kan løse langt mer komplekse problemer enn vi mennesker er i stand til.

For å trene en modell brukes historiske data. Når en data scientist trener en modell, har hun fokus på at denne i stor grad klarer å forklare disse historiske dataene, men at den også er generell nok til at den vil passe nye observasjoner.

En datamodell som trenes med observerte og historiske værdata, kan se at A pleier å lede til B, og C til D – for eksempel at et lavtrykk som beveger seg inn mot vestlandet pleier å bringe med seg regn, eller at en viss kombinasjon av luftfuktighet, vindretninger og trykk som regel er observert i forkant av tordenvær. Ved å fôre modellen med stadig flere og mer presise målinger og observasjoner, kan denne dermed også med stadig større treffsikkerhet si noe om hvordan været mest sannsynlig vil bli i fremtiden.

Får å kunne få et mål på treffsikkerheten til modellen, deler data scientisten opp de historiske datene i et treningssett og et testsett. Treningssettet brukes til å trene modellen, mens testsettet holdes helt utenfor mens modellen tilpasses. Når man er ferdig med modellen ser man hvor god modellen er til å forutsi riktig verdi for testdataene. Siden disse ikke er brukt til å tilpasse modellen, blir dette det samme som å få inn helt nye data. 

Fra resultatene på testsettet kan man si noe om hvor treffsikker modellen er på nye, usette data. Og ved å sammenligne hvor godt modellen treffer på treningssettet og testsettet, kan man finne ut om modellen er overtilpasset til treningsdataene eller ikke.

Merk forresten at ordet datamodell også kan bli brukt i en annen betydning, om modeller som beskriver innholdet og relasjonene i en database.

Fra data science til databrukere

Denne måten å jobbe med data på er åpenbart ikke noe hvem som helst kan gå i gang med, og kompetansen data scientists sitter på er høyt etterspurt overalt i industrien og næringslivet. Antagelig – mange vil si forhåpentlig – vil likevel morgendagens data scientists gjøre en litt annen jobb enn de gjør i dag.

Mye av det vanskeligste arbeidet, som å sammenstille data fra mange kilder, kan i stadig større grad automatiseres. Samtidig kommer det flere og bedre verktøy som ikke-spesialister kan bruke for å utforske og finne innsikt i dataene. Det betyr at flere og flere, utover bare data scientists med spesialkompetanse, fremover vil få muligheten til å jobbe med data og finne nyttige innsikter.

I første omgang kan vi få se det som er blitt kalt «citizen data scientists». For eksempel en ingeniør som ikke er spesielt trent i statistikk eller analyse, men som, gitt de riktige verktøyene, likevel kan mestre å jobbe med avansert data og bygge modeller på egenhånd. Etterhvert som flere deler av prosessen automatiseres, og verktøyene for å utforske og finne innsikt i dataene blir bedre, kan flere og flere få muligheten til å jobbe med data og finne nyttige innsikter.

I det hele tatt vil norsk industri og næringsliv kunne tjene på å lære opp flere arbeidstakere til å bli gode databrukere. Dette vil også bli helt nødvendig, og en naturlig del av flere arbeidsplasser. Som vi har gjentatt gjennom hele veiviseren, vil det å jobbe med data bli en stadig mer naturlig del av arbeidslivet.

På sikt er målet på mange måter at vi ikke lenger vil trenge data scientists slik vi kjenner dem i dag. I stedet vil vi ha data doers – databrukere. Du vil kanskje være en av dem?