Fra data til informasjon og innsikt: Hvordan jobbe datadrevet – i 7 steg

I denne korte guiden får du et overblikk over hvordan data kan gjøres om til informasjon, innsikt – og verdi. Illustrasjon: Hatti Bailey, NewsLab

Kunnskap om data og digitalisering er blitt avgjørende for å delta i arbeidslivet og forstå samfunnet rundt oss.

Det er ikke uten grunn at det nå snakkes om «dataøkonomien» – og at data kalles den nye olja.

Data er en av vår tids mest verdifulle ressurser. Ikke bare er det nøkkelen til mer og bedre innsikt. Data er også en forutsetning for (og samtidig et produkt av) alle digitale teknologier, dingser og tjenester – fra sosiale medier til nettbutikker, treningsklokker, tingenes internett og kunstig intelligens.

Data er like viktig for disse som oksygen er for deg og meg. 

De mest fremgangsrike bedriftene i dag forstår seg på dette. De jobber datadrevet. Det betyr å ha kortere vei til å forbedre, fornye og skape noe nytt. 

Men hva innebærer egentlig det? 

I denne korte guiden får du et overblikk over hvordan data kan gjøres om til informasjon, innsikt – og verdi. 

Det er en smakebit på hva du lærer i det nye kurset Datareisen – et gratis digitalt kurs utviklet av Digital Norway og Universitetet i Bergen.

Fakta: Datareisen

Kunnskap om data og digitalisering er blitt avgjørende for å delta i arbeidslivet og forstå samfunnet rundt oss. Men hvordan fungerer den digitale verden? Og på hvilken måte angår det deg – og bedriften?

Datareisen er et gratis digitalt kurs utviklet av Digital Norway og Universitetet i Bergen. Kurset gir en grunnleggende innføring i den digitale virkeligheten med utgangspunkt i data.

I Datareisen lærer du:

  • Å beskytte personlige data
  • Hvordan bruke bedriftens data til å skape verdi – etisk og lovlig
  • Å styrke din evne til å lese, forstå, analysere og tenke kritisk om data
  • Hvordan data brukes i praksis – og hvordan din bedrift kan bli mer datadrevet

Kurset er gratis tilgjengelig nå, på datareisen.no

Hva er data? Hva er forskjellen på data og informasjon?

Gamle kirkebøker, handelsregistre, blytunge telefonkataloger og musikkassetter inneholder massevis av data. Data er altså ikke noe nytt. Det fantes lenge før vi hadde datamaskiner og digitale data

Så hva er data egentlig?

Vi kan lene oss på definisjonen i Store norske leksikon: Data er opplysninger eller verdier som eksisterer i et bestemt format. Dataene kan dermed lagres, overføres og prosesseres etter bestemte regler – slik at det blir lesbart og forståelig for mennesker og/eller maskiner.

Data kan være analoge eller digitale. Digitale data er enkelt sagt alle data som kan leses og behandles av en datamaskin. Tenk på ordet «digit», som er engelsk for siffer: dette er data som under overflaten består av binærkode, 0 og 1. 

Data er ikke helt det samme som informasjon eller kunnskap, selv om alle disse henger tett sammen. 

Enkelt sagt er det først når data tolkes og settes i kontekst – altså tillegges en mening eller betydning – at de blir informasjon. I neste omgang kan vi lene oss på data og informasjon for å tilegne oss og utvikle kunnskap. Kunnskap kan igjen danne et grunnlag for visdom. 

Du kan se på dette som fire nivåer: Data, informasjon, kunnskap og visdom.

Selv om data alltid har eksistert, er det nytt og enestående hvor enkelt digitale i data i dag kan samles inn og deles. De enorme mengdene med tilgjengelig data i dag er uten sidestykke i historien. Samtidig har vi prosessorkraften til å utnytte disse på nye og bedre måter. Derfor er data nå blitt en så uvurderlig ressurs. 

Takket være mye større tilgang på data, er veien også kortere til mer og bedre informasjon, kunnskap og visdom.

Eller, i bedriftssammenheng: til økonomisk verdi. 

Dataenes livssyklus

Før data kan bli til informasjon, kunnskap og visdom, må de samles inn, lagres, prosesseres og analyseres. De må nærmere bestemt gjennom stegene i det som kalles «dataenes livssyklus» (engelsk: data life cycle eller data analysis life cycle):

Grunnen til at vi har delt denne modellen i to, er at alle data må gjennom del 1 – mens stegene i del 2 i større grad er valgfrie. 

Livssyklusmodellen er mye brukt i akademia og næringsliv. Den kan også være aktuell for privatpersoner når vi søker innsikt fra for eksempel treningsklokker og andre IoT-støttede enheter (IoT står for Internet of Things – tingenes internett).

I tillegg er den også relevant for eksempel med tanke på personvern. Da handler det om hvem som eier dataene, hvor lenge de beholder dem og hvilke formål de brukes til. 

Hva skal vi med livssyklusmodellen?

Her har du tre tall: 27, 92 og 93.

Sier det deg noe? Neppe. Men så snart du vet at tallene viser til andelen nordmenn fra 9-79 år som brukte internett en gjennomsnittsdag i henholdsvis år 2000, 2020 og 2021, blir tallene mer interessante.

Tenk, bare én av fire brukte nettet daglig i år 2000! Og fortsatt er ikke alle nordmenn på nett. 

Poenget er at det gir liten mening å snakke om tilfeldige tall eller verdier som data. Data må representere noe, eller handle om noe, for å ha en verdi og kunne bli til informasjon og kunnskap. Eksempelet viser at data trenger kontekst. 

Det eksempelet også viser, er at dataene har et opphav.

Tallene er ikke hentet ut av luften, men har en forankring i en eller annen situasjon eller aktivitet. Det finnes noe forut for dem; de oppstår ikke ut av det blå. Dette gjelder også for eksempel analoge data slik som en lydbølge – det er noe som skaper lyden. 

For å få innsikt og verdi fra data, må en forstå dataenes reise helt tilbake til dette opphavet, og gå gjennom stegene i syklusen inntil en sitter med informasjon eller en praktisk anvendelse av dataene. 

Dataene er uløselig knyttet opp mot de situasjonene de oppstod i eller angår, og det er derfor viktig å kunne relatere data tilbake til situasjon (kontekst) – hvis ikke risikerer man altså at dataene mister sin potensielle verdi.

Slik kontekstuell informasjon både kan og bør reflekteres gjennom metadata, som betyr «data om data».

Fakta: Metadata

Metadata er data om data. For eksempel i galleri-appen på mobilen din kan du finne data om hvor og når et bilde er tatt, hvilke innstillinger som er brukt, antall piksler, filtype, filstørrelse og plassering på enheten.

Alt dette er data som handler om bildet; det er altså data om data, eller metadata. 

En annen måte å si det på, er at metadata er tilleggsdata som gir informasjon om tolkning av data.

Derfor jobber vi «baklengs» med data

Nedenfor skal vi se på de ulike stegene i livssyklusen i tur og orden, fra situasjon til beslutning. Men husk allerede nå at i praksis – når vi faktisk har en situasjon der vi vil bruke data til å finne ut eller oppnå noe – så jobber vi ikke lineært på denne måten. 

Mer treffende er det å si at vi jobber «baklengs»: Vi starter ved målstreken og definerer hva vi ønsker å oppnå, for så å tråkke opp løypa bakover til startstreken. 

Hvilke problemer skal vi løse? Hvordan kan vi bruke data for å svare best mulig på oppgavene og finne den beste veien til mål?

Steg for steg nøster vi opp i knuter, tvinner løse tråder – og fletter det hele sammen til en sammenhengende plan. Vi definerer først målet, og gjør deretter de nødvendige forberedelsene og arbeidet som skal til for å komme dit. 

Når det er sagt er ikke dette en lineær prosess, uansett hvilken ende vi starter i.

Kanskje enda mer presist enn at vi jobber «baklengs», er det derfor å si at en jobber iterativt. Altså at vi går mange runder, har sluttmålet som holdepunkt og gjør forbedringer og fremskritt for hver runde.

Med det i mente, la oss nå bli kjent med hele livssyklusen:

Livssyklusen del 1 – fra situasjon til lagring

1. Situasjon / aktivitet

Data har altså utgangspunkt i en eller annen situasjon eller aktivitet. Dette kan i prinsippet være hva som helst. 

Det kan være noe du gjør, eller noe som skjer – alt fra at du «tæpper» kortet for en kopp kaffe, til at robotstøvsugeren din tråler gjennom stua, mobilen din logger seg på nettverket eller en stjerne eksploderer i et gigantisk supernova i en annen galakse.

I eksempelet om den norske befolkningens internettbruk, er situasjonen simpelthen at noen bruker internett i løpet av en typisk dag i livet – mens andre ikke gjør det. 

2. Datainnsamling

Skulle du selv funnet ut hvor mange i Norge som daglig er på nett, ville du kjapt kommet frem til riktig konklusjon: Da trenger du å samle inn data. Den aktuelle situasjonen eller aktiviteten må på en eller annen måte bli fanget opp eller registrert.

Tallene vi brukte ovenfor er hentet fra Norsk mediebarometer fra Statistisk sentralbyrå (SSB). SSB fikk tak i dataene ved å gjennomføre telefonintervjuer med et representativt utvalg av befolkningen.

Hver gang en av de rundt 2000 respondentene svarte på et spørsmål, og intervjueren noterte ned svaret, fikk SSB et nytt stykke data.

Det er lett å tenke seg andre eksempler: Når noen ble født i Indre Troms på 1700-tallet og fødselsdatoen ble nedskrevet i en kirkebok, var det et eksempel på datainnsamling.

Det samme gjelder når lyset fra supernovaen treffer Keck-teleskopet på Hawaii og registreres av en sensor. Eller når du logger inn i nettbanken, og dette registreres i bankens datasystem. Eller du jogger, og en smartklokke følger med på pulsen din.

Fellesnevneren er at det er en situasjon eller aktivitet, og at denne blir registrert – noe som altså kan skje på mange ulike måter.

I dag fungerer flere og flere enheter som datamaskiner: nettbrett, servere, smarttelefoner, smart-TV, smarte kjøleskap og så videre.

Slike digitale enheter er laget slik at vi legger igjen digitale spor når vi bruker dem eller omgir oss med dem, om dermed samles det i dag inn enorme mengder data om alt vi gjør.

Dataene kan representere en status, en handling, en prosess eller tilstandsendring.

Også ting som skjer i den fysiske verden – trykket i et rør, vannmengden i et basseng, antall passeringer gjennom et veikryss – genererer digitale data, via sensorer og annen teknologi som registrerer det som skjer.

3. Lagring

Data må samles, ryddes opp i og sorteres før en kan få noe særlig ut av dem, og de må lagres på et bestemt sted i et bestemt format.

De kan eksempelvis struktureres opp i regneark, føres inn i databaser eller skrives som ren tekst i CSV-format (Comma Separated Values).

Dataformatet gir dataene en forutsigbar og standardisert struktur som gjør at de kan leses og prosesseres av et system eller en programvare, lagres som digitale filer og kommuniseres fra et system til et annet (for eksempel via internett).

Eksempelvis kan data eksporteres fra en database i CSV-format og deretter importeres i Excel, og motsatt.

Med denne typen data – tall og tabeller – må vi ofte ta noen flere steg for å gjøre dem virkelig verdifulle, enten vi vil bruke dem i en statistisk analyse, mate dem inn i et program eller visualisere dem for å få støtte til å ta en beslutning. Det er dette andre del av livssyklusen går ut på.

Andre former for data trenger på sin side ikke å analyseres eller visualiseres for å ha verdi. Lyd og bilder, for eksempel. De må likevel lagres for ikke å gå tapt.

En datamaskin forstår kun, og kan bare lagre, digitale data.

Lyd kan lagres analogt på LP-plater og kassetter, og bilder kan lagres som negativer eller utskrifter, men de må digitiseres (det vil si konverteres til et digitalt format) før de kan behandles av en datamaskin.

Livssyklusen del 2 – fra lagring til handling

4. Behandling / prosessering

Det er altså ikke alltid slik at idet data er lagret så er de brukbare. Hvis du skal innrede en snekkerbod, er det ikke nok å slenge inn alle verktøyene og materialene tilfeldig utover gulvet.

Det må også ryddes og sorteres. Du vil sette opp reoler med små bokser til ulike typer skruer, henge verktøyene perfekt oppstilt på veggen, og så videre.

Slik er det også med data du ønsker å gjøre noe mer med:

Du må dobbeltsjekke dataenes opphav og pålitelighet og hvor godt de stemmer overens med det de skal representere. Du vil gjerne sørge for at de har riktig format og verdier slik at de er sammenlignbare.

Du vil fjerne duplikater. Og du vil sørge for at det er riktige og tilstrekkelig metadata, som gjør hjelper til med å gjøre dataene identifiserbare og søkbare, og setter dem i riktig kontekst.

Kort sagt må dataene ryddes opp i og rengjøres. Du sørger med andre ord for at alt er klart og oppstilt, og først da er du klar til å starte å snekre.

5. Analyse

Når data er sortert og strukturert i tabeller, kan de i neste omgang analyseres, visualiseres og så videre.

I eksempelet med internettbruk kunne de blitt visualisert for eksempel som en graf som viser økningen i hvor mange som er «online» – kanskje med flere fargede kurver som representerer ulike aldersgrupper.

Hvorvidt og hvordan data skal analyseres handler om hva du prøver å oppnå. Du snekrer neppe for moro skyld, men for å lage en TV-benk, en garderobe eller en tresleiv. Dette vil også forme hva slags verktøy og materialer du trenger, og hvordan du går løs på oppgaven.

Motivasjonen for å analysere data vil ofte være å lete etter innsikt – som å se etter mønstre, prøve å forutsi en fremtidig atferd eller å komme med en anbefaling.

Her brukes teknikker som statistikk, maskinlæring (en form for kunstig intelligens) og datautvinning (det som på engelsk kalles «data mining», som handler om å lete etter trender og informasjon i data).

6. Rapportering og/eller visualisering 

Etter analysen kan du eventuelt rapportere og/eller visualisere dataene. Hvis målet med dataene er å hjelpe deg med å ta en beslutning, vil en rapport eller visualisering ofte være svært nyttig.

Bare tenk på hvor mye enklere det er for oss mennesker å forholde oss til enkle former og farger enn det er å skjønne bæret av masse rader og kolonner med tall.

Det skal sies, du kan visualisere data som ikke er analysert også. Lydbølger, for eksempel, kan visualiseres uten å måtte gjennomgå en analyse som beskrevet over.

Mens for andre typer data vil dette gjerne innebære å fokusere på kun et utvalg av de relevante dataene, for eksempel data fra et avgrenset tidsrom, eller å kun visualisere noen bestemte egenskaper.

Si at bedriften din har et adgangssystem der du må holde adgangskortet ditt mot en kortleser. Her kan du kan lage en enkel visualisering som i nær sanntid viser en logg over de 50 siste som har fått tilgang til bedriften.

En slik visualisering kan i utgangspunktet vise få detaljer om de enkelte ansatte, men ha mulighet for å enkelt hente ut mer detaljer om utvalgte enkeltansatte.

I slike tilfeller må du ikke bare ta hensyn til hva som er teknisk mulig, men også hva som er greit (etiske vurderinger rundt personvern) og hva som er lov (gjeldende lovgivning som GDPR).

7. Tiltak, beslutning, handling

Siste steg i syklusen er at det hele leder til en form for beslutning eller anvendelse. Da tenker vi gjerne på et tiltak, en beslutning eller en handling.

På dette tidspunktet har vi ikke bare data, men informasjon. For å gå tilbake til eksempelet vi startet med:

Hvis du sammenligner hvor mange som bruker internett sammenlignet med papiraviser eller radio – og kanskje bryter dette videre ned etter aldersgrupper, sted, utdanning og så videre – kan det for eksempel hjelpe deg med å ta en beslutning på hvor du bør bruke penger på markedsføring mot en bestemt målgruppe.

Beslutningsstøtte er imidlertid ikke det eneste data kan brukes til. «Output» fra analysen kan også eksempelvis sette i gang en form for automatisk handling, slik som automatiske varslinger («alerts»).

En slik varsling kan for eksempel være en automatisk e-post med informasjon relatert til analysen, som sendes til ulike interessenter som har interesse av å vite mer om analyseresultatene.

Det kan også være en pop-up på mobilen til den/de analysen er relevant for. En varsling kan også henvise brukeren til relevante visualiseringer.

Andre «outputs» kan for eksempel være et forslag til en kjørerute for en budbil som lastes inn på kartet deres, en melding om at en bestemt maskin snart vil trenge vedlikehold, eller en varsling om at neste ukes strømpriser kan bli rekordhøye.

Slike maskinelle handlinger kan da igjen være en basis for menneskelig beslutningstaking og handling.

Dette siste steget i syklusen vil også være relevant for data som ikke har vært gjennom noen analyse, rapportering og/eller visualisering, altså andre del av livssyklusen.

Slik brukes data i dag

De mest fremoverlente og verdifulle selskapene i verden i dag er datadrevne. Det betyr at de samler inn og analyserer data knyttet til virksomheten sin. De bruker data til å …

  • utvikle helt nye produkter og tjenester
  • øke kvaliteten på produkter og tjenester
  • øke utnyttelsen av tid og kompetanse
  • jobbe mer målrettet med kommunikasjon, markedsføring, kunderelasjoner og salg

Data brukes av politikere, politiet, offentlige myndigheter og nasjonale sikkerhetsmyndigheter. Forsvaret, forskere og finansfolk. Sportsklubber, TV-kanaler, produksjons- og industriforetak. Og i det som i en økende grad er et datafisert informasjonssamfunn, kommer de fleste til å jobbe med data og bruke data på et eller annet nivå.

For å henge med i denne utviklingen av samfunnet og arbeidslivet, gjelder det å ha evnen til å lese, forstå, analysere og tenke kritisk om data og dens bruk. Og å få de evnene, er du nå i gang med gjennom å ha lest hele denne guiden.

Vil du lære mer? Gå til datareisen.no for å fortsette å lære.

Start din egen datareise her:

DYBDEKURS:

Datareisen

Datareisen er et digitalt kurs om data – og hvordan det påvirker deg, meg og samfunnet rundt oss. Det tar cirka 10 timer å klikke seg gjennom kurset – men du kan gjøre dette i ditt eget tempo, når det passer deg.