Hvor finner vi data?

Hvor finner vi data?

Hva slags egne data har dere? Hva slags data finnes åpent på nettet? I dette steget vil du lære om hvor det finnes data, og hvilken tilgang dere har.

Hva vi snakker om når vi snakker om data

Alle bedrifter har data – massevis av data! Vi har definert data som «opplysning som blir brukt i (eller kommer ut av) et databehandlingssystem». La oss se på noen eksempler på hva slags opplysninger det kan være snakk om for bedrifter.

Men aller først: Når vi skal snakke om datatyper og datakilder, må vi først bygge opp et lite ordforråd. Disse ordene og uttrykkene – som omhandler ting som dataenes eierskap, opphav, hvorvidt de er bearbeidet, og så videre – vil gjøre det lettere å henge med i svingene videre på reisen.

💡 Innsikt: Data-ordliste

  • Sanntidsdata vs. historiske data: Sanntidsdata er «live», og viser hva som skjer akkurat nå. Historiske data er registrert på et tidspunkt i fortiden
  • Strukturerte data vs. ustrukturerte data: Strukturerte data er organisert i en database etter bestemte regler. Ustrukturerte data er ikke organisert på noen spesiell måte
  • Kvantitative vs. kvalitative data: Kvantitative data beskriver mengde eller antall av noe. Kvalitative data beskriver tingens egenskaper, vil ofte måtte fortolkes, og kan ikke oppgis som konkrete tall
  • Rådata vs. prosesserte data: Rådata er ubehandlet data, som er registrert og samlet inn for eksempel av en sensor, men ikke gjort noe med. Prosesserte data er bearbeidet, for eksempel gjort om til et format som tillater visualisering og sammenligning med annen data
  • Åpne data vs. proprietære data: Åpne data er tilgjengelig uten spesielle tillatelser eller betaling. Proprietære data er det det motsatte av åpne data, og kan bare brukes på eiers betingelser
  • Metadata: Metadata er data om data, for eksempel filnavn, format, hva filen inneholder, hvor den kommer fra og når den sist ble redigert
  • Datasett: Et datasett er en organisert samling av data – for eksempel data om et gitt tema, eller fra en gitt kilde. Vil typisk være tilgjengelig som en nedlastbar fil, eventuelt gjennom et API (se 👩‍💻 faktaboks)
  • Datastrømmer: Når vi automatisk med jevne mellomrom får dynamiske/oppdaterte data fra en kilde (f.eks. et annet datasystem, en database eller en server), kalles det en datastrøm. Dette løses typisk med et API (se 👩‍💻 faktaboks), som gir oss et «sugerør» inn i datakilden

👩‍💻 Teknologier: API-er

API står for Application Programming Interface (eller programmeringsgrensesnitt på norsk).

Et API lar et datasystem tilby tjenester og data til andre datasystemer på en strukturert måte. API-et er et dokument som kan leses av maskiner i tillegg til mennesker. Det er satt opp etter helt bestemte regler, slik at andre programmer kan lese det og hente ut dataene de trenger. API-er kan gi oss tilgang til hele eller deler av andre programmer eller databaser. De som lager API-et, velger også akkurat hva de vil dele.

API-er er helt nødvendige for at dagens apper og nettsider skal fungere, og du bruker dem hver dag. For eksempel når du søker etter flyavganger på Finn.no, har naturligvis ikke Finn.no lagret alle verdens flyavganger på serverne sine. Så hvor får de dataene fra? De bruker API-er for å hente dem direkte fra flyselskapene. På samme måte har ikke Google Maps lagret alle verdens bussruter. Når du søker etter kollekivreiser i appen, hentes disse direkte fra reiseselskapene gjennom et API.

Tenk på det sånn: Hvis programmet er en restaurant, er API-et menyen som gir dem en strukturert måte å tilby mat til kunder. De som bruker API-et får tilgang til det de trenger, ferdig laget og lett fordøyelig; de kan enkelt integrere det i sine egne systemer. Samtidig har de ikke mulighet til å grave og snoke i kildekoder og servere, akkurat som at en restaurantgjest ikke har tilgang på kjøkkenet og alle ingrediensene.

Hvor finnes dataene?

En nyttig måte å sortere datakildene våre på, er etter hvilket nivå av tilgang vi har. Er du bevisst på hvilken tilgang dere har, er det også enklere å vite hva du kan gjøre med dataene og hvordan de kan bearbeides i senere faser. Vi kan dele det i fire nivåer:

1. Interne data.
Data dere eier og kontrollerer selv (se 💡 faktaboks under). Husk at selv om det er deres egne data, kan det være lover og reguleringer som legger føringer for hvordan de kan brukes, for eksempel med tanke på personvern.

2. Interne data utviklet/delt med kunder, partnere, leverandører, e.l.
Data dere helt eller delvis eier, men som også andre har eierskap til eller tilgang på. Dere kan ikke nødvendigvis endre eller bruke dataene fritt. Det kan være for eksempel tekniske begrensninger i programvare og datasystemer som gjør det vanskelig å få ut data til nye formål, begrensninger i avtaler med underleverandører, og så videre.

3. Eksterne, åpne data.
Data fra eksterne kilder som dere ikke eier, men som ligger åpent og som dere har tilgang på. Åpne data kan lastes ned eller integreres direkte i deres egne systemer gjennom API-er. Et typisk eksempel er data fra Brønnøysundregistrene.

4. Eksterne, proprietære data.
Data fra eksterne kilder som dere ikke eier, og ikke uten videre har tilgang på eller lov til å bruke. Kan være tilgjengelige mot betaling eller under andre forutsetninger.

Interne data

La oss ta for oss de interne og eksterne datakildene i tur og orden. Først, hvilke data dere har internt, eller deler med kunder, leverandører og samarbeidspartnere – altså punkt 1 og 2 på listen over. Hva kan det være snakk om?

💡 Innsikt: Hva slags egne data har dere?

Selv om hver virksomhet har sitt eget, unike datatilfang, er det ikke dermed sagt at vi ikke kan gjøre noen generaliseringer. De fleste virksomheter har data fra og om …

  • Kunder: Navn, adresser, e-post, demografi, sted, organisasjonsnummer, kundeserviceinteraksjoner, historikk, leads, potensielle kunder
  • Nettside: Brukeradferd, kilder, henvisninger, bounce rate, SEO
  • Sosiale medier: Målgrupper, publikum, annonser, resultater, engasjement, pengebruk
  • Forsyningskjeder: Leverandørdata, pris, beholdning, logistikk, transport, bestillinger, potensielle leverandører
  • Marked / bransje: Konkurrenter, priser, trender, søketrender, undersøkelser, relaterte produkter og tjenester, forretningsmodeller
  • Drift: Tidsseriedata, sensorer, kontrollsystemer, utstyrsdata, vedlikeholdsdata
  • Regnskap og transaksjoner: Kjøp, salg, faste utgifter, faste inntekter, andre utgifter og inntekter

Alt dette er data som dere potensielt kan sammenstille og tolke, og i neste omgang oppdage verdifulle innsikter. Dessuten er dette kun noen eksempler, ikke en komplett liste. Du kommer sikkert på enda flere eksempler fra din egen bedrift?

Den gode nyheten er at dere har massevis av data. Den dårlige nyheten er at de mest sannsynligvis er spredt for alle vinder…

Dataene ligger hver for seg, på tvers av ulike datamaskiner, programmer, tjenester og databaser. Noe er strukturert, noe er ustrukturert. Noe er rådata, annet er prosessert. Noe kan brukes fritt, annet kan bare brukes med andres samtykke.

Ikke bare ligger dataene ulike steder med mange separate innlogginger. De overlapper, de har helt ulike formater, det er helt forskjellige typer data, og, og… uæh, for et mareritt!?

Når data er separert på denne måten sier vi at den ligger i «siloer». Så lenge dataene ligger i siloer, er det veldig vanskelig å ta dem i bruk eller sammenligne dem på kryss og tvers. Vi må altså løfte dem ut av siloene for å skape mening og verdi. Men ikke stress for mye med det ennå. Det finnes løsninger, og du kommer til å lære om dem – det er derfor vi har denne veiviseren!

Eksterne data

Et av de beste verktøyene vi har for å løfte data ut av siloer har vi faktisk snakket om allerede, nemlig API-er. Det er også et uvurderlig verktøy når vi skal ta i bruk data fra eksterne kilder.

Noen målsettinger vil kreve at dere blir kjempegode på å utnytte deres egne data, men andre målsettinger kan handle om å ta i bruk andres data. Selv om dere har massevis av egne data i virksomheten, er det likevel bare en dråpe i havet sammenlignet med de totale datamengdene som finnes på nettet.

Noen ganger kan vi, gjennom kjøp eller avtaler, få tilgang på proprietære data som tilhører andre virksomheter (punkt 4 på listen over). Men enda mer interessant er alt det som finnes av åpent tilgjengelige datasett og API-er (punkt 3).

Nedenfor ser du noen eksempler på hva slags offentlige data som ligger åpent tilgjengelig på nettet.

💡 Innsikt: Hva slags åpne data finnes på nettet?

Norge er et av de landene i verden som er best på å tilgjengeliggjøre alle mulige data – både for å sikre transparens, og fordi det kan lede til massevis av spennende innovasjon og verdiskapning. Både offentlig og privat sektor deler mye data, om alt fra kollektivreiser til bedriftsinformasjon.

Digitaliseringsdirektoratet oppgir selv følgende eksempler på åpne data fra offentlig sektor:

  •  Værdata fra Meteorologisk institutt
  •  Dybdedata fra Statens kartverk
  •  Trafikkinformasjon fra Statens vegvesen
  •  Ladestasjoner for elbiler fra Enova
  •  Matvaretabellen fra Mattilsynet

Noen ganger er det snakk om et ferdig, statisk datasett du kan laste ned. Andre ganger er det snakk om et API som kontinuerlig fôrer oppdaterte data – for eksempel værdata, organisasjonsdata og trafikkdata – til dine egne systemer og appliksjoner.

Det er bare toppen av isfjellet. I tillegg til data fra det offentlige, finnes det mange åpne datasett og API-er fra privat sektor.

I neste steg skal vi se nærmere på hvordan vi kan tilgjengeliggjøre data på tvers av mange ulike kilder – og nærme oss å bli en datadrevet virksomhet.