Å rydde opp i dataene

Opprydning i dataene

Hva vil det si å rydde opp i dataene våre? Hvilke hensyn må vi ta underveis? Her vil du lære de grunnleggende prinsippene du må kjenne til for å bearbeide data.

Å rydde og sortere data

Hvordan dataopprydningen vil se ut og hva det innebærer, vil variere fra virksomhet til virksomhet, og datasett til datasett. Men det er en del ting som går igjen, som vi må tenke på under innsamlingen og opprydningen – samme hvor dataene skal ende opp.

Det koker ned til et enkelt prinsipp (unnskyld språket): «Shit in, shit out». Sørg for at fundamentet er godt, så kan du også vente deg et bedre resultat til slutt.

💡 Innsikt: Opprydning på 1-2-3

Sitter dere med dupliserte eller overlappende data? Ufullstendige data? Lignende data som likevel bruker forskjellige verdier eller formater? Hva med data om de samme tingene fra flere ulike kilder? Her må det ryddes!

Her er noen ting vi må ta hensyn til:

Opphav og pålitelighet
Vet du hvor dataene dine kommer fra? Kan du stole på kilden? Vil dataene forbli pålitelige over tid, eller kan noe eller noen plutselig endre dem utenfor din kontroll? Disse hensynene er kjent under det engelske begrepet «data lineage».

Datakvalitet
Det er én ting om dataene er konsistente. Det er noe annet hvorvidt de faktisk stemmer overens med det det skal representere i virkeligheten. Er dataene komplette, eller er det manglende verdier? Er dataene korrekte, eller er det målinger som er gale? Finnes det ekstreme verdier som må fjernes? Gir dataene et riktig bilde av det vi ønsker å undersøke? Hvis du for eksempel er interessert i å vite hvor mange som har lest en artikkel på nettsiden din, men kun har tall på de som leser på PC, og mangler tall fra nettbrett og mobil, da gir ikke dataene et godt svar på spørsmålet ditt. Dette handler også om å sørge for at riktige variabler er til stede. Var du interessert i å sortere kundelisten etter kjønn, inntekt, jobb eller sivilstatus? Har du i så fall data om dette?

Format og verdier
Skal dataene dine være sammenlignbare og brukbare på kryss og tvers, må de ha samme format og verdier. Oppgir du temperatur i Celsius ett sted, og Fahrenheit et annet? Går én skala fra 1 til 100, og en annen fra 1 til 5? Bruker du ulike navn på de samme variablene på ulike steder? (Hvis du har separate datasett som bruker ulike verdier på denne måten, går det heldigvis an å automatisere mye av opprydningen).

Identifikasjon
Det kan være fort gjort å gå i surr med hvilke data som beskriver hvilke ting i virkeligheten. Et unikt navn/ID vil hjelpe deg med å holde styr på hva som hører hjemme hvor. ID-en kan være helt vilkårlig, men det kan også være for eksempel et organisasjonsnummer. Er du nøye med å merke all data om samme ting (en maskin, en leverandør, en variabel) med samme ID, kan du enkelt finne all data om denne tingen senere, og det blir også mye mer ryddig og enkelt å sortere datasettet.

Synkronisering
Ofte er det interessant å samle og sammenligne data over tid. Om du for eksempel har en tank med ulike sensorer som måler temperatur og trykk, er det viktig å kunne sammenligne målingene fra hver sensor på et helt bestemt tidspunkt. Til dette bruker vi tidsserier, som enkelt og greit er datapunkter som er sortert etter tid. Skal dataene være sammenlignbare, er det viktig at målingene er synkroniserte og skjer med samme intervaller.

Gå ut med søpla
Når dataene er organisert, blir det lettere å se hva som overlapper og ikke passer inn. Nå må datasettet vaskes og kontrolleres for å unngå duplikater, feil eller ufullstendig informasjon. Puslespillet er lagt, og nå ser du hvilke brikker som er til overs.

Det er ikke vits å si noe annet enn at denne delen av jobben kan være ordentlig kjedelig. Men det er også ekstremt viktig. Her gjelder det å være nøyaktig!

Lettere sagt enn gjort?

Å rydde opp og organisere data kan være både veldig enkelt og ekstremt komplisert, avhengig av hva som er målsettingen deres, og hvor innfløkt datamaterialet er.

I den enkle enden av skalaen kan du cruise enkelt gjennom til 3. etappe, og ganske kjapt ta dataene dine i bruk. For eksempel ved å bearbeide enkle datasett i Microsoft Excel, eller ved å ta i bruk et verktøy som Google Analytics. Dette skal vi ta for oss mot slutten av etappen.

I mange tilfeller er det imidlertid ikke fullt så lett. I neste steg, som omhandler dataplattformer, skal vi se på noen litt mer kompliserte scenarier – som til gjengjeld også åpner for fantastisk spennende muligheter.