Å jobbe med data science

Å jobbe med data science 

Arbeidsflyten til en data scientist er en iterativ (gjentakende/repetitiv) prosess. Det første de vil gjøre er å forstå det grunnleggende problemet de prøver å løse. Da sitter de sammen med sluttbrukeren og stiller spørsmål for å forstå deres utfordringer. 

Den neste fasen i arbeidsflyten er datainnhenting. Dette innebærer å samle de nødvendige dataene fra ulike kilder. 

Deretter kommer det en kaller datapreparasjon – altså forberedelse av dataen. Dette involverer rengjøring («data cleaning») og transformering. Data cleaning handler blant annet om å finne ut: Er dataene komplette, eller er det manglende verdier? Er dataene korrekte, eller er det målinger som er gale? Finnes det ekstreme verdier som må fjernes? Datatransformering, på sin side, handler om å få alle dataene på samme format – eksempelvis at alle sensormålinger bruker samme enheter og måletidspunkter. 

Datainnhenting og datapreparasjon er de mest tidkrevende delene av arbeidsflyten til en data scientist. Ofte bruker en data scientist 80 prosent av tiden sin bare på å samle og klargjøre dataene. Men som nevnt i forrige kapittel, jobbes det med å langt på vei automatisere denne delen av jobben.