Om å trene en datamodell

Om å trene en datamodell 

For å trene en datamodell brukes historiske data. Når en data scientist trener en modell, har hun fokus på at denne i stor grad klarer å forklare de historiske dataene, men at den også er generell nok til at den vil passe nye observasjoner. 

I eksempelet med mislighold av lån har man data fra tidligere lånekunder der man vet om disse har misligholdt lånet sitt eller ikke. Data om tidligere lånekunder brukes for å se om det er mulig å forutsi (før en kunde får godkjent et lån) om de kommer til å misligholde lånet sitt eller ikke. Dersom modellen klarer dette med god nok treffsikkerhet, kan modellen brukes for å avgjøre om en ny kunde vil få lån eller ikke.  

Får å kunne få et mål på treffsikkerheten til modellen, deler data scientisten opp de historiske datene i et treningssett og et testsett. Treningssettet brukes til å trene modellen, mens testsettet holdes helt utenfor mens modellen tilpasses. Når man er ferdig med modellen ser man hvor god modellen er til å forutsi riktig verdi for testdataene. Siden disse ikke er brukt til å tilpasse modellen, blir dette det samme som å få inn helt nye data.  

Fra resultatene på testsettet kan man si noe om hvor treffsikker modellen er på nye, usette data. Og ved å sammenligne hvor godt modellen treffer på treningssettet og testsettet, kan man finne ut om modellen er overtilpasset til treningsdataene eller ikke.