Il nostro percorso sulla data science methodology, iniziato con il Business Understarning e l’Analytic Approach, seguito dal Data Requirments e Data Collection, prosegue ora con la definizione del Data Understaning e Data Preparation.
Data Understanding
In questa fase è fondamentale capire se i dati in nostro possesso siano o meno rappresentativi del problema individuato nel Business Understanding.
Qualora non lo fossero, andrebbe rivista la fase di Data Collection o addirittura di Data Requirments. In caso contrario è possibile procedere oltre.
Usiamo la statistica descrittiva per prendere dimestichezza con gli attributi in gioco e i loro valori.
Gli istogrammi sono utili a questo proposito per capire la distribuzione di frequenza delle variabili e la tipologia di data preparation richiesta.
Ad esempio, una feature categoria con molte spare classes può essere gestita riducendone la variabilità a poche classi, ma efficaci.
Possiamo usare la segmentazione univariata per evidenziare correlazioni tra variabili categoriche e numeriche.
Attraverso il Data Understanding è anche possibile valutare la qualità dei dati, riscontrando eventuali valori mancanti (missing values), invalidi o fuorvianti. Così come la presenza di outliers.
The missing problem
Affermare che un dato sia mancante è più difficile di quanto potresti pensare.
Dobbiamo per prima cosa capire cosa singiifca missing:
- equivale a zero
- manca perché non lo conosciamo
- è stato raccolto erroneamente (età di 999 in una scala 0-100)
- la mancanza ha un significato da considerare
Data Preparation
E’ la fase succesiva al Data Understanding, nella quale i dati sono aggregati da differenti fonti e manipolati affinché risultino facilmente gestibili.
I task che dobbiamo prendere in considerazione sono:
- eliminazione duplicati
- correzione valori mancanti o invalidi, e outliers
- controllo formattazione dati
Generlamente in questa fase siamo coadiuvati dai DBAs Database Administrators per:
- definire le variabili da usare nel modello
- aggregare e unire i dati
- identificare i valori mancanti e la loro natura
Il Data Understaing, fase d’esecuzione dell’Exploratory data Analysis, insieme alla Data Preparation costituiscono la quasi totalità del tempo dedicato ad un progetto di data science.
Un riferimento numerico? Dal 70 al 90%.
Un’attività fondamentale, la più delicata e lunga, è quella definita di Feature Engineering.
E’ qui che avviene la magia: il data scientist sfrutta le conoscenze di dominio e le sue abilità tecniche per creare nuove features rivelatorie.
E’ la più delicata perché se mal eseguita, intacca sensibilmente le prestazioni del modello, ma al contrario se portata a termine in modo corretto produce ottimi risultati.
Prossime fasi?
Un caldo abbraccio, Andrea
No Comment