Il nostro percorso sulla data science methodology, iniziato con il Business Understarning e seguito dall’Analytic Approach, prosegue ora con la definizione del data requirments e del data collection.
La Data Science Methodology è una metodologia, cioé un sistema di metodi che, usati in una particolare area di studi, permettono di organizzare ordinatamente i task da completare per raggiungere uno specifico obiettivo.
Nel precedente post abbiamo individuato i primi due step:
- Business Understaning
- Analytic Approach
Ora vediamone altri due.
Data Requirments
L’ Analytic Approach scelto determina i requisiti che i dati devono avere da un punto di vista:
- contenutistico
- strutturale e rappresentativo
A questo punto il domain knownledge gioca un ruolo fondamentale.
Individuare quali siano i dati necessari alla soluzione del problema soddisfa questa fase della data science methodology.
Data Collection
In una fase preliminare, siamo chiamati a identificare e raccogliere tutti i dati disponibili. Possono presentarsi come dati:
- strutturati
- non strutturati
- semi-strutturati
E’ fondamentale chiarire da quali fonti vengano raccolti i dati, ed è assolutamente naturale rimandare decisioni su quelli non disponibili, tentandone la raccolta in una successiva fase. (ad esempio per migliorare le performance del modello, se necessario).
Utile a questo proposito è la collaborazione con i DBA (Data Base Admins) per coordinare l’attività di raccolta, e merging dei dati, volta ad eliminare inutili ridondanze.
Inoltre, è spesso possibile automatizzare determinati processi all’interno dei database così da facilitare il data collection.
Nel prossimo post analizziamo le successive fasi della data science methodology:
- 3 – Data Understanding e Data Preparation
- 4 – Data Modelling e Model Evaluation
- 5 – Model Deployment e Feedback
Un caldo abbraccio, Andrea