Blog.

Data Understanding e Data Preparation | Data Science Methodology


Autore
Andrea Provino
Data
Tempo di lettura
3 minuti
Categoria
Data Science, machine-learning

data-understanding-data-preparation-data-science-methodology-exploratory-data-analysis

Il nostro percorso sulla data science methodology, iniziato con il Business Understarning e l’Analytic Approach, seguito dal Data Requirments e Data Collection, prosegue ora con la definizione del Data Understaning e Data Preparation.

La Data Science Methodology è una metodologia, cioé un sistema di metodi che, usati in una particolare area di studi, permettono di organizzare ordinatamente i task da completare per raggiungere uno specifico obiettivo.

Data Understanding

In questa fase è fondamentale capire se i dati in nostro possesso siano o meno rappresentativi del problema individuato nel Business Understanding.

Qualora non lo fossero, andrebbe rivista la fase di Data Collection o addirittura di Data Requirments. In caso contrario è possibile procedere oltre.

Usiamo la statistica descrittiva per prendere dimestichezza con gli attributi in gioco e i loro valori.

Gli istogrammi sono utili a questo proposito per capire la distribuzione di frequenza delle variabili e la tipologia di data preparation richiesta.

Ad esempio, una feature categoria con molte spare classes può essere gestita riducendone la variabilità a poche classi, ma efficaci.

Possiamo usare la segmentazione univariata per evidenziare correlazioni tra variabili categoriche e numeriche.

Attraverso il Data Understanding è anche possibile valutare la qualità dei dati, riscontrando eventuali valori mancanti (missing values), invalidi o fuorvianti. Così come la presenza di outliers.

The missing problem

Affermare che un dato sia mancante è più difficile di quanto potresti pensare.

Dobbiamo per prima cosa capire cosa singiifca missing:

  • equivale a zero
  • manca perché non lo conosciamo
  • è stato raccolto erroneamente (età di 999 in una scala 0-100)
  • la mancanza ha un significato da considerare

Data Preparation

E’ la fase succesiva al Data Understanding, nella quale i dati sono aggregati da differenti fonti e manipolati affinché risultino facilmente gestibili.

I task che dobbiamo prendere in considerazione sono:

  • eliminazione duplicati
  • correzione valori mancanti o invalidi, e outliers
  • controllo formattazione dati

Generlamente in questa fase siamo coadiuvati dai DBAs Database Administrators per:

  • definire le variabili da usare nel modello
  • aggregare e unire i dati
  • identificare i valori mancanti e la loro natura

Il Data Understaing, fase d’esecuzione dell’Exploratory data Analysis, insieme alla Data Preparation costituiscono la quasi totalità del tempo dedicato ad un progetto di data science.

Un riferimento numerico? Dal 70 al 90%.

Un’attività fondamentale, la più delicata e lunga, è quella definita di Feature Engineering.

E’ qui che avviene la magia: il data scientist sfrutta le conoscenze di dominio e le sue abilità tecniche per creare nuove features rivelatorie.

E’ la più delicata perché se mal eseguita, intacca sensibilmente le prestazioni del modello, ma al contrario se portata a termine in modo corretto produce ottimi risultati.

Prossime fasi?

Un caldo abbraccio, Andrea


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum