• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science, machine-learning

Data Understanding e Data Preparation | Data Science Methodology

Data Understanding e Data Preparation | Data Science Methodology

Il nostro percorso sulla data science methodology, iniziato con il Business Understarning e l’Analytic Approach, seguito dal Data Requirments e Data Collection, prosegue ora con la definizione del Data Understaning e Data Preparation.

La Data Science Methodology è una metodologia, cioé un sistema di metodi che, usati in una particolare area di studi, permettono di organizzare ordinatamente i task da completare per raggiungere uno specifico obiettivo.

Data Understanding

In questa fase è fondamentale capire se i dati in nostro possesso siano o meno rappresentativi del problema individuato nel Business Understanding.

Qualora non lo fossero, andrebbe rivista la fase di Data Collection o addirittura di Data Requirments. In caso contrario è possibile procedere oltre.

Usiamo la statistica descrittiva per prendere dimestichezza con gli attributi in gioco e i loro valori.

Gli istogrammi sono utili a questo proposito per capire la distribuzione di frequenza delle variabili e la tipologia di data preparation richiesta.

Ad esempio, una feature categoria con molte spare classes può essere gestita riducendone la variabilità a poche classi, ma efficaci.

Possiamo usare la segmentazione univariata per evidenziare correlazioni tra variabili categoriche e numeriche.

Attraverso il Data Understanding è anche possibile valutare la qualità dei dati, riscontrando eventuali valori mancanti (missing values), invalidi o fuorvianti. Così come la presenza di outliers.

The missing problem

Affermare che un dato sia mancante è più difficile di quanto potresti pensare.

Dobbiamo per prima cosa capire cosa singiifca missing:

  • equivale a zero
  • manca perché non lo conosciamo
  • è stato raccolto erroneamente (età di 999 in una scala 0-100)
  • la mancanza ha un significato da considerare

Data Preparation

E’ la fase succesiva al Data Understanding, nella quale i dati sono aggregati da differenti fonti e manipolati affinché risultino facilmente gestibili.

I task che dobbiamo prendere in considerazione sono:

  • eliminazione duplicati
  • correzione valori mancanti o invalidi, e outliers
  • controllo formattazione dati

Generlamente in questa fase siamo coadiuvati dai DBAs Database Administrators per:

  • definire le variabili da usare nel modello
  • aggregare e unire i dati
  • identificare i valori mancanti e la loro natura

Il Data Understaing, fase d’esecuzione dell’Exploratory data Analysis, insieme alla Data Preparation costituiscono la quasi totalità del tempo dedicato ad un progetto di data science.

Un riferimento numerico? Dal 70 al 90%.

Un’attività fondamentale, la più delicata e lunga, è quella definita di Feature Engineering.

E’ qui che avviene la magia: il data scientist sfrutta le conoscenze di dominio e le sue abilità tecniche per creare nuove features rivelatorie.

E’ la più delicata perché se mal eseguita, intacca sensibilmente le prestazioni del modello, ma al contrario se portata a termine in modo corretto produce ottimi risultati.

Prossime fasi?

  • 4 – Data Modelling e Model Evaluation
  • 5 – Model Deployment e Feedback

Un caldo abbraccio, Andrea

Written by Andrea Provino - Settembre 18, 2019
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • fully-homomorphic-encryption-crittografia-completamente-omomorfica Privacy Preserving

    Cos’è la Crittografia Omomorfica | Homomorphic Encryption (HE)

    Marzo 4, 2021
  • data-science-for-finance-machine-learning-deep-learning-data-science-use-cases-use-cases Business, Data Science, machine-learning

    Data Science for Finance | Use Cases per il Data Scientist

    Febbraio 13, 2021
  • differential-privacy-example-privacy-differenziale-esempio-italiano-applicazioni-reali Business, Data Science, Privacy Preserving

    Differential Privacy Example | Esempi di privacy differenziale

    Febbraio 10, 2021
  • privacy-enhancing-technologies-techniques-machine-learning-data-science-pets-guida-italiano-spiegazione-semplice Business, Data Science, machine-learning, Privacy Preserving

    Cosa sono le Privacy-enhancing technologies o techniques (PETs)

    Febbraio 7, 2021
  • condivisione-dati-finance-fintech-problems-machine-learning-for-finance-data-science-deep-learning-case-study Business

    Problemi della condivisione dati in finanza | Finance data sharing problems

    Febbraio 4, 2021
  • finance-privacy-settore-finanziario-dati-privacy-enhancing-technologies-ai Business

    Il legame tra Privacy Dati AI nel settore finanziario

    Febbraio 1, 2021
  • rust-react-webassembly-privacy-preserving-machine-learning Logs

    Rust, WebAssembly, React e un MVP

    Dicembre 21, 2020
  • diffie-hellman-key-exchange-protocol-scambio-di-chiavi-diffie-hellman Data Science, Privacy Preserving

    Cos’è lo scambio di chiavi Diffie-Hellman (DH)? | Privacy Preserving

    Dicembre 15, 2020
  • principio-di-esattezza-data-science-machine-learning-gdpr-data-accuracy Data Science, GDPR Compliant

    GDPR: Principio di esattezza dei dati (Data Accuracy)

    Dicembre 12, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TFX: come funziona Tensorflow Extended?

    Dicembre 9, 2020

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino