• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
machine-learning

Bad Data | Machine Learning Challenges Part 1

Bad Data | Machine Learning Challenges Part 1

Uno delle più grandi sfide nel Machine Learning è gestire una qualità dati scadente o pessima: ecco i “bad data”.

Bad Data | The importance of Data

Dobbiamo fissarci in testa un concetto fondamentale:

better data defeats fancier alogithms

In altre parole, è fondamentale avere dati a sufficienza che siano utili.

Riguardo ai dati di cattiva qualità invece, distinguiamo 4 situazioni.

Insufficient Quantity of Training Data

Persino il più semplice dei problemi richiede un numero elevato di samples da cui imparare.

Problemi complessi come il riconoscimento vocale, o delle immagini, arrivano a voler milioni di esempi per poter performare decorosamente.

Ecco perché in loro assenza si adottano tecniche specifiche come il parziale utilizzo di modelli precedentemente allenati su altri datasets. Approfondiremo questo concetto più avanti.

In uno studio pubblicato nel 2001, intitolato “Learning Curves for Confusion Set Disambiguation” due ricercatori della Microsfot hanno mostrato come differenti algoritmi siano identici in termini di prestazioni su problemi complessi quando gestiscono una mole di dati sufficientemente alta.

Nonrepresentative Training Data

Sappiamo che un modello deve poter generalizzare bene. Per farlo è mandatorio che i dati di training siano rappresentativi del problema dato.

Questo discorso vale tanto per l’instance-based learning quanto per il model-based learning.

E’ difficile prestare attenzione ad un problema simile, poiché produce errori a cascata.

Infatti, se il campione di dati è piccolo c’è il rischio del sampling noise (nonrepresentative data frutto del caso).

Inoltre se il problema è legato ad un raccolta dati imperfetta, persino campioni di più vasta dimensione possono risultare problematici: sampling bias.

Poor Quality Data

Tra gli elementi che minano la qualità di un dataset, troviamo:

  • outliers
  • rumore (noise, generato da misurazioni scorrette)
  • errori

La loro presenza compromette la capacità del sistema di individuare le relazioni nascosta tra i dati (underlying patterns).

Questo è il motivo per cui è fondamentale investire buona parte del tempo nella pulizia dei dati.

Irrelevant Features

L’ultimo tallone d’Achille dei dati sono le irrelevant features.

Penseresti mai di poter prevedere il peso di una persona sulla base del tempo meteorologico?

Una parte critica, annoverata tra le più importanti e delicate, di ogni progetto di machine learning è definita di feature engineering. Questo processo iterativo implica:

  • feature selection, nel quale sono selezionare le features ritenute maggiormente utili per la fase di training
  • feature exraction, nel quale almeno due features sono combinate per produrne una di più alto valore.
  • features creation, nel quale nuove features sono create raccogliendo nuovi dati.

Nel prossimo post, vedremo la seconda grande sfida nei progetti di machine learning: bad algorithms!

Un caldo abbraccio, Andrea

Written by Andrea Provino - Settembre 10, 2019
Tags | machine learning

You Might Also Like

clustering-tutto-quello-che-devi-sapere-clustering-data-science-machine-learning-guida-italiano

Clustering: tutto quello che devi sapere | Edizione 2021

Novembre 15, 2020
artificial_neural_network_explanation_spiegazione_semplice_rete_neurale_artificiale_data_science_machine_learning_blog_guida_italiano_backpropagation_perceptron_bias

Artificial Neural Network – ANN| Rete Neurale Artificiale

Gennaio 22, 2020

Machine Learning Pipelines cosa sono? In italiano

Settembre 21, 2019
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • 100Post

    Buon compleanno

    Marzo 30, 2021
  • fully-homomorphic-encryption-crittografia-completamente-omomorfica Privacy Preserving

    Cos’è la Crittografia Omomorfica | Homomorphic Encryption (HE)

    Marzo 4, 2021
  • data-science-for-finance-machine-learning-deep-learning-data-science-use-cases-use-cases Business, Data Science, machine-learning

    Data Science for Finance | Use Cases per il Data Scientist

    Febbraio 13, 2021
  • differential-privacy-example-privacy-differenziale-esempio-italiano-applicazioni-reali Business, Data Science, Privacy Preserving

    Differential Privacy Example | Esempi di privacy differenziale

    Febbraio 10, 2021
  • privacy-enhancing-technologies-techniques-machine-learning-data-science-pets-guida-italiano-spiegazione-semplice Business, Data Science, machine-learning, Privacy Preserving

    Cosa sono le Privacy-enhancing technologies o techniques (PETs)

    Febbraio 7, 2021
  • condivisione-dati-finance-fintech-problems-machine-learning-for-finance-data-science-deep-learning-case-study Business

    Problemi della condivisione dati in finanza | Finance data sharing problems

    Febbraio 4, 2021
  • finance-privacy-settore-finanziario-dati-privacy-enhancing-technologies-ai Business

    Il legame tra Privacy Dati AI nel settore finanziario

    Febbraio 1, 2021
  • rust-react-webassembly-privacy-preserving-machine-learning Logs

    Rust, WebAssembly, React e un MVP

    Dicembre 21, 2020
  • diffie-hellman-key-exchange-protocol-scambio-di-chiavi-diffie-hellman Data Science, Privacy Preserving

    Cos’è lo scambio di chiavi Diffie-Hellman (DH)? | Privacy Preserving

    Dicembre 15, 2020
  • principio-di-esattezza-data-science-machine-learning-gdpr-data-accuracy Data Science, GDPR Compliant

    GDPR: Principio di esattezza dei dati (Data Accuracy)

    Dicembre 12, 2020

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino