• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science, Guide

Overplotting: cos’è e come porvi rimedio | Towards Data Science

Overplotting: cos’è e come porvi rimedio | Towards Data Science

L’Overplotting è il fenomeno in cui i data points o i labels si sovrappongono durante la loro visualizzazione in un grafico, generando confusione che potrebbe portare ad errori di interpretazione.

Imparare a distinguere e gestire questo fenomeno è cruciale per ogni Data Scientis.

Overplotting: cause

Parlando di data points, le due grandi cause di overplotting sono:

  • eccessivo numero di data point visualizzati contemporanemente sullo stesso grafico
  • variazione bassa di una delle variabili visualizzate (ergo, il numero di valori unici è limitato)

Troppi data points con valori simili

Grafico a dispersione con relazione tra carati (< 3) e prezzo diamanti

Il grafico, che fa riferimento al dataset diamonds della libreria ggplot2 di R, mostra il fenomeno di Overplotting che risulta particolarmente evidente quando il valore ‘Carat’ è inferiore a circa 1.2.

Ci sono troppi valori simili.

Ora ti chiedo: “Quanti diamanti hanno un valore ‘Carat’ inferiore a 1?”

Rispondere, anche in modo approsimativo, è impossibile.

Il problema è che non riusciamo a visualizzare il numero di diamanti con quei valori. Potrebbero anche essere milioni, sovrapposti l’uno sull’altro.

E’ un’evenienza che non possiamo trascurare.

Variazione eccessivamente ridotta

Il grafico a dispersione mostra la ridotta variazione della variabile ‘Income’

Il grafico a dispersione mette in relazione l’età in funzione del salario di alcuni campioni di un dataset.

Il problema è analogo a quello precedente.

Non possiamo stabilire quante persone di età pari a 60 anni guadagnino 50.000$. Potrebbe essere una o 150 milioni.

Il fenomeno dell’Overplotting è distinguibile dal fatto che i dati visualizzati sono organizzati in righe e colonne nette.

In questo caso la causa potrebbe essere legata al modo in cui i dati sono stati raccolti: è stato ridotto in modo eccessivo la variazione della variabile ‘Income’.

Ad esempio, l’età di persone comprese tra i 61 e i 70 anni è potrebbe essere stata fissata a 75.

Soluzioni all’Overplotting

Vediamo insieme alcune soluzioni.

Dimensioni

Soluzione al fenomeno di Overplotting

Il grafico è simile al precedente. L’unica differenza è la dimensione dei punti rappresentanti i data points.

Ti faccio notare che, sebbene la situazione sia leggermente migliorata, l’overplotting è ancora presente: limitarsi a modifcare l’estetica del grafio , cambiando la dimensione dei data points, non è una soluzione definitiva.

Trasparenza

Modifcare la trasparenza dei punti rappresentanti i data points è una strategia efficace, poiché è visivamente immediato verificarne l’esito: le regioni più dense, quindi scure, sono causate da sovrapposizioni multiple.

Resta comunque difficile cogliere la grandezza dell’overplotting.

Jittering

Risolvere l’overplotting creando ‘rumore‘ nel dataset.

Aggiungere dei numeri generati casualmente ai valori di un dataset è utile quando la variazione è bassa.

Potrebbe sembrare controintuitivo manipoalre in questo modo i dati, che di fatto sono falsati.; su piccola scala il grafico è meno accurato, ma in grande scala la rilevanza aumenta.

Tiles | Best Solution for small variation

La migliore soluzione, a mio avviso, per gestire il fenomeno di Overplotting quando la variazione è bassa è quella di creare dei grafici in cui l’area dei punti rappresentanti i dati è proporzionale al loro numero.

Fonte

Spero di averti aiutato almeno un po’!

Io e te ci vediamo alla prossima!

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Gennaio 7, 2019
Tags | data science, data scientist, machine learning

You Might Also Like

logistic-regression-data-science-machine-learning-linear-regression-guida-italiano-regressione-logistica-formula-matematica-italiano-scaled

Logistic Regression

Dicembre 6, 2019
rrn-tensorflow-example-deep-learning-guida-italiano-recurrent-neural-network

RNN Tutorial Tensorflow: Music Generation

Aprile 5, 2020

Standardization python | Towards Machine Learning

Maggio 29, 2019
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • rust-react-webassembly-privacy-preserving-machine-learning Logs

    Rust, WebAssembly, React e un MVP

    Dicembre 21, 2020
  • diffie-hellman-key-exchange-protocol-scambio-di-chiavi-diffie-hellman Data Science, Privacy Preserving

    Cos’è lo scambio di chiavi Diffie-Hellman (DH)? | Privacy Preserving

    Dicembre 15, 2020
  • principio-di-esattezza-data-science-machine-learning-gdpr-data-accuracy Data Science, GDPR Compliant

    GDPR: Principio di esattezza dei dati (Data Accuracy)

    Dicembre 12, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TFX: come funziona Tensorflow Extended?

    Dicembre 9, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TensorFlow Extended (TFX) | Production Machine Learning Pipeline

    Dicembre 6, 2020
  • mean-shift-clustering-guida-italiano-spiegazione-semplice-algoritmo-di-clustering-esempio Data Science

    Mean-Shift Clustering

    Dicembre 3, 2020
  • data-minimization-principle-gdpr-principio-minimizzazione-dati-personali-gdpr-italia-consulenza-spiegazione-semplice Data Science, GDPR Compliant

    GDPR: Principio di minimizzazione dei dati (Data minimization)

    Dicembre 1, 2020
  • machine-learning-for-finance-trading-online-data-science-deep-learning-intelligenza-artificiale AI, machine-learning

    FinTech: Machine Learning for Finance (FinML) | Guide e Risorse di qualità

    Novembre 29, 2020
  • gdpr-principio-di-limitazione-della-finalita-machine-learning-data-science-guida-prupose-limitation-gdpr Data Science, GDPR Compliant

    GDPR: Principio di Limitazione della finalità | Purpose Limitation

    Novembre 26, 2020
  • machine-learning-engineer-lavoro-stipendio-responsabilità-come-diventare AI, Business, machine-learning

    Machine Learning Engineer

    Novembre 23, 2020

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino