• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science, machine-learning

The Bias / Variance Tradeoff

The Bias / Variance Tradeoff

Il Bias / Variance Tradeoff è un importante concetto da tenere a mente durante la creazione di un modello di machine learning.

Comprenderlo ci aiuterà non solo a creare modelli più precisi ma anche a evitare d’imbatterci in underfitting e overfitting, due avversari temibili.

L’errore di generalizzazione di un modello (model’s generalization error) può essere espresso come la somma di tre differenti errori:

  • Variance
  • Bias
  • Irreducible Error

Procediamo con ordine.

Variance

La Varianza fa riferimento alla sensibilità (sensitivity) del modello alle piccole variazioni nel dataset di training.

Cresce all’aumentare dei gradi di libertà (degrees of freedom).

Ad esempio, è assai probabile che un modello polinomiale di alto grado abbia una high variance e di conseguenza sia prone all’overfitting.

Questo perché l’attenzione posta ai dati di training è eccessiva, e la generalizzazione su quelli mai visti prima pessima.

Come risultato, le performance in allenamento sono ottime e in testing scandalose: overfitting!

Intuitivamente, la variance indica la diffusione dei nostri dati, la loro distribuzione.

Bias

Un termine, tanti signfiicati.

In passato abbiamo trattato il bias all’interno di una rete neurale, e più in generale come parametro di un modello lineare (linear regression).

Qui, ha un significato diverso.

In questo contesto usiamo il termine bias per riferirci all’accuratezza del modello (accuracy), che può essere influenzata dalle assunzioni errate. (wrong assumption)

Pensiamo che i dati abbiano una relazione lineare invece che quadratica? Wrong Assumption.

Con un high bias (scarsa accuratezza) c’è un’alta tendenza all’underfitting, perché l’attenzione posta ai dati di training è minima.

Matematicamente tradotto, il bias assume il valore della differenza tra la previsione media del modello e quello corretto.

Per riassumere:

Irreducible Error

L’Irreducible Error è la terza tipologia di errore a concorrere nella determinazione del Generalization Error.

Il termine è sufficientemente esplicativo.

Banalmente, non può essere ridotto. Perché?

Perché dipende dai dati!

L’Irreducible Errror è infatti legato al rumore (noisiness) presente nei dati. L’unico modo per attenuarne l’effetto, riducendo questa parte dell’errore, è operare:

  • Rimuovendo outliers
  • Controllando le sorgenti dei dati (sensori mal funzionanti)

Il generalization error sarà quindi definito come:

Generalization Error = Bias*Bias + Variance + Irreducible Error

Il Bias / Variance Tradeoff

Probabilmente, avrai già delineato il compromesso che occorre trovare tra le due principali metriche.

All’aumentare della complessità di un modello infatti, la variance crescerà mentre la bias diminuirà (overfitting)

Contrariamente, ridurre la complessità implica un aumento del bias e una diminuzione della variance. (underfitting)

Risultati immagini per variance bias tradeoff

L’equilibrio? Occorre trovare un compromesso…

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Dicembre 3, 2019
Tags | data science, machine learning, teoria

You Might Also Like

machine-learning-deployment-data-science-machine-learning-italia-how-to-deploy-machine-leanring-in-production

Deploy Machine Learning Models | Mindset

Settembre 20, 2020
u-net-convolutional-neural-network-cnn-deep-learning-italia-machine-learning-engineer-guida-italiano-machine-learning-engineers

U-Net FCN Networks | Deep Learning Engineer Italia

Novembre 14, 2020
the-normal-equation-linear-regression-formula-data-science-data-scientist-teoria-guida-italiano-regressione-lineare

Linear Regression e The Normal Equation | Italiano

Novembre 25, 2019
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • Blockchain Developer

    Circuito aritmetico

    Novembre 1, 2022
  • machine-learning

    Un nuovo inizio

    Settembre 4, 2021
  • Zero Knwoledge Proof Article Privacy Preserving

    Zero Knowledge Proof: zk-SNARK e zk-STARK | Prova a conoscenza zero

    Luglio 8, 2021
  • oblivious-transfer-spiegazione-italiano-ot-explanation Privacy Preserving

    Oblivious Transfer (OT)

    Luglio 6, 2021
  • Aleo Studio Website Preview machine-learning

    Aleo Studio: un IDE per Zero-Knowledge Proofs Applications

    Luglio 1, 2021
  • privacy-enhancing-technologies-data-machine-learning-data-science Privacy Preserving

    Perché il Privacy Tech è un vantaggio competitivo micidiale

    Giugno 17, 2021
  • bloom-filter-spiegazione-italian Privacy Preserving

    Bloom Filter

    Giugno 3, 2021
  • trusted-execution-environment-tee-data-science-come-fuziona Data Science, Privacy Preserving

    Trusted Execution Environment | Cos’è un TEE?

    Giugno 2, 2021
  • Crypto Custody services machine-learning

    Crypto Custody: Guida alla custodia delle criptomonete

    Maggio 26, 2021
  • deep-q-learning-q-learning-reinforcement-learning machine-learning

    Deep Q-Learning

    Aprile 27, 2021

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino