• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science, machine-learning

The Bias / Variance Tradeoff

The Bias / Variance Tradeoff

Il Bias / Variance Tradeoff è un importante concetto da tenere a mente durante la creazione di un modello di machine learning.

Comprenderlo ci aiuterà non solo a creare modelli più precisi ma anche a evitare d’imbatterci in underfitting e overfitting, due avversari temibili.

L’errore di generalizzazione di un modello (model’s generalization error) può essere espresso come la somma di tre differenti errori:

  • Variance
  • Bias
  • Irreducible Error

Procediamo con ordine.

Variance

La Varianza fa riferimento alla sensibilità (sensitivity) del modello alle piccole variazioni nel dataset di training.

Cresce all’aumentare dei gradi di libertà (degrees of freedom).

Ad esempio, è assai probabile che un modello polinomiale di alto grado abbia una high variance e di conseguenza sia prone all’overfitting.

Questo perché l’attenzione posta ai dati di training è eccessiva, e la generalizzazione su quelli mai visti prima pessima.

Come risultato, le performance in allenamento sono ottime e in testing scandalose: overfitting!

Intuitivamente, la variance indica la diffusione dei nostri dati, la loro distribuzione.

Bias

Un termine, tanti signfiicati.

In passato abbiamo trattato il bias all’interno di una rete neurale, e più in generale come parametro di un modello lineare (linear regression).

Qui, ha un significato diverso.

In questo contesto usiamo il termine bias per riferirci all’accuratezza del modello (accuracy), che può essere influenzata dalle assunzioni errate. (wrong assumption)

Pensiamo che i dati abbiano una relazione lineare invece che quadratica? Wrong Assumption.

Con un high bias (scarsa accuratezza) c’è un’alta tendenza all’underfitting, perché l’attenzione posta ai dati di training è minima.

Matematicamente tradotto, il bias assume il valore della differenza tra la previsione media del modello e quello corretto.

Per riassumere:

Irreducible Error

L’Irreducible Error è la terza tipologia di errore a concorrere nella determinazione del Generalization Error.

Il termine è sufficientemente esplicativo.

Banalmente, non può essere ridotto. Perché?

Perché dipende dai dati!

L’Irreducible Errror è infatti legato al rumore (noisiness) presente nei dati. L’unico modo per attenuarne l’effetto, riducendo questa parte dell’errore, è operare:

  • Rimuovendo outliers
  • Controllando le sorgenti dei dati (sensori mal funzionanti)

Il generalization error sarà quindi definito come:

Generalization Error = Bias*Bias + Variance + Irreducible Error

Il Bias / Variance Tradeoff

Probabilmente, avrai già delineato il compromesso che occorre trovare tra le due principali metriche.

All’aumentare della complessità di un modello infatti, la variance crescerà mentre la bias diminuirà (overfitting)

Contrariamente, ridurre la complessità implica un aumento del bias e una diminuzione della variance. (underfitting)

Risultati immagini per variance bias tradeoff

L’equilibrio? Occorre trovare un compromesso…

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Dicembre 3, 2019
Tags | data science, machine learning, teoria

You Might Also Like

gan-generative-adversarial-networks-italia-rete-generativa-avversaria-rete-antagonista-generativa

GAN: Cosa sono le Generative Adversarial Nets

Aprile 20, 2020

NVIDIA Jetson Nano | Machine Learning for makers

Marzo 19, 2019

No Free Lunch theorem (NFL) in Italiano

Settembre 15, 2019

1 Comment

  • Come diventare Data Scientist: errori da evitare - Data Science Italia Ottobre 29, 2020 at 22:55

    […] Tuttavia non possiamo minimizzare bias e variance: tra i due esiste un tradeoff. […]

    Reply
  • Please Post Your Comments & Reviews
    Annulla risposta

    Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

    Next Post
    Previous Post

    Una pubblicità che non vedi se usi AdBlock

    EXPAND YOUR KNOWLEDGE

    • Blockchain

      Patricia Merkle Trie

      Maggio 30, 2023
    • Artistic representation of a tree Blockchain

      Tree Data Structure: cos’è un Merkle Tree

      Maggio 26, 2023
    • Cover image for Bitcoin UTXO explanation post Blockchain

      UTXO: come funziona il modello Unspent Transaction Outputs

      Maggio 23, 2023
    • Blockchain

      Cos’è Ethereum

      Maggio 15, 2023
    • Blockchain Developer

      Circuito aritmetico

      Novembre 1, 2022
    • machine-learning

      Un nuovo inizio

      Settembre 4, 2021
    • Zero Knwoledge Proof Article Privacy Preserving

      Zero Knowledge Proof: zk-SNARK e zk-STARK | Prova a conoscenza zero

      Luglio 8, 2021
    • oblivious-transfer-spiegazione-italiano-ot-explanation Privacy Preserving

      Oblivious Transfer (OT)

      Luglio 6, 2021
    • Aleo Studio Website Preview machine-learning

      Aleo Studio: un IDE per Zero-Knowledge Proofs Applications

      Luglio 1, 2021
    • privacy-enhancing-technologies-data-machine-learning-data-science Privacy Preserving

      Perché il Privacy Tech è un vantaggio competitivo micidiale

      Giugno 17, 2021

    Quello che Google pensa ti possa piacere

    Prodotti che i Cookie dicono potresti trovare interessanti

    AI Blog - © 2019-2021 Andrea Provino