Least Absolute Shrinkage and Selection Operator Regression, conosciuta come LASSO Regression, è una versione regolarizzata della Linear Regression (Regressione Lineare): aggiungendo un termine di regolarizzazione denominato alpha alla cost function, l’algoritmo di apprendimento è forzato a tenere i weight quanto più bassi possibile.
Definizione data. Mettiamo sulla mensola per un rapido ripasso.
Diamo un’occhiata alla definizione di Ridge Regression, contiene alcuni concetti chiave.
Perfetto adesso siamo allineati.
Ora è il momento di fare sul serio: comprendiamo assieme LASSSO regression.
LASSO Regression: why?
Sappiamo che la complessità di un modello di regressione lineare è spesso insufficiente a cogliere la relazione tra i dati.
Possiamo ovviare al problema ricorrendo a un modello di regressione polinomiale.
Un escamotage che aumenta i gradi di flessibilità (degrees of freedom) del modello incrementando al contempo la sua variance e diminuendo la bias: abbiamo visto come questo si traduca in un fenomeno di overfitting.
Ci piace.
Si lo so che abbiamo sempre detto che overfitting e underfitting sono due temibili nemici.
Pensala così: quando d’estate hai caldo, puoi fare poco: sei in costume e devi ricorrere a una doccia fredda, o un bagno al mare o in piscina. (underfitting, il problma persiste)
D’inverno invece, occorre semplicemente togliersi uno strato, un giaccone o una felpa, e in questo modo controlli più facilmente la temperatura. (overfitting, ma gestibile).

Fuori da metafora, preferiamo un modello in leggero overfitting così da poterne gestire meglio l’apprendimento.
Possiamo infatti penalizzare l’apprendimento, limitando la libertà del modello. Come?
Attraverso LASSO Regression.
LASSO Regression: how?
Una caratteristica fondamentale della LASSO Regression riguarda la gestione delle fetaure di importanza minore.
Contrariamente alla Ridge Regression, che minimizzando il weight di alcune feature ne riduce la contribuzione al modello, la LASSO Regression effettua una vera e propria selezione delle variabili indipendenti (feature selection): portando le restanti a zero attraverso un opportuno valore del weight associato, e generando uno sparse model (con alcune nonzero feature).
Parlando di regolarizzazione in generale esistono due tipi di penalizzazione:
- L1 (absolute size) penalizza il valore assoluto dei coefficienti del modello
- L2 (squared size) penalizza il quadrato del valore dei coefficienti del modello.
LA(bsolute)SSO Regresison usa la L1 penalty.
Con questo tipo di regolarizzazione è necessario ridurre gradualmente il learning rate, se prossimi al global minimum.
Infine, come in ogni modello regolarizzato, è opportuno scalare i dati attraverso una standardizzazione poiché questa tipologia di funzioni è sensibile alla scala dei valori del dataset.
Lessico
Concludiamo con un po’ di lessico tecnico.
Possiamo avere modelli allenati con MSE (Mean Squared Error) come funzione di costo non regolarizzata ( α = 0) o regolarizzata con una penalità l1 ( α = 0.5) e Batch Gradient Descent come Optimization Algorithm.
Per il momento è tutto.
Per aspera, ad astra.
Un caldo abbraccio, Andrea