Come diventare Data Scientist: errori da evitare

Autore

Andrea Provino

Data

29 ottobre 2020

Tempo di lettura

4 minuti

Categoria

Data Science

Intendi diventare Data Scientist oppure migliorare la tua carriera? Ottimo, allora non puoi perderti questo blogpost su Come diventare Data Scientist: errori da evitare!

Quale migliore introduzione di due massime provenienti da altrettanti studiosi.

La prima, di Niels Bohr: premio Nobel a cui si devono importanti ricerche nell’ambito di quella che sarebbe diventata la fisica quantistica.

An expert is a person who has made all the mistakes that can be made in a very narrow field
Niels Bohr

La seconda, di Frank Wilczek: premio Nobel a cui si devono studi che hanno permesso di completare il Modello Standard, una teoria fisica che descrive tre delle quattro interazioni fondamentali (i.e. Interazione nucleare forte e debole, ed elettromagnetica)

If you don’t make mistakes, you’re not working on hard enough problems. And that’s a big mistake
Frank Wilczek

Non finisce qui.

Continua a leggere…

Diventare Data Scientist: gli errori comuni da evitare

Devi sapere una cosa.

Nassim Nicholas Taleb , un matematico e filosofo libanese, ha un’espressione per definire questi sistemi che usano l’errore per migliorare. SI chiamano sistemi antifragili

Di sistemi antifragili siamo circondati.

Il business, l’evoluzione stessa lo è.

Allenare una rete neurale ti ricorda qualcosa?

Imparare la Data Science non è da meno.

Questo significa che redigere una lista di errori, descriverli e diventarne consapevoli, non è sufficiente a evitarli.

Perché non devono essere evitati.

Gli errori sono utili per il progresso.

Allora falliamo, e falliamo in fretta.

Magari stando solo attenti a non perdere troppo tempo: ecco allora il motivo di questo blogpost, quasi una guida agli errori da conoscere!

Perdere l’obiettivo

In questo blogpost abbiamo evidenziato la statistica predittiva come una tra caratteristiche distintive che differenziano un Data Analyst da un Data Scientist.

Il Data Analyst analizza il passato.

Il Data Sciencist predice il futuro.

Per farlo devi prima però identificare e studiare una variabile obiettivo, una label o target.

La previsione, che sai bene, può essere numerica (i.e. Parliamo allora di regressione) o categorica (i.e. Parliamo di classificazione), è poi usata per ottimizzare una business decision.

Durante l’esplorazione preliminare, l’Explorative Data Analysis, è fondamentale analizzare la distribuzione della label, cruciale per definire la migliore tecnica da attuare.

Usa istogrammi, utili per scovare distribuzioni multimodale, e grafici a barre per visualizzare classi multiple.

Non perdere mai di vista l’obiettivo.

Dimensionality

Il concetto di dimensionalità è quasi innato in noi, semplicemente non lo abbiamo mai definito tale.

Per diventare data scientist devi consapevolmente interiorizzarlo.

Mi spiego meglio.

Quando leggi un libro, un romanzo o un saggio, e lo racconti ai tuoi amici, al tuo ragazzo o alla tua ragazza, svolgi un processo di riduzione della dimensionalità.

Vedi…

La dimensionalità del libro, quelle 254 pagine ricche di azioni, situazioni e sentimento, sono ridotte in un riassunto di qualche minuto, di una dimensionalità chiaramente inferiore.

Il lavoro di un Data Scientist è soprattutto questo: osservare il mondo con le lenti dimensionali.

È solo un’espressione colorita per dire che è fondamentale tenere a mente il processo di dimensionality reduction.

Questo perché, tenendo presente che la Data Science non è mai svolta nel vuoto e deve sempre puntare a un obiettivo concreto, le decisioni di Business sono compiute a un livello dimensionale ridotto.

50 numeri su un cliente sono trasformati in una metrica, il CLV o Customer Lifetime Value per esempio.

Ora sai bene che ridurre la dimensionalità è la chiave, e aumentarla è indesiderabile.

La difficoltà nel lavorare con grandi spazi dimensionali è definita the course of dimensionality.

La approfondiremo prossimamente.

Confondere Bias & Variance

Un errore è dato dalla somma di tre elementi:

bias
variance
noise

Il rumore non è gestibile, nessun modello può usarlo. C’è e occorre farsene una ragione.

Il bias è assenza d’informazione (lack of signal). In altre parole, il modello è cieco a relazioni che potrebbe usare per prevedere con più accuratezza la label.

Può essere ridotto aumentando la capacità del modello, attraverso nuovi layer o trees, o con una diversa architettura)

La variance è cattiva informazione, cioè la confusione del rumore per segnale (noise for signal).

In una parola, è overfitting.

La variance può essere diminuita aumentando la dimensione del dataset.

Tuttavia non possiamo minimizzare bias e variance: tra i due esiste un tradeoff.

Diventare Data Scientist: e nel concreto?

Sai che in questo blog intendiamo essere pragmatici: le parole sono utili e piacevoli, anche se ci piacciono le cose concrete!

E allora, l’ultima fonte che intendo condividere con te è Data Science Retreat, un percorso di 12 settimane, riconosciuto a livello internazionale per diventare Data Scientist.

Trovi maggiori informazioni a questo link.

Per il momento è tutto.

Per aspera, ad astra.

Un caldo abbraccio, Andrea