Blog.

Come diventare Data Scientist: errori da evitare


Autore
Andrea Provino
Data
Tempo di lettura
4 minuti
Categoria
Data Science

come-diventare-data-scientist-machine-leanring-data-science-italia-guida

Intendi diventare Data Scientist oppure migliorare la tua carriera? Ottimo, allora non puoi perderti questo blogpost su Come diventare Data Scientist: errori da evitare!

Quale migliore introduzione di due massime provenienti da altrettanti studiosi.

La prima, di Niels Bohr: premio Nobel a cui si devono importanti ricerche nell’ambito di quella che sarebbe diventata la fisica quantistica.

An expert is a person who has made all the mistakes that can be made in a very narrow field

Niels Bohr

La seconda, di Frank Wilczek: premio Nobel a cui si devono studi che hanno permesso di completare il Modello Standard, una teoria fisica che descrive tre delle quattro interazioni fondamentali (i.e. Interazione nucleare forte e debole, ed elettromagnetica)

If you don’t make mistakes, you’re not working on hard enough problems. And that’s a big mistake 

Frank Wilczek

Non finisce qui.

Continua a leggere…

Diventare Data Scientist: gli errori comuni da evitare

Devi sapere una cosa.

Nassim Nicholas Taleb , un matematico e filosofo libanese, ha un’espressione per definire questi sistemi che usano l’errore per migliorare. SI chiamano sistemi antifragili

Di sistemi antifragili siamo circondati.

Il business, l’evoluzione stessa lo è.

Allenare una rete neurale ti ricorda qualcosa?

Imparare la Data Science non è da meno.

Questo significa che redigere una lista di errori, descriverli e diventarne consapevoli, non è sufficiente a evitarli.

Perché non devono essere evitati.

Gli errori sono utili per il progresso.

Allora falliamo, e falliamo in fretta.

Magari stando solo attenti a non perdere troppo tempo: ecco allora il motivo di questo blogpost, quasi una guida agli errori da conoscere!

Perdere l’obiettivo

In questo blogpost abbiamo evidenziato la statistica predittiva come una tra caratteristiche distintive che differenziano un Data Analyst da un Data Scientist.

Il Data Analyst analizza il passato.

Il Data Sciencist predice il futuro.

Per farlo devi prima però identificare e studiare una variabile obiettivo, una label o target.

La previsione, che sai bene, può essere numerica (i.e. Parliamo allora di regressione) o categorica (i.e. Parliamo di classificazione), è poi usata per ottimizzare una business decision.

Durante l’esplorazione preliminare, l’Explorative Data Analysis, è fondamentale analizzare la distribuzione della label, cruciale per definire la migliore tecnica da attuare.

Usa istogrammi, utili per scovare distribuzioni multimodale, e grafici a barre per visualizzare classi multiple.

Non perdere mai di vista l’obiettivo.

Dimensionality

Il concetto di dimensionalità è quasi innato in noi, semplicemente non lo abbiamo mai definito tale.

Per diventare data scientist devi consapevolmente interiorizzarlo.

Mi spiego meglio.

Quando leggi un libro, un romanzo o un saggio, e lo racconti ai tuoi amici, al tuo ragazzo o alla tua ragazza, svolgi un processo di riduzione della dimensionalità.

Vedi…

La dimensionalità del libro, quelle 254 pagine ricche di azioni, situazioni e sentimento, sono ridotte in un riassunto di qualche minuto, di una dimensionalità chiaramente inferiore.

Il lavoro di un Data Scientist è soprattutto questo: osservare il mondo con le lenti dimensionali.

È solo un’espressione colorita per dire che è fondamentale tenere a mente il processo di dimensionality reduction.

Questo perché, tenendo presente che la Data Science non è mai svolta nel vuoto e deve sempre puntare a un obiettivo concreto, le decisioni di Business sono compiute a un livello dimensionale ridotto.

50 numeri su un cliente sono trasformati in una metrica, il CLV o Customer Lifetime Value per esempio.

Ora sai bene che ridurre la dimensionalità è la chiave, e aumentarla è indesiderabile.

La difficoltà nel lavorare con grandi spazi dimensionali è definita the course of dimensionality.

La approfondiremo prossimamente.

Confondere Bias & Variance

Un errore è dato dalla somma di tre elementi:

  • bias
  • variance
  • noise

Il rumore non è gestibile, nessun modello può usarlo. C’è e occorre farsene una ragione.

Il bias è assenza d’informazione (lack of signal). In altre parole, il modello è cieco a relazioni che potrebbe usare per prevedere con più accuratezza la label.

Può essere ridotto aumentando la capacità del modello, attraverso nuovi layer o trees, o con una diversa architettura)

La variance è cattiva informazione, cioè la confusione del rumore per segnale (noise for signal).

In una parola, è overfitting.

La variance può essere diminuita aumentando la dimensione del dataset.

Tuttavia non possiamo minimizzare bias e variance: tra i due esiste un tradeoff.

Diventare Data Scientist: e nel concreto?

Sai che in questo blog intendiamo essere pragmatici: le parole sono utili e piacevoli, anche se ci piacciono le cose concrete!

E allora, l’ultima fonte che intendo condividere con te è Data Science Retreat, un percorso di 12 settimane, riconosciuto a livello internazionale per diventare Data Scientist.

Trovi maggiori informazioni a questo link.

Per il momento è tutto.

Per aspera, ad astra.

Un caldo abbraccio, Andrea

Taggeddata sciencedata scientistguida


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum