• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
Data Science

Come diventare Data Scientist: errori da evitare

Come diventare Data Scientist: errori da evitare

Intendi diventare Data Scientist oppure migliorare la tua carriera? Ottimo, allora non puoi perderti questo blogpost su Come diventare Data Scientist: errori da evitare!

Quale migliore introduzione di due massime provenienti da altrettanti studiosi.

La prima, di Niels Bohr: premio Nobel a cui si devono importanti ricerche nell’ambito di quella che sarebbe diventata la fisica quantistica.

An expert is a person who has made all the mistakes that can be made in a very narrow field

Niels Bohr

La seconda, di Frank Wilczek: premio Nobel a cui si devono studi che hanno permesso di completare il Modello Standard, una teoria fisica che descrive tre delle quattro interazioni fondamentali (i.e. Interazione nucleare forte e debole, ed elettromagnetica)

If you don’t make mistakes, you’re not working on hard enough problems. And that’s a big mistake 

Frank Wilczek

Non finisce qui.

Continua a leggere…

Diventare Data Scientist: gli errori comuni da evitare

Devi sapere una cosa.

Nassim Nicholas Taleb , un matematico e filosofo libanese, ha un’espressione per definire questi sistemi che usano l’errore per migliorare. SI chiamano sistemi antifragili

Di sistemi antifragili siamo circondati.

Il business, l’evoluzione stessa lo è.

Allenare una rete neurale ti ricorda qualcosa?

Imparare la Data Science non è da meno.

Questo significa che redigere una lista di errori, descriverli e diventarne consapevoli, non è sufficiente a evitarli.

Perché non devono essere evitati.

Gli errori sono utili per il progresso.

Allora falliamo, e falliamo in fretta.

Magari stando solo attenti a non perdere troppo tempo: ecco allora il motivo di questo blogpost, quasi una guida agli errori da conoscere!

Perdere l’obiettivo

In questo blogpost abbiamo evidenziato la statistica predittiva come una tra caratteristiche distintive che differenziano un Data Analyst da un Data Scientist.

Il Data Analyst analizza il passato.

Il Data Sciencist predice il futuro.

Per farlo devi prima però identificare e studiare una variabile obiettivo, una label o target.

La previsione, che sai bene, può essere numerica (i.e. Parliamo allora di regressione) o categorica (i.e. Parliamo di classificazione), è poi usata per ottimizzare una business decision.

Durante l’esplorazione preliminare, l’Explorative Data Analysis, è fondamentale analizzare la distribuzione della label, cruciale per definire la migliore tecnica da attuare.

Usa istogrammi, utili per scovare distribuzioni multimodale, e grafici a barre per visualizzare classi multiple.

Non perdere mai di vista l’obiettivo.

Dimensionality

Il concetto di dimensionalità è quasi innato in noi, semplicemente non lo abbiamo mai definito tale.

Per diventare data scientist devi consapevolmente interiorizzarlo.

Mi spiego meglio.

Quando leggi un libro, un romanzo o un saggio, e lo racconti ai tuoi amici, al tuo ragazzo o alla tua ragazza, svolgi un processo di riduzione della dimensionalità.

Vedi…

La dimensionalità del libro, quelle 254 pagine ricche di azioni, situazioni e sentimento, sono ridotte in un riassunto di qualche minuto, di una dimensionalità chiaramente inferiore.

Il lavoro di un Data Scientist è soprattutto questo: osservare il mondo con le lenti dimensionali.

È solo un’espressione colorita per dire che è fondamentale tenere a mente il processo di dimensionality reduction.

Questo perché, tenendo presente che la Data Science non è mai svolta nel vuoto e deve sempre puntare a un obiettivo concreto, le decisioni di Business sono compiute a un livello dimensionale ridotto.

50 numeri su un cliente sono trasformati in una metrica, il CLV o Customer Lifetime Value per esempio.

Ora sai bene che ridurre la dimensionalità è la chiave, e aumentarla è indesiderabile.

La difficoltà nel lavorare con grandi spazi dimensionali è definita the course of dimensionality.

La approfondiremo prossimamente.

Confondere Bias & Variance

Un errore è dato dalla somma di tre elementi:

  • bias
  • variance
  • noise

Il rumore non è gestibile, nessun modello può usarlo. C’è e occorre farsene una ragione.

Il bias è assenza d’informazione (lack of signal). In altre parole, il modello è cieco a relazioni che potrebbe usare per prevedere con più accuratezza la label.

Può essere ridotto aumentando la capacità del modello, attraverso nuovi layer o trees, o con una diversa architettura)

La variance è cattiva informazione, cioè la confusione del rumore per segnale (noise for signal).

In una parola, è overfitting.

La variance può essere diminuita aumentando la dimensione del dataset.

Tuttavia non possiamo minimizzare bias e variance: tra i due esiste un tradeoff.

Diventare Data Scientist: e nel concreto?

Sai che in questo blog intendiamo essere pragmatici: le parole sono utili e piacevoli, anche se ci piacciono le cose concrete!

E allora, l’ultima fonte che intendo condividere con te è Data Science Retreat, un percorso di 12 settimane, riconosciuto a livello internazionale per diventare Data Scientist.

Trovi maggiori informazioni a questo link.

Per il momento è tutto.

Per aspera, ad astra.

Un caldo abbraccio, Andrea

Written by Andrea Provino - Ottobre 29, 2020
Tags | data science, data scientist, guida

You Might Also Like

rivacy-preserving-ai-data-science-machine-learning-deep-learning-privacy-gida-italia-tutorial-machine-learning

PySyft by OpenMined | Privacy Preserving

Gennaio 29, 2020
tensorflow-MNIST-tutorial-italiano-guida-machine-learning-cnn

Tensorflow MNIST Tutorial: Semplice Tensorflow CNN

Settembre 9, 2020
python-libraries-for-machine-learning-production-ready-data-science-deep-learning.

Python Libraries per Data Science and Machine Learning

Giugno 16, 2020
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • rust-react-webassembly-privacy-preserving-machine-learning Logs

    Rust, WebAssembly, React e un MVP

    Dicembre 21, 2020
  • diffie-hellman-key-exchange-protocol-scambio-di-chiavi-diffie-hellman Data Science, Privacy Preserving

    Cos’è lo scambio di chiavi Diffie-Hellman (DH)? | Privacy Preserving

    Dicembre 15, 2020
  • principio-di-esattezza-data-science-machine-learning-gdpr-data-accuracy Data Science, GDPR Compliant

    GDPR: Principio di esattezza dei dati (Data Accuracy)

    Dicembre 12, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TFX: come funziona Tensorflow Extended?

    Dicembre 9, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TensorFlow Extended (TFX) | Production Machine Learning Pipeline

    Dicembre 6, 2020
  • mean-shift-clustering-guida-italiano-spiegazione-semplice-algoritmo-di-clustering-esempio Data Science

    Mean-Shift Clustering

    Dicembre 3, 2020
  • data-minimization-principle-gdpr-principio-minimizzazione-dati-personali-gdpr-italia-consulenza-spiegazione-semplice Data Science, GDPR Compliant

    GDPR: Principio di minimizzazione dei dati (Data minimization)

    Dicembre 1, 2020
  • machine-learning-for-finance-trading-online-data-science-deep-learning-intelligenza-artificiale AI, machine-learning

    FinTech: Machine Learning for Finance (FinML) | Guide e Risorse di qualità

    Novembre 29, 2020
  • gdpr-principio-di-limitazione-della-finalita-machine-learning-data-science-guida-prupose-limitation-gdpr Data Science, GDPR Compliant

    GDPR: Principio di Limitazione della finalità | Purpose Limitation

    Novembre 26, 2020
  • machine-learning-engineer-lavoro-stipendio-responsabilità-come-diventare AI, Business, machine-learning

    Machine Learning Engineer

    Novembre 23, 2020

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino