Self-Taught Data Scientist: consigli operativi

Autore

Andrea Provino

Data

3 novembre 2019

Tempo di lettura

6 minuti

Categoria

Data Science, Portfolio

self-taught-data-scientist-machine-learning-data-science-tips-data-scientist-salary-how-to-become-google-blog-data-science-machine-learning-deep-learning

Il nostro obiettivo è diventare un bravo Data Scientist. Siamo autodidatti, quindi ho pensato che una guida con consigli operativi per Self-Taught Data Scientist fosse necessaria.

In questo post vediamo come organizzare il nostro apprendimento in modo da essere meglio preparati al mercato del lavoro di oggi e domani!

Self-Taught Data Scientist | Sommatoria di Hard e Soft Skill

Sei un lettore fedele, conosci bene l’assetto del sito.

Non ci limitiamo a perfezionare le nostre hard skill, curando il nostro portfoflio attraverso i consigli migliori e seguendo tutorial semplici e complicati.

Diamo ampio spazio anche alla crescita personale con riflessioni sul tempo, sulle nostre motivazioni profonde, chiedendoci perché scegliamo sempre l’opzione più complicata.

Lo facciamo dal momento che insieme abbiamo compreso la reale natura del Data Scientist: è una mucca viola di ottima razza, animata da una passione senza eguali, alimentata da una forte motivazione.

Una motivazione che qualche volta viene meno, e allora ecco la sezione iWords pronta a sostenerci in questi difficili momenti.

Carichi come una molla, apprendiamo come perfezionare le nostre soft-skill, conoscendo le altre figure del team aziendale con cui è fondamentale collaborare e imparando a sviluppare le capacità fondamentali di un bravo data scientist.

Ponte di collegamento tra capacità tecniche e attitudini caratteriali è il metodo che perfezionato nel tempo consente di affrontare ogni problema con la giusta mentalità.

Allenare il metodo non è semplice: dobbiamo conoscere la nostra destinazione.

In questo post vediamo esattamente questo.

Come puntare nella direzione corretta per migliorare il nostro metodo di studio e di risoluzione ai problemi.

Self-taught Data Scientist | Errori da evitare

Sappiamo che la vita da studenti è ben lungi dall’essere identica a quella lavorativa.

Come possiamo allenare le nostre skill senza sfociare nell’inutile?

Vediamo cosa evitare.

Kaggle | Amico caro, Nemico nascosto

Abbiamo conosciuto Kaggle in passato esaminandone i pro e i contro di una piattaforma utile ma che deve compresa.

Sai bene che odio ripetermi.

Il concetto di fondo ti è chiaro: Kaggle è utile per sviluppare hard skill, competenze pratiche di manipolazione dati, EDA, algorithm selection e metodi di model evaluation.

A mancare sono le fasi intermedie.

Gestire la raccolta dei dati, non sempre disponibili in grandi quantità, abbiamo visto essere un’abilità richiesta nel bagaglio di conoscenze del Data Scientist. Tenuto presente che il nostro percorso è Self-Taught dobbiamo tenere in considerazione anche questo aspetto.

Spesso la frenesia di queste competizioni fa perdere di vista il Principio di Pareto che anche qui ritorna: in un problema di Data Science, l’80% del tempo è speso nella pulizia dei dati e solo il 20% nella creazione del modello.

In definitiva non perdiamo di vista le altre fasi concentrandoci unicamente sull’algoritmo, perché in un problema reale ogni aspetto ha la sua importanza.

Neural Network | Armi potenti, grandi risorse

Un classico dei film americani: anni di ricerca per sviluppare la tecnologia più avanzata di sempre che si scopre richiedere ingenti risorse per funzionare, e alla fine si fa ricorso alle tecnologie tradizionali ma certamente efficaci.

Con il machine learning la situazione è analoga.

Le reti neurali sono metodi certamente avanzati e dai risultati stupefacenti, ahimè non sempre possono essere impiegate.

È necessario disporre di una mole di dati considerevole affinché un metodo di Deep Learning possa rivelarsi efficace.

In loro assenza, un “semplice” albero decisionale o modello di regressione logistica può spesso produrre risultati migliori.

Contrariamente ad altri argomenti, Deep Learning e Neural Network non hanno ancora trovato il loro spazio su questo blog.

Stiamo rimediando, ricordiamoci però un assunto fondamentale,

Sul nostro percorso da self-taught data scientist dobbiamo demistificare il funzionamento celato di questi metodi: non possiamo certo presentarci dai nostri stakeholders con delle black-box dall’ignota attività…

In definitiva, prima di procedere a testa bassa con un solo metodo sarebbe bene conoscere vantaggi e svantaggi di un ventaglio di possibilità. Solo così potremo avere la certezza di procedere in modo corretto.

Non lavoriamo ancora nel campo della Computer Vision, pur avvicinandoci a questo mondo con qualche pazzo progetto, e tanto meno sperimentiamo sistemi di guida autonoma. Quindi per adesso possiamo mettere da parte le Reti Neurali e preferire algoritmi di machine learning tradizionali.

Machine Learning come Mezzo mai come Fine

L’hype smisurato cresciuto negli anni nei confronti di questa tecnologia tende a offuscare rapidamente la mente di molti, facendo perdere di vista la destinazione.

Il Machine Learning è uno strumento per creare prodotti che soddisfino i bisogni dei clienti.

Non è un prodotto a sé.

Molte Start-Up, specie negli USA, vendono il machine learning come soluzione definitiva ad ogni problema.

Perdiamo il focus.

Come Data Scientist abbiamo il dovere etico di sviluppare un progetto che si ponga come obiettivo quello di risolvere il problema del nostro cliente.

Non di elogiare i pregi dell’ultima versione di Tensorflow.

La fase di Business Understanding della Data Science Methodology è qui cruciale: occorre capire se il machine learning sia o meno la soluzione corretta.

Causation vs Correlation

Perdonami è un tema da post singolo, anche se in questa cornice trova una giusta collocazione.

Per correlazione si suole riferirsi al fatto che due, o più, grandezze siano in qualche modo legate tra loro da una relazione apparentemente ignota.

Questa relazione può essere spesso confusa con il principio di causalità, in base al quale si giudica un fenomeno dipendente da un altro nonostante i due non abbiano alcun reale legame.

Ad esempio l’età di Miss America influenza il numero di omicidi proferiti per mezzo di oggetti caldi.

Ovviamente no. Ahimè dati correlati potrebbero portare un algoritmo a sviluppare un modello capace di fare una simile previsione.

La soluzione è applicare il proprio domain knowledge e confutare eventuali ipotesi: solo così potremo derivare azioni dai dati!

Metrics Optimization

Abbiamo accennato a questo problema in passato.

Persino Elon Musk, in una citazione, ritiene che ottimizzare male sia la peggiore trappola in cui un bravo ingegnere possa cadere.

Per risolvere questo problema, spesso è utile effettuare un check dell’errore manuale. Un processo tedioso e dal grande impegno, che però ci aiuta a sviluppare un modello più efficientemente nelle successive iterazioni.

Per approfondire, dai un’occhiata a questo post.