Junior Data Scientist: metodo generalizza e rifletti

Autore

Andrea Provino

Data

18 novembre 2019

Tempo di lettura

3 minuti

Categoria

Data Science, machine-learning, Portfolio

junior-data-scientist-interview-portoflio-data-scientist-stipendio-machine-learning-job-interview

Un Junior Data Scientist ha tanto da imparare, ma è un asset prezioso per l’azienda. Ha una mindset elastico e un cervello con proprietà d’assorbimento di una spugna.

Un giovane Junior Data Scientist, giova delle straordinarie potenzialità della sua mente.

Un saggio Junior Data Scientist, forgiato da un settore esterno e poi convertito all’analisi dati, giova del domain knowledge accumulato negli anni

Cosa li accomuna? Un percorso in genere self-taught, in cui a competenze teoriche, certificate da attestati, e progetti pratici ben esposti sul CV, sono associate un mindset di soft-skills che ben lo inseriscono nel team aziendale.

Sappiamo che quello dell’autodidatta è un percorso in perenne salita, con qualche momentaneo pianeggiante altopiano che conduce a una nuova scalata al cardiopalmo.

Questo per essere riduttivi. Ovviamente.

Perché è così difficile?

Perché non puoi limitarti a imparare regole, definizioni e algoritmi, né svolgere qualche analisi del dataset su un jupyter notebook, magari persino online usando Google Coalab.

Non basta.

Potresti conquistare le competizioni di kaggle. Raggiungere la vetta delle classifiche certo è ragguardevole, tuttavia non è sufficiente a fare di te un bravo data scientist.

Ecco perché oggi intendo condividere con il metodo del generalizza e rifletti

Junior Data Scientist: il metodo generalizza e rifletti

Esiste una definizione condivisa di Data Scientist, tuttavia è arduo delinearne il profilo tecnico in modo assoluto poiché cambia dalle esigenze di ciascuna azienda.

Certo gli ambiti teorici generali sono noti, ma la specializzazione legata prevalentemente all’uso di determinate tecnologie dipende ovviamente dal sistema IT dell’azienda.

Per non divagare troppo, approfondiremo questa tematica in un post separato.

Ora concentriamoci sul metodo generalizza e rifletti.

Generalizza

I progetti personali che accompagnano un corso online, o quelli che decidiamo di sviluppare autonomamente ci aiutano ad accrescere chiaramente le hard-skill, mentre tendiamo a sottovalutare la loro efficacia nel miglioramento della mentalità, del ragionamento.

Un problema di digit-recognition può essere risolto come task di classificazione usando il popolare MNIST Dataset.

Abbandonato a sé stesso, sarebbe completamente inutile.

Le aziende non hanno bisogno di classificare cifre scritte a mano.

Forse qualcuna…

Il punto è un altro.

Alle aziende serve qualcuno che prenda le email e crei un sistema che prontamente le divida in spam, volgari e necessarie d’intervento umano.

Questo è un problema di classificazione!

Lo vedi il punto?

È poco interessante sapere classificare cifre scritte a mano, al contrario è molto utile saper risolvere un problema di classificazione, magari anche in modo veloce, dopo averlo prontamente riconosciuto.

In una parola: generalizzare.

Dobbiamo saper generalizzare da un problema specifico, estraniarlo dal suo dominio e usarlo come mattone da costruzione per qualcosa di più grande.

In questo modo il problema diventa davvero nostro: lo capiamo e comprendiamo a fondo.

Rifletti

Generalizzare non è sufficiente.

Occorre anche riflettere sul processo di sviluppo.

È possibile cambiare l’algoritmo x con quello y ?

Le prestazioni sarebbero differenti? Possiamo migliorarle?

È proprio necessario l’impiego del machine learning?

Usare una rete neurale, seppur basilare, per convertire i gradi celsius in fahrenheith è chiaramente un’esagreazione.

Offuscati dall’idea di migliorare ogni processo aziendale con l’ausilio di machine learning, deep learning e reinforcement learning perdiamo facilmente di vista il focus: questi sistemi sono strumenti, mezzi; il risultato è conferire valore.

Un valore che spesso deve essere raggiunto in breve tempo, magari con un MVP (Minimum Valuable Product) senza investire risorse in ottimizzazioni superflue.

Allora quello che dovremo chiederci davvero è: esistono algoritmi semplici per risolvere il problema?

La fase inizia di Business Understanding è qui fondamentale.

Riflettere.

Sempre.

Rimanendo in tema, intendo concludere questo post con una riflessione.

Dobbiamo allenarci per il mindset, non solo per le skill.

Un caldo abbraccio, Andrea

Blog.

Junior Data Scientist: metodo generalizza e rifletti

Junior Data Scientist: il metodo generalizza e rifletti

Generalizza

Rifletti

Ultimi post