Blog.

Junior Data Scientist: metodo generalizza e rifletti


Autore
Andrea Provino
Data
Tempo di lettura
3 minuti
Categoria
Data Science, machine-learning, Portfolio

junior-data-scientist-interview-portoflio-data-scientist-stipendio-machine-learning-job-interview

Un Junior Data Scientist ha tanto da imparare, ma è un asset prezioso per l’azienda. Ha una mindset elastico e un cervello con proprietà d’assorbimento di una spugna.

Un giovane Junior Data Scientist, giova delle straordinarie potenzialità della sua mente.

Un saggio Junior Data Scientist, forgiato da un settore esterno e poi convertito all’analisi dati, giova del domain knowledge accumulato negli anni

Cosa li accomuna? Un percorso in genere self-taught, in cui a competenze teoriche, certificate da attestati, e progetti pratici ben esposti sul CV, sono associate un mindset di soft-skills che ben lo inseriscono nel team aziendale.

Sappiamo che quello dell’autodidatta è un percorso in perenne salita, con qualche momentaneo pianeggiante altopiano che conduce a una nuova scalata al cardiopalmo.

Questo per essere riduttivi. Ovviamente.

Perché è così difficile?

Perché non puoi limitarti a imparare regole, definizioni e algoritmi, né svolgere qualche analisi del dataset su un jupyter notebook, magari persino online usando Google Coalab.

Non basta.

Potresti conquistare le competizioni di kaggle. Raggiungere la vetta delle classifiche certo è ragguardevole, tuttavia non è sufficiente a fare di te un bravo data scientist.

Ecco perché oggi intendo condividere con il metodo del generalizza e rifletti

Junior Data Scientist: il metodo generalizza e rifletti

Esiste una definizione condivisa di Data Scientist, tuttavia è arduo delinearne il profilo tecnico in modo assoluto poiché cambia dalle esigenze di ciascuna azienda.

Certo gli ambiti teorici generali sono noti, ma la specializzazione legata prevalentemente all’uso di determinate tecnologie dipende ovviamente dal sistema IT dell’azienda.

Per non divagare troppo, approfondiremo questa tematica in un post separato.

Ora concentriamoci sul metodo generalizza e rifletti.

Generalizza

I progetti personali che accompagnano un corso online, o quelli che decidiamo di sviluppare autonomamente ci aiutano ad accrescere chiaramente le hard-skill, mentre tendiamo a sottovalutare la loro efficacia nel miglioramento della mentalità, del ragionamento.

Un problema di digit-recognition può essere risolto come task di classificazione usando il popolare MNIST Dataset.

Abbandonato a sé stesso, sarebbe completamente inutile.

Le aziende non hanno bisogno di classificare cifre scritte a mano.

Forse qualcuna…

Il punto è un altro.

Alle aziende serve qualcuno che prenda le email e crei un sistema che prontamente le divida in spam, volgari e necessarie d’intervento umano.

Questo è un problema di classificazione!

Lo vedi il punto?

È poco interessante sapere classificare cifre scritte a mano, al contrario è molto utile saper risolvere un problema di classificazione, magari anche in modo veloce, dopo averlo prontamente riconosciuto.

In una parola: generalizzare.

Dobbiamo saper generalizzare da un problema specifico, estraniarlo dal suo dominio e usarlo come mattone da costruzione per qualcosa di più grande.

In questo modo il problema diventa davvero nostro: lo capiamo e comprendiamo a fondo.

Rifletti

Generalizzare non è sufficiente.

Occorre anche riflettere sul processo di sviluppo.

È possibile cambiare l’algoritmo x con quello y ?

Le prestazioni sarebbero differenti? Possiamo migliorarle?

È proprio necessario l’impiego del machine learning?

Usare una rete neurale, seppur basilare, per convertire i gradi celsius in fahrenheith è chiaramente un’esagreazione.

Offuscati dall’idea di migliorare ogni processo aziendale con l’ausilio di machine learning, deep learning e reinforcement learning perdiamo facilmente di vista il focus: questi sistemi sono strumenti, mezzi; il risultato è conferire valore.

Un valore che spesso deve essere raggiunto in breve tempo, magari con un MVP (Minimum Valuable Product) senza investire risorse in ottimizzazioni superflue.

Allora quello che dovremo chiederci davvero è: esistono algoritmi semplici per risolvere il problema?

La fase inizia di Business Understanding è qui fondamentale.

Riflettere.

Sempre.

Rimanendo in tema, intendo concludere questo post con una riflessione.

Dobbiamo allenarci per il mindset, non solo per le skill.

Un caldo abbraccio, Andrea

Taggedconsiglidata scientistguidaportfolio project


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum