Blog.

Come diventare un bravo data scientist | Consigli Italiano


Autore
Andrea Provino
Data
Tempo di lettura
4 minuti
Categoria
Data Science, machine-learning, Portfolio

data-science-machine-learning-guida-portfolio-consigli-utili-bravo-data-scientist-qualità-come-diventare

Vuoi diventare una brava, o bravo data scientist e non sai come fare?

Bene, se iniziassimo ogni post così potremmo tranquillamente iniziare a vendere aspirapolvere in un dimenticato canale televisivo.

Wait a moment!

Mettendo da parte rischiose business line, quello che ci stiamo chiedendo in questo momento è serio.

Abbiamo individuato alcune guide lines da seguire per realizzare un buon portfolio da data scientist. Le informazioni che abbiamo raccolto si concentrano però sul prodotto, il portfolio, e non sulla persona, te.

Quelli che vedremo assieme sono consigli utili per sviluppare la tua personalità e arricchire il tuo ventaglio di abilità, codificando i tratti di una mucca viola senza eguali in un elenco di skill da possedere, e da cui tenere la larga.

Ecco il bravo data scientist

Il mindset non può essere sottovalutato, così come le soft skills!

Communication Skills

Comunicare efficacemente i risultati di un’analisi approfondita sul dataset aziendale, o i prodotti realizzati seguendo le linee guida di uno stakeholder, è fondamentale.

Lessico appropriato al background del nostro interlocutore, pause di silenzio per evidenziare informazioni chiave, cura del linguaggio del corpo (registrandoci con una telecamera prima della presentazione) e una buona dose di fiducia in se stessi, con appena un pizzico di spavalderia.

Non dobbiamo persuadere un pinguino ad acquistare del ghiaccio, ma spiegargli quali vantaggi avrà nell’utilizzare quel cubo per costruirsi un Iglù.

Andreee sicuro di stare bene?

Doti comunicative di spiccato valore sono utili anche nel lavoro in team, specie se venissimo assunti in un’azienda con un modesto organico, assieme alle altre figure lavorative per AI e Data science.

Ti voglio ingegnere

Wait, calm down.

Posa il cacciavite.

Non intendevo quel tipo d’ingegnere, ma uno capace di gestire al meglio la delicata e fondamentale procedura di feature engineering.

La tecnica di combinare features guidati dal proprio domain knowledge per produrre un valore più alto.

The features you use influence more than everything else the result. No algorithm alone, to my knowledge, can supplement the information gain given by correct feature engineering.

— Luca Massaron, Google Developer Expert in Machine Learning

Un bravo data scientist studia…

…per tutta la vita!

Fatti guidare dalla fiamma della tua curiosità: indaga, ricerca, capisci e condividi il tuo sapere.

Mi raccomando, comprendi bene e assimila ogni concetto. Non verticalizzarti su un solo settore, quale può essere il machine learning, o l’ambito data science.

Collega i punti e disegna la big picture.

…e non si lascia trascinare dall’Hype

Un bravo data scientist sa quando farsi da parte. Nella fase di business understanding potrebbe diventare palese l’inutilità di un approccio di machine learning.

Forzare la mano produce pessimi risultati.

D’altro canto però, non sempre è facile individuare la giusta opportunità per integrare soluzioni all’avanguardia in questo campo. Ancora una volta, intuito e un pizzico di spavalderia possono tornare molto utili.

Sperimentazione

Il ruolo ultimo del data scientist è quello di verificare o confutare ipotesi.

Sarà poi responsabilità degli ingegneri valutare la fattibilità pratica della soluzione proposta, tenendo a mente diversi fattori: scalabilità, flessibilità, costo e complessità, solo per citarne alcuni.

Mi spiego meglio.

Nel 2009, Netflix organizzo una competizione aperta per la realizzazione di un nuovo algoritmo che potesse migliorare l’accuracy nella previsione dell’indice di gradimento di un film, sulla base delle preferenze utente.

Il premio in palio del valore di 1mln $ fu vinto da un team che migliorò la metrica obiettivo del 10,06%.

Cosa fece Netflix? Scartò la proposta perché caratterizzata da una complessità eccessiva.

Il data scientist sperimenta, valida ipotesi e gioca con i dati.

È quindi fondamentale entrare nell’ottica che non tutte le soluzioni proposte da un data scientist siano applicabili.

Cosa evita di fare un bravo data scientist?

Ottime capacità comunicative, profonde conoscenze di dominio, tanta creatività, ego ridotto e infinita fame di conoscenza. Dobbiamo attirare a noi queste qualità e tenerne lontane altre. Quali?

Ottimizzazione

Ha poco senso investire tempo in ottimizzazioni di scarsa utilità.

Come ha giustamente evidenziato Elon Musk in un’intervista successiva al SAL (Stato Avanzamento Lavori) della Starship:

[..] one of the biggest traps for smart engineers is optimizing a thing that shouldn’t exist.

Elon Musk

Qui il link all’intervista completa.

Non siamo ingegneri aerospaziali, ma quello di Elon un consiglio che possiamo applicare ad altri ambiti.

Technical Skill Centric

Samo molto attenti a questo aspetto.

Non dobbiamo concentrarci soltanto sullo sviluppo delle abilità tecniche di matematica, statistica e programmazione ma coltivare anche quelle che sono le soft skills, parte delle quali sono state viste in questo post!

Ego smisurato

L’umiltà è dote rara. Un bravo data scientist non si crede mai esperto, poiché preferisce considerarsi un lifelong student

Tradire i dati con gli algoritmi

Regola numero 1:

better data defeats fancier algorithms

Un caldo abbraccio, Andrea.

Taggeddata sciencemachine learningportfolio project


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum