Blog.

Requisiti Data Scientist | 2020 Skill


Autore
Andrea Provino
Data
Tempo di lettura
6 minuti
Categoria
Data Science, machine-learning

aws-deep-learning-github-job-interview-request-skills-machine-learning-blog-italia-richieste-lavoro-colloquio-data-scientist

Requisiti Data Scientist: esploriamo i più richiesti per questo 2020!

Come possiamo diventare esperti in Data Science?

Occorre avere una laurea per un lavoro data Data Scientist?

Rispondiamo a queste domande esplorando le Must have soft & hard skill Data Scientist per il 2020.

Requisiti Data Scientist

Abbiamo davanti a noi parecchi mesi per perfezionare ulteriormente le nostre competenze e iniziare a lavorare come data scientist!

Essendo il nostro percorso self-taught, abbiamo bisogno di una bussola che ci indichi la strada giusta da seguire.

Ecco il perché di questo articolo: allineare il nostro studio e il tempo dedicato alla parte operativa per sviluppare costantemente queste skill!

Scopriamo quindi insieme i requisiti data scientist 2020

GitHub

Git è un sistema di controllo versione che, attraverso una cronologia, consente di tenere traccia di ogni singola virgola modificata nei nostri file.

GitHub è un servizio gratuito di hosting in cloud che consente la gestione di repository Git (i.e. Puoi considerare un repository una cartella)

Attraverso un sistema come GitHub, è facilmente possibile gestire differenti versioni software consentendo un’agile condivisione del codice e sincronizzazione dei cambiamenti.

Per un data scientist, il sapersi destreggiare tra i comandi più comuni è ormai diventato un requisito presente in molte richieste lavorative.

È facile iniziare a usare Git per i tuoi progetti personali. Inizierai a comprenderne davvero le potenzialità quando però il lavoro in team sarà all’ordine del giorno, e capirai quanto uno strumento simile possa a volte essere anche complesso da gestire.

Production Ready: tra i requisiti data scientist più richiesti

Generalmente nelle aziende con un minimo di organizzazione lato IT distinguiamo due ecosistemi:

  • l’ambiente di sviluppo (o development environment)
  • l’ambiente di produzione (o production environment)

Quando un progetto software è correttamente funzionante possiamo rilasciarlo in produzione e diventa accessibile a chiunque.

Capisci dunque perché è fondamentale che un data scientist riesca a muoversi agevolmente in questi contesti: nel 2020 sviluppare modelli precisi e accurati è tanto importante quanto saperli rilasciare in produzione.

Ecco il perché su questo blog lavoriamo costantemente in un ottica a 360 gradi: studiando piattaforme di hosting in cloud come AWS e Google Cloud Platform impariamo anche il rilascio dei modelli in produzione.

Full stack data scientist.

SQL

Sappiamo bene che Python è tra i due linguaggi di programmazione più usati in ambito Data Science e Machine Learning.

Ma SQL?

SQL sta per Structured Query Language, ed è un linguaggio per la creazione di query standardizzate su database relazionali.

I database? Esatto il luogo in cui risiedono i nostri amati e preziosi dati.

Ora, in un progetto di data science possiamo fare due cose:

  • chiedere costantemente a qualcuno di estrarci i dati di cui abbiamo bisogno fino ad avere la nostra bella tabella di riferimento
  • strategia self-made imparando SQL ed estraendo i dati da soli

Quindi, dai un’occhiata a SQL.

AutoML

Quindi… mi stai dicendo… premo un pulsante è il modello è pronto?

Non proprio.

Cloud

Il cloud è un mondo affascinante.

Tanta potenza di calcolo, storage pressoché illimitato, billing per consumo, e fantasia come unico limite.

Quali soluzioni abbiamo?

  • Amazon, AWS
  • Google, Google Cloud Platform
  • Microsoft, Microsoft Azure
  • IBM, IBM Watson

Se proprio intendi approfondire qualcosa però, vai sicuro su AWS: è leader nel mercato.

Deep Learning

Su questo andiamo tranquilli. Dedicheremo un anno intero allo studio approfondito di questo campo.

In ogni caso, per Deep Learning intendiamo quei sistemi di apprendimento artificiale che basano il loro funzionamento sulle reti neurali artificiali (ANN).

Accadono cose meravigliose quando questi sistemi iniziano a essere usati a dovere. L’obiettivo? Usarli a dovere! 😉

Math and Statistics

Ok abbiamo provato a ignorarle per un po’ di tempo.

È vero, non sono fondamentali.

Matematica e statistica sono però delle conoscenze che devono entrare nel bagaglio culturale di un buon data scientist.

Equazioni differenziali, algebra lineare, statistica (e Teoria Bayesiana) e teoria della probabilità.

A questo proposito c’è un bel libro PDF, una sorta di bibbia (764 pagine)contenente molti dei concetti fondamentali.

Non male da cui partire non trovi?

Experimentation

Mmmmm.

OK.

Senti fai una cosa. Prendi quel dataset, sì quello.

Vieni qui.

Siediti. OK.

Esplorarlo.

Come non sai come fare. Prova. Sperimenta. Sperimenta.

Fallo spesso, fallo bene 🙂

La pratica per un data scientist non è mai troppa!

Kaggle a questo proposito è un prezioso bacino di conoscenza e risorse.

Scegli un ambito di tuo interesse, nel quale puoi mostrare tutto il tuo domain knowledge: otterrai risultati migliori e sarai senz’altro più interessato nel lavoro!

Data Visualization

Nessuno si sognerebbe di entrare in riunione lunedì mattina con un bella tabella di 32 colonne e 410 righe (tagliate a causa delle dimensioni limitate dello schermo) aspettandosi che tutti ne traggano le logiche conclusioni.

Quello schifo, si esatto, è il motivo per cui esistono tecniche di data visualization: noi le abbiamo analizzate, da quelle base a quelle più avanzate, passando persino ai fatidici geospatial data.

Insomma grafici e colori.

Non sottovalutare questa parte: è fondamentale per una il requisito successivo, uno dei più richiesti, preziosi e apprezzati.

Data Storytelling: tra i requisiti data scientist più richiesti

Una delle qualità più ricercate in un Data Scientist è l’abilità di trovare una storia nei dati e di saperla raccontare, saperla raccontare bene.

Come si chiama questa abilità? Storytelling!

Come la si sviluppa?

Non con un corso online di 20 ore.

La rarità è uno dei motivi per cui è tanto apprezzata: lo storytelling è difficile da insegnare.

Infatti, mentre puoi imparare a estrarre ottimi dati da qualche bella tabella usando una decina di righe in SQL in una manciata di ore, per imparare davvero a raccontare una storia come si deve occorrono mesi, ed è un’abilità che migliora con gli anni.

Perché raccontare una storia significa saper usare con maestria lessico e fantasia, senza mai perdere di vista l’obiettivo: comunicare con sapiente efficacia i risultati di una ricerca o di un’analisi.

Avrai compiuto un buon lavoro quando saprai suscitare nella tua audience l’effetto di stupore provato dinanzi una maestosa valle.

Attenzione però: lo storytelling è tanto importante quanto la visualizzazione dei dati che mostriamo.

Per concludere, ho preparato con te delle slide da poter condividere:

2020_DS_Skills-competenze-data-scientist-italia-requisiti-data-scientist
2020_DS_Skills-cosa-serve-per-diventare-requisiti-data-scientist
2020_DS_Skills-cosa-serve-per-diventare-requisiti-data-scientist

ODSC

Questo post è una traduzione rivisitata di un articolo pubblicato su medium dal profilo di ODSC (Open Data Science Conference).

L’ODSC è un framework di conferenze tenute in mezzo mondo e dedicate agli appassionati di Data Science, machine learning e AI, con speaker d’eccezione provenienti dalle migliori aziende che implementano queste tecnologie.

L’ultima ODSC si è tenuta a Milano il 16 gennaio: un’esperienza costruttiva davvero ottima.

Se ti interessa, la prossima volta ci andiamo insieme!

Qui il sito ufficiale!

Ispirazione

Taggeddata sciencedata scientistmachine learning


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum