Requisiti Data Scientist: esploriamo i più richiesti per questo 2020!
Come possiamo diventare esperti in Data Science?
Occorre avere una laurea per un lavoro data Data Scientist?
Rispondiamo a queste domande esplorando le Must have soft & hard skill Data Scientist per il 2020.
Requisiti Data Scientist
Abbiamo davanti a noi parecchi mesi per perfezionare ulteriormente le nostre competenze e iniziare a lavorare come data scientist!
Essendo il nostro percorso self-taught, abbiamo bisogno di una bussola che ci indichi la strada giusta da seguire.
Ecco il perché di questo articolo: allineare il nostro studio e il tempo dedicato alla parte operativa per sviluppare costantemente queste skill!
Scopriamo quindi insieme i requisiti data scientist 2020
GitHub
Git è un sistema di controllo versione che, attraverso una cronologia, consente di tenere traccia di ogni singola virgola modificata nei nostri file.
GitHub è un servizio gratuito di hosting in cloud che consente la gestione di repository Git (i.e. Puoi considerare un repository una cartella)
Attraverso un sistema come GitHub, è facilmente possibile gestire differenti versioni software consentendo un’agile condivisione del codice e sincronizzazione dei cambiamenti.
Per un data scientist, il sapersi destreggiare tra i comandi più comuni è ormai diventato un requisito presente in molte richieste lavorative.
È facile iniziare a usare Git per i tuoi progetti personali. Inizierai a comprenderne davvero le potenzialità quando però il lavoro in team sarà all’ordine del giorno, e capirai quanto uno strumento simile possa a volte essere anche complesso da gestire.
Production Ready: tra i requisiti data scientist più richiesti
Generalmente nelle aziende con un minimo di organizzazione lato IT distinguiamo due ecosistemi:
- l’ambiente di sviluppo (o development environment)
- l’ambiente di produzione (o production environment)
Quando un progetto software è correttamente funzionante possiamo rilasciarlo in produzione e diventa accessibile a chiunque.
Capisci dunque perché è fondamentale che un data scientist riesca a muoversi agevolmente in questi contesti: nel 2020 sviluppare modelli precisi e accurati è tanto importante quanto saperli rilasciare in produzione.
Ecco il perché su questo blog lavoriamo costantemente in un ottica a 360 gradi: studiando piattaforme di hosting in cloud come AWS e Google Cloud Platform impariamo anche il rilascio dei modelli in produzione.
SQL
Sappiamo bene che Python è tra i due linguaggi di programmazione più usati in ambito Data Science e Machine Learning.
Ma SQL?
SQL sta per Structured Query Language, ed è un linguaggio per la creazione di query standardizzate su database relazionali.
I database? Esatto il luogo in cui risiedono i nostri amati e preziosi dati.
Ora, in un progetto di data science possiamo fare due cose:
- chiedere costantemente a qualcuno di estrarci i dati di cui abbiamo bisogno fino ad avere la nostra bella tabella di riferimento
- strategia self-made imparando SQL ed estraendo i dati da soli
Quindi, dai un’occhiata a SQL.
AutoML
Quindi… mi stai dicendo… premo un pulsante è il modello è pronto?
Non proprio.
Cloud
Il cloud è un mondo affascinante.
Tanta potenza di calcolo, storage pressoché illimitato, billing per consumo, e fantasia come unico limite.
Quali soluzioni abbiamo?
- Amazon, AWS
- Google, Google Cloud Platform
- Microsoft, Microsoft Azure
- IBM, IBM Watson
Se proprio intendi approfondire qualcosa però, vai sicuro su AWS: è leader nel mercato.
Deep Learning
Su questo andiamo tranquilli. Dedicheremo un anno intero allo studio approfondito di questo campo.
In ogni caso, per Deep Learning intendiamo quei sistemi di apprendimento artificiale che basano il loro funzionamento sulle reti neurali artificiali (ANN).
Accadono cose meravigliose quando questi sistemi iniziano a essere usati a dovere. L’obiettivo? Usarli a dovere! 😉
Math and Statistics
Ok abbiamo provato a ignorarle per un po’ di tempo.
È vero, non sono fondamentali.
Matematica e statistica sono però delle conoscenze che devono entrare nel bagaglio culturale di un buon data scientist.
Equazioni differenziali, algebra lineare, statistica (e Teoria Bayesiana) e teoria della probabilità.
A questo proposito c’è un bel libro PDF, una sorta di bibbia (764 pagine)contenente molti dei concetti fondamentali.
Non male da cui partire non trovi?
Experimentation
Mmmmm.
OK.
Senti fai una cosa. Prendi quel dataset, sì quello.
Vieni qui.
Siediti. OK.
Esplorarlo.
Come non sai come fare. Prova. Sperimenta. Sperimenta.
Fallo spesso, fallo bene 🙂
La pratica per un data scientist non è mai troppa!
Kaggle a questo proposito è un prezioso bacino di conoscenza e risorse.
Scegli un ambito di tuo interesse, nel quale puoi mostrare tutto il tuo domain knowledge: otterrai risultati migliori e sarai senz’altro più interessato nel lavoro!
Data Visualization
Nessuno si sognerebbe di entrare in riunione lunedì mattina con un bella tabella di 32 colonne e 410 righe (tagliate a causa delle dimensioni limitate dello schermo) aspettandosi che tutti ne traggano le logiche conclusioni.
Quello schifo, si esatto, è il motivo per cui esistono tecniche di data visualization: noi le abbiamo analizzate, da quelle base a quelle più avanzate, passando persino ai fatidici geospatial data.
Insomma grafici e colori.
Non sottovalutare questa parte: è fondamentale per una il requisito successivo, uno dei più richiesti, preziosi e apprezzati.
Data Storytelling: tra i requisiti data scientist più richiesti
Una delle qualità più ricercate in un Data Scientist è l’abilità di trovare una storia nei dati e di saperla raccontare, saperla raccontare bene.
Come si chiama questa abilità? Storytelling!
Come la si sviluppa?
Non con un corso online di 20 ore.
La rarità è uno dei motivi per cui è tanto apprezzata: lo storytelling è difficile da insegnare.
Infatti, mentre puoi imparare a estrarre ottimi dati da qualche bella tabella usando una decina di righe in SQL in una manciata di ore, per imparare davvero a raccontare una storia come si deve occorrono mesi, ed è un’abilità che migliora con gli anni.
Perché raccontare una storia significa saper usare con maestria lessico e fantasia, senza mai perdere di vista l’obiettivo: comunicare con sapiente efficacia i risultati di una ricerca o di un’analisi.
Avrai compiuto un buon lavoro quando saprai suscitare nella tua audience l’effetto di stupore provato dinanzi una maestosa valle.
Attenzione però: lo storytelling è tanto importante quanto la visualizzazione dei dati che mostriamo.
Per concludere, ho preparato con te delle slide da poter condividere:
ODSC
Questo post è una traduzione rivisitata di un articolo pubblicato su medium dal profilo di ODSC (Open Data Science Conference).
L’ODSC è un framework di conferenze tenute in mezzo mondo e dedicate agli appassionati di Data Science, machine learning e AI, con speaker d’eccezione provenienti dalle migliori aziende che implementano queste tecnologie.
L’ultima ODSC si è tenuta a Milano il 16 gennaio: un’esperienza costruttiva davvero ottima.
Se ti interessa, la prossima volta ci andiamo insieme!
Qui il sito ufficiale!