Blog.

Kaggle: cerchi lavoro come Data Scientist?


Autore
Andrea Provino
Data
Tempo di lettura
3 minuti
Categoria
machine-learning

competition-kaggle-machine-learning-data-science-come-trovare-lavoro-data-science-italia-guida-blog-kaggle-italia-blog

Kaggle è una piattaforma comunitaria di data science e machine learning.

Decine di migliaia di utenti, provenienti da tutto il mondo, si sfidano abitualmente in competizioni, alcune delle quali hanno monte premi di oltre $1,000,000.

Il funzionamento è semplice.

Esistono aziende sponsor che forniscono dati anonimizzati e costruiscono su di essi un problema.

La soluzione, che comprende l’analisi dei dati e lo sviluppo di sofisticati modelli di machine learning, deve essere trovata in una finestra temporale, chiusa la quale viene premiato il data scientist migliore.

Kaggle si configura dunque come un rapporto win-to-win:

  • le aziende risolvono un problema e si fanno pubblicità
  • gli utenti migliorano le proprie conoscenze, generano un portfolio e ottengono visibilità gratuita talvolta convertita in offerte di lavoro.

Kaggle: uno specchio per le allodole?

“Grandissimo Andreeee. Facciamo qualche competizione e otteniamo un lavoro giusto?”

Beh no.

Le differenze tra Kaggle e il mondo reale sono molteplici, e non devono in alcun modo essere sottovalutate.

Fuori dalle competizioni, non esiste alcun criterio che accomuni un problema a un altro. Quindi:

  • Esistono problemi semplici, facilmente risolvibili con il minimo effort.
  • Possiamo riciclare soluzioni esistenti: non è necessario inventare la ruota.
  • Le metriche possono essere assolute: basta che migliori la soluzione precedente.

Trattandosi di competizioni con premi di alto valore, su kaggle la storia cambia:

  • I problemi sono complicati, e certamente non risolvibili in un pomeriggio. Alcuni dedicano persino 60 ore a settimana unicamente a questa piattaforma.
  • Le soluzioni devono essere innovative: ricerche avanzate e algoritmi creati da zero, che accompagnano modelli avanzati.
  • Le metriche sono relative: come in ogni competizione, anche qui è presente una classifica. Vince il migliore!

L’elenco potrebbe continuare.

Le competizioni su kaggle incentivano a massimizzare le performance di un modello, mentre in situazioni reali è preferibile dedicare tempo all’efficienza e a incrementare l’impatto sul business aziendale.

Perché?

“ok, ok, ho afferrato! Distante dalla realtà, meglio lasciare stare!”

Wait a moment!

Per noi AADS (Ambiziosi Aspiranti Data Scientist) Kaggle è un’ottima opportunità, preziosa fonte da cui attingere conoscenza direttamente dai migliori!

Sappiamo che il modo migliore per imparare data science è praticare e sperimentare, e questa piattaforma è la perfetta a tal riguardo.

I dati sono pronti all’uso, così puoi evitare di preoccuparti della loro acquisizione; cosa che non deve essere dimenticata passando nel mondo reale dove è talvolta difficile mettere le mani su di loro.

Le interviste ai vincitori sono illuminanti, poiché possono farti capire la mentalità giusta da adottare. Sono generalmente professionisti, sanno il fatto loro!

Il ring | Categorie di competizione su Kaggle

Le competizioni sono suddivisibili in 4 grandi categorie:

  • Getting Started: prive di premi, comprendono dataset semplici, ricchi di tutorial e con una submission a rotazione, sena obblighi di tempo.
  • Recruitment: competizioni sponsorizzate dalle aziende, volte a individuare candidati da assumere. Sono poco comuni.
  • Research: con premi irrisori, e talvolta nulli, queste competizioni sono orientate alla ricerca e hanno finestre di submission piuttosto ampie
  • Featured: le classiche competizioni sponsorizzate da aziende, organizzazioni e persino governi con monte premi da capogiro!

Per approfondire, dai un’occhiata qui.

Un caldo abbraccio, Andrea.

Taggedmachine learning


Ultimi post

Patricia Merkle Trie

Il Practical Algorithm To Retrieve Information Coded In Alphanumeric Merkle Trie, o Patricia Merkle Trie è una struttura dati chiave-valore usatada Ethereum e particolarmente efficiente per il salvataggio e la verifica dell’integrità dell’informazione. In questo post ne studieremo le caratteristiche. Prima di procedere, ci conviene ripassare l’introduzione al Merkle Tree nella quale abbiamo chiarito il […]

Andrea Provino
ethereum-patricia-merkle-tree
Tree Data Structure: cos’è un Merkle Tree

Un Merkle Tree è una struttura dati efficiente per verificare che un dato appartenga a un insieme esteso di elementi. È comunemente impiegato nelle Peer to Peer network in cui la generazione efficiente di prove (proof) contribuisce alla scalabilità della rete. Capire i vantaggi di questa struttura ci tornerà utile nel nostro percorso di esplorazione […]

Andrea Provino
merkle-tree-cover
UTXO: come funziona il modello Unspent Transaction Outputs

Per tenere traccia dei bilanci utente, la blockchain di Bitcoin sfrutta un modello di contabilità definito UTXO o Unspent Transaction Outputs. In questo articolo ne esaminiamo le caratteristiche. Ogni blockchain è dotata di un sistema di contabilità, un meccanismo attraverso cui tenere traccia dei bilanci di ciascun utente. I due grandi modelli di riferimento nel […]

Andrea Provino
bitcoin-utxo
Cos’è Ethereum

Possiamo definire Ethereum come una macchina a stati distribuita che traccia le transizioni di un archivio dati general-purpose (i.e. una memoria in grado di registrare qualsiasi dato esprimibile come coppia di chiave e valore o key-value) all’interno della Ethereum Blockchain. È arrivato il momento di esplorare uno dei progetti tecnologici più innovativi e interessanti degli […]

Andrea Provino
ethereum