• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
AI, machine-learning

OpenAI Gym Cartpole | Sviluppo Reinforcement Learning Algorithm

OpenAI Gym Cartpole | Sviluppo Reinforcement Learning Algorithm

OpenAI Gym è un toolkit per lo sviluppo e la comparazione di algoritmi di reinforcement learning che supporta l’allenamento di differenti tipologie di agenti.

Nel 2015, Elon Musk e Sam Altman, un mito dal cui blog dovremmo apprendere molto, fondarono un’organizzazione non profit con lo scopo di promuovere la ricerca nel campo delle intelligenze artificiali, a una sola condizione: che tutto il materiale prodotto fosse condiviso con la community. Nasceva OpenAI

Nell’aprile 2016 OpenAI Gym veniva rilasciato pubblicamente: sviluppatori e i ricercatori potevano iniziare a contar su una piattaforma per il reinforcement learning.

OpenAI Gym

Giusto per motivi estetici:

Gym è un toolkit per lo sviluppo e la comparazione di algoritmi di reinforcement learning che supporta l’allenamento di differenti tipologie di agenti.

Cos’è Gym

Contrariamente ad altre piattaforme, e con nostro sommo dispiacere, la documentazione ufficiale è scarsa.

Questa si aggiunge all’elenco di documentazioni da leggere, lista che contiene:

  • Documentazione di tesnsorflow
  • Documentazione di Gym

Sarà un novembre intenso.

Perché Gym?

Dove si cela la necessità di una simile libreria?

Ragioniamo insieme.

Una delle sfide maggiori del Reinforcement Learning è disporre di ambienti di test funzionanti in cui poter allenare l’agente.

Il nostro obiettivo è allenare un agente per giocare ad Atari? Avremo prima bisogno di un Atari simulator funzionante.

Vogliamo che il nostro robot impari a scalare una montagna? Lo portiamo in quota e nel caso in cui dovesse cadere… beh ne prendiamo un altro, e poi ancora uno… e… Ok non è scalabile.

Ecco che entrano in gioco gli ambienti di simulazione (simulated environment) in cui poter allenare l’agente.

Si tratta di ambienti replicabili, dalle condizioni controllate.

E’ quindi possibile aumentare o ridurre lo scorrere del tempo, incrementare la potenza computazionale, o allenare differenti ambienti in parallelo simultaneamente.

Entra in gioco: OpenAI Gym

Funzionamento Gym

Nel concreto la libreria Gym è una collezione di test problems, chiamati environemnts (ambienti) che possono essere impiegate come “palestre” di allenamento per la ricerca e lo sviluppo di nuovi algoritmi di reinforcement learning.

Gli environments condividono un’interfaccia comune, questo significa che possiamo scrivere algoritmi generali senza doverli adattare ai diversi ambienti.

Questo ci piace!

Installazione OpenAI Gym | Hello World con il Cartpole

Gym richiede Python 3.5+ e può essere installato come pacchetto usando pip:

pip install gym

Ora che ne dici di fare un bel “Hello World!” ?

Si beh… stiamo parlando di reinforcement learning…

Quindi abbiamo il nostro environment: un carrello capace di muoversi e un bastone in equilibrio.

Ora ci manca l’algoritmo, la nostra intelligenza.

In questo caso andiamo a scrivere l’algoritmo più stupido mai partorito da mente umana: movimento randomico.

Apriamo un editor ti testo e salviamo il file gym.py :

import gym
env = gym.make('CartPole-v0')
env.reset()
for _ in range(1000):
    env.render()
    env.step(env.action_space.sample()) # take a random action
env.close()

In realtà è divertente: dopo pochi secondi il carrello schizzerà via.

Questa è una breve introduzione a OpenAI Gym CartPole.

Ora è arrivato il momento di alzare il livello.

Seguimi per sviscerare il funzionamento del’ambiente CartPole, esaminandone la documentazione e realizzando un primo elementare algoritmo di Reinforcement Learning!

Accetto la sfida

Un caldo abbraccio, Andrea.

No, questo contenuto è riservato.
Non ci puoi accedere

E’ destinato a una ristretta lista di persone motivate e intraprendenti.

E’ diritto esclusivo di sognatori e curiosi.

Come? Pensi di essere una di loro?

Dimostramelo…

accetto i noiosi termini e le condizioni

Written by Andrea Provino - Ottobre 30, 2019
Tags | deep learning, reinforcement learning

You Might Also Like

rrn-tensorflow-example-deep-learning-guida-italiano-recurrent-neural-network

RNN Tutorial Tensorflow: Music Generation

Aprile 5, 2020

MAX Image Segmenter Web App | Log

Ottobre 18, 2019
deep-learning-gradient-descent-neural-network-batch-gradient-descent-spiegazione-italiano-deep-learning-tutorial

Gradient Descent: cos’è? | Deep Learning & Neural Networks

Ottobre 28, 2019
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • fully-homomorphic-encryption-crittografia-completamente-omomorfica Privacy Preserving

    Cos’è la Crittografia Omomorfica | Homomorphic Encryption (HE)

    Marzo 4, 2021
  • data-science-for-finance-machine-learning-deep-learning-data-science-use-cases-use-cases Business, Data Science, machine-learning

    Data Science for Finance | Use Cases per il Data Scientist

    Febbraio 13, 2021
  • differential-privacy-example-privacy-differenziale-esempio-italiano-applicazioni-reali Business, Data Science, Privacy Preserving

    Differential Privacy Example | Esempi di privacy differenziale

    Febbraio 10, 2021
  • privacy-enhancing-technologies-techniques-machine-learning-data-science-pets-guida-italiano-spiegazione-semplice Business, Data Science, machine-learning, Privacy Preserving

    Cosa sono le Privacy-enhancing technologies o techniques (PETs)

    Febbraio 7, 2021
  • condivisione-dati-finance-fintech-problems-machine-learning-for-finance-data-science-deep-learning-case-study Business

    Problemi della condivisione dati in finanza | Finance data sharing problems

    Febbraio 4, 2021
  • finance-privacy-settore-finanziario-dati-privacy-enhancing-technologies-ai Business

    Il legame tra Privacy Dati AI nel settore finanziario

    Febbraio 1, 2021
  • rust-react-webassembly-privacy-preserving-machine-learning Logs

    Rust, WebAssembly, React e un MVP

    Dicembre 21, 2020
  • diffie-hellman-key-exchange-protocol-scambio-di-chiavi-diffie-hellman Data Science, Privacy Preserving

    Cos’è lo scambio di chiavi Diffie-Hellman (DH)? | Privacy Preserving

    Dicembre 15, 2020
  • principio-di-esattezza-data-science-machine-learning-gdpr-data-accuracy Data Science, GDPR Compliant

    GDPR: Principio di esattezza dei dati (Data Accuracy)

    Dicembre 12, 2020
  • tensorflow-extended-tfx-deploy-machine-learning-guide-machine-learning-pipelines machine-learning

    TFX: come funziona Tensorflow Extended?

    Dicembre 9, 2020

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino