• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
AI, machine-learning

Open AI Safety Gym per Reinforcement Learning

Open AI Safety Gym per Reinforcement Learning

Open AI è un’organizzazione non profit di ricerca sull’intelligenza artificiale fondata da Elon Musk e Sam Altman. Nel 2016 nasce Open AI Gym, un toolkit per l’allenamento di agenti di Reinforcement Learning. Il 21 novembre 2019 Open AI Safety Gym è rilasciato.

Open AI Safety Gym è una suite di ambienti e strumenti per misurare il progresso di agenti che devono attenersi a specifici requisiti di sicurezza.

Sappiamo che in un sistema di Reinforcement Learning durante l’addestramento un agente sviluppa una policy, intesa come istruzioni che massimizzano il reward in uno specifico ambiente.

Open AI Gym è la palestra di allenamento degli agenti.

In un nostro log: da 0 a 0,001 abbiamo creato un una policy molto primitiva sfruttando l’ambiente Open AI Gym Cart Pole.

In una seconda fase sfrutteremo una Rete Neurale Artificiale per sviluppare l’agente vero e proprio.

Il nostro focus è ora su un nuovo ambiente: Safety Gym

Open AI Safety Gym

Alcuni sistemi di Deep Reinforcement Learning sono impiegati nello sviluppo delle Self-Driving Car.

Abbiamo visto quanto complicata possa essere questa missione con l’aiuto di Nada Cvijetic.

Far comprendere a questi algoritmi le dinamiche di un possibile incidente senza che l’auto di testing sia realmente coinvolta è tra i task più complessi.

Open AI Safety Gym cerca di risolvere queste sottili problematiche.

Safe Exploration Problem: Exploration is Risky

Per Safe Exploration Problem intendiamo una problematica a cui i sistemi di Reinforcement Learning devono logicamente andare in contro.

L’abstract della ricerca di DeepMind a riguardo è self-explanatory.

Brevemente, un agente deve esplorare l’ambiente per imparare il comportamento migliore da attuare.

Il procedimento di allenamento è quello del Trial & Error: “proviamo commettendo errori finché non riusciamo”

Capirai bene che se stessimo ragionando in termini di auto a guida autonoma questo sarebbe un grave problema: non possiamo certo permetterci di far scontrare la nostra vettura con una vetrina per fargli capire che… …come dire… …dovrebbe forse frenare.

L’esplorazione è fondamentalmente rischiosa a causa d’inaccettabili errori potenziali: l’agente potrebbe attuare comportamenti pericolosi.

Constrained Reinforcement Learning

Una possibile soluzione è quella di limitare l’apprendimento dell’agente, sfruttando a nostro vantaggio l’effetto di una cost function applicata all’ambiente di allenamento.

In questo modo la policy dovrà massimizzare il reward, minimizzando al contempo la cost function.

In un modello di Reinforcement Learning tradizionale infatti è possibile fissare una penalità costante, per limitare l’agente nel commettere inaccettabili errori.

C’è solo una cosuccia… una che mio Zio definirebbe da lazzarone.

In caso di penalità costante, potrebbe diventare conveniente commettere errori al fine di massimizzare il più possibile la reward function.

Cosa significa questo?

Il cugino di mia madre è disposto a prendere multe in autostrada pur di arrivare in orario agli appuntamenti, guidando oltre il limite.

La sua guida è sicura, quella del nostro agente potrebbe non esserlo.

Il punto è un altro.

In presenza di una penalità costante (ipotizziamo una multa di 100€) è conveniente essere penalizzati ma raggiungere l’obiettivo (firmare un contratto da 6000€) invece di mancarlo rispettando le regole.

Il nostro agente potrebbe imparare proprio questo comportamento.

Non ci piace.

Ecco perché introduciamo i Constrained Reinforcement Learning.

Questo approccio prevede l’inizializzazione di una penalità di valore accettabile, che aumenta in caso di errata condotta.

Safety Gym

Open AI Safety Gym è l’ambiente di prova per i Constrained Reinforcement Learning per garantire una safe exploration.

Giusto alcune informazioni utili.

In ogni ambiente della palestra, gli agenti sono portati a muoversi in presenza di ostacoli che occludono gli spazi.

Esistono tre robot, alterego dell’agente:

  • Punto, una semplice entità limitata sul piano bidimensionale con due attuatori: per l’avanzamento e il cambio direzionale. È presente un piccolo quadrato per lo spostamento di oggetti.
  • Auto, con due ruote parallele indipendenti e una libera a supporto del cambio direzionale. (L’agente deve imparare a coordinare il movimento delle ruote)
  • Doggo, un quadrupede con simmetria bilaterale e molteplici punti di flessione per le articolazioni, dotato di una uniform random policy che ne gestisce la caduta

Per il momento è tutto. Per approfondire dai un’occhiata qui.

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Novembre 23, 2019
Tags | machine learning, reinforcement learning

You Might Also Like

pate-framework-private-aggregation-of-teacher-ensambles-italia

PATE framework: Private Aggregation of Teacher Ensembles

Maggio 17, 2020

Big Mart Sales: Report preliminare | Towards Data Science

Gennaio 9, 2019
chatbot-dialogflow-tutorial-chatbot-tutorial-chatbot-case-studies-examples

Chatbot Case Studies PDF

Novembre 5, 2019
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • Blockchain Developer

    Circuito aritmetico

    Novembre 1, 2022
  • machine-learning

    Un nuovo inizio

    Settembre 4, 2021
  • Zero Knwoledge Proof Article Privacy Preserving

    Zero Knowledge Proof: zk-SNARK e zk-STARK | Prova a conoscenza zero

    Luglio 8, 2021
  • oblivious-transfer-spiegazione-italiano-ot-explanation Privacy Preserving

    Oblivious Transfer (OT)

    Luglio 6, 2021
  • Aleo Studio Website Preview machine-learning

    Aleo Studio: un IDE per Zero-Knowledge Proofs Applications

    Luglio 1, 2021
  • privacy-enhancing-technologies-data-machine-learning-data-science Privacy Preserving

    Perché il Privacy Tech è un vantaggio competitivo micidiale

    Giugno 17, 2021
  • bloom-filter-spiegazione-italian Privacy Preserving

    Bloom Filter

    Giugno 3, 2021
  • trusted-execution-environment-tee-data-science-come-fuziona Data Science, Privacy Preserving

    Trusted Execution Environment | Cos’è un TEE?

    Giugno 2, 2021
  • Crypto Custody services machine-learning

    Crypto Custody: Guida alla custodia delle criptomonete

    Maggio 26, 2021
  • deep-q-learning-q-learning-reinforcement-learning machine-learning

    Deep Q-Learning

    Aprile 27, 2021

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino