• 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
  • 🏡 Home
  • 🚨 GDPR Compliant
  • ⚡️ Data Science
  • 📌 Machine Learning
  • 🔒 Privacy Preserving
machine-learning

Adversarial Attack | Cos’è un Attacco Avversario

Adversarial Attack | Cos’è un Attacco Avversario

Un Adversarial Attack è un attacco compiuto per mezzo di adversarial examples ai danni di un modello di machine learning, avente l’obiettivo d’ingannarlo affinché l’aggressore ottenga un vantaggio.

Gli adversarial attacks costiuiscono una seria minaccia alla creazione di modelli sicuri.

Sono pertanto il tallone d’Achille dell’AI Safety.

Devi sapere che a gennaio abbiamo iniziato un ambizioso progetto: approfondire 5 grandi aree tematiche, che rappresentano l’intersezione tra etica, AI e società.

Più nel dettaglio:

  • Trust AI (qui)
  • Verification (qui)
  • Security
  • Privacy (qui)
  • Adversarial (argomento iniziato qui, e proseguito su questo articolo!)

In questo post, vedremo come classificare e riconoscere gli adversarial attack!

Preparati a esaminare vecchi articoli accademici e scovare preziose informazioni nascoste.

Il nostro sarà un viaggio avventuroso!

Prima, assicuriamoci di aver preso tutto per questa spedizione.

Nel nostro precedente post abbiamo introdotto sinteticamente il tema dell’Adversarial AI e compreso intuitivamente la portata della minaccia.

Oggi esploriamo tecnicamente gli attacchi noti.

Un’ultima considerazione prima di salpare.

La maggior parte delle ricerche è stata condotta nell’ambito della computer vision.

Qui, l’influenza degli attacchi sembra essere maggiore anche se più in generale parleremo di classificatori.

Adversarial Attack Taxonomy

Nel libro Adversarial Machine Learning, gli autori distinguono gli attacchi avversari con una tassonomia che considera tre dimensioni: influenza, violazione di sicurezza e specificità.

In questo modo siamo in grado di caratterizzare i possibili attacchi compiuti ai danni dei sistemi di apprendimento, i learner.

Sarò sincero con te.

Non ti aspettare che questa tassonomia sia il Sacro Graal.

Con l’emergere di nuove ricerche, potrebbe infatti essere implementata, modificata o addirittura sostituita.

Rappresenta comunque un buon punto di partenza per farci strada nell’affascinante mondo degli adversarial attack.

Un’ultima cosa.

Riconosciamo almeno 12 classi di attacchi differenti con questa tassonomia, poiché le dimensioni operano in modo indipendente tra loro.

Benissimo, procediamo!

Attack influence

Questo primo asse descrive le capacità di attacco dell’avversario, il quale può avere un’influenza distinguibile in causativa ed esplorativa.

L’influenza causativa (causative influence) mina le capacità di apprendimento del sistema, manipolando sia il dataset di training che quello di testing.

Troviamo qui un esempio ben documentato.

L’influenza esplorativa (exploratory influence) pone un focus sulla ricerca e lo sfruttamento di vulnerabilità al solo livello predittivo e non influenza dunque la fase di training; al contrario mina quella predittiva.

Qui trovi un esempio, anche se particolarmente verboso.

Con quest’ultima modalità l’avversario invia istanze opportunamente alterate e ne studia gli effetti sulle previsioni del modello.

Comunque, in entrambi i casi, le capacità di attacco di un potenziale aggressore possono essere influenzate anche da eventuali limitazioni di manipolazione imposte dagli sviluppatori.

Approfondiremo meglio prossimamente.

Security Violation

La seconda dimensione è la violazione di sicurezza prodotta dall‘adversarial attack.

Le violazioni sono qui di tre tipologie.

Distinguiamo le violazioni d’integrità, da quelle di disponibilità, e di privacy.

Il risultato di una violazione di integrità (integrity violation) è l’aumento dei falsi negativi (false negative). L’aggressore ottiene un accesso non autorizzato al sistema per far legittimare esempi maligni.

Le violazioni di disponibilità (availability violation) aumentano la percentuale di classificazioni errate (falsi positivi e falsi negativi) compromettendo la normale operatività del sistema e causando denial of services; rendendo di conseguenza il modello inutilizzabile.

Le violazioni di privacy infine ottengono informazioni confidenziali sul dataset di training compromettendo la privacy delle istanze presenti.

Un esempio di attacco di questo tipo può essere eseguito ai danni di un sistema di riconoscimento biometrico.

Possiamo potenzialmente recuperare i modelli d’impronte impiegate nell’addestramento del modello, ottenendo così le identità dei clienti.

Specificity

La terza dimensione prende in esame la specificità dell’attacco, che può essere mirata o indiscriminata

Analizziamo entrambi gli attacchi.

Devi sapere che un attacco mirato (o targhetizzato, targeted) mira a una particolare istanza, intendendo degradare le performance del modello in modo circoscritto.

Uno di tipo indiscriminato (indiscriminate) coinvolge invece un’ampia classe d’istanze.

Esempi di attacco avversario

Ora ti mostro diversi adversarial attack classificati in base alla tassonomia di cui sopra, che possono essere eseguiti i danni di un PDF malware detector.

adversarial attack classificationadversarial attack description
attacco di integrità causativa L’aggressore intende ingannare il modello affinché classifichi PDF malevoli come validi e sicuri. L’operazione prevede l’inserimento di PDF benigni con caratteristiche falsate nel dataset di training. L’atacco è poi targeted se le cartteristiche corrispondono ad uno specifico malware oppure indiscriminate in caso contrario
attacco di disponibilità causativa L’aggressore inietta esempi malevoli che esibiscono caratteristiche comuni a quelli benigni. L’attacco può essere targeted se l’aggressore intende manipolare la classificazione di un gruppo ristretto di PDF.
attacco di violazione privacy causativaE’ un attacco complesso mosso su più fronti.

L’aggiunta di PDF malevoli con caratteristiche che identificano uno specifico autore sono inserite nel sistema.

Quindi l’aggressore studia gli output testando se altri PDF con quelle caratteristiche vengano classificati come malevoli.

Questo comportamento potrebbe far trasparire informazioni confidenziali su altri autori del trainig data.

In questo articolo accademico trovi maggiori esempi e una più accurata analisi.

Threat model | Attacks scenarios

La tassonomia che abbiamo sin qui analizzato è stata estesa in un più comprensivo modello sulle minacce (threat model), per creare ipotesi su:

  • L’obiettivo dell’aggressore
  • Conoscenza del sistema attaccato
  • Capacità di manipolazione dei dati in input e/o delle componenti del sistema.
  • Identificazione formale dell’attacco

Cos’è quel bagliore all’orizzonte?

Abbiamo capito.

Siamo arrivati alla nostra destinazione: ecco due dei principali scenari di attacco, identificati proprio grazie a questo modello.

Evasion Attacks

Gli evasion attacks sono la tipologia di attacco prevalente. Esempi malevoli sono appositamente creati per evitare il riconoscimento e fare in modo che vengano erroneamente classificati come legittimi.

Un esempio di evasion attack è quello delle image-based spam.

Poisoning attacks

I poisoning attacks sono particolarmente efficaci contro sistemi di online learning.

In questi casi, i modelli di machine learning sono spesso allenati periodicamente sui nuovi dati disponibili, collezionati durante l’operatività.

Un esempio?

Gli Intrusion Detection Systems (IDSs).

In questo scenario un aggressore potrebbe avvelenare i dati di training iniettando esempi modificati per compromettere l’intera fase di learning.

Per il momento è tutto.

Un caldo abbraccio, Andrea.

Written by Andrea Provino - Maggio 12, 2020
Tags | adversarial, deep learning

You Might Also Like

come-funziona-gan-generative-adversarial-networks-italia-rete-generativa-avversaria-rete-antagonista-generativa

GAN: Come funziona una rete generativa avversaria

Aprile 21, 2020
resnet-architecture-diagram-deep-learning-eningeer-italia-skip-connection-guida-italiano-blog-machine-learning-deep-learning-data-science

ResNet CNN Networks | Deep Learning Engineer Italia

Marzo 1, 2020
image-segmentaion-semantic-segmentaion-instance-segmentaion-machine-learning-data-science-guida-italiano

Image Segmentation | Segmentazione semantica e delle istanze

Novembre 8, 2020
Next Post
Previous Post

Una pubblicità che non vedi se usi AdBlock

EXPAND YOUR KNOWLEDGE

  • Blockchain Developer

    Circuito aritmetico

    Novembre 1, 2022
  • machine-learning

    Un nuovo inizio

    Settembre 4, 2021
  • Zero Knwoledge Proof Article Privacy Preserving

    Zero Knowledge Proof: zk-SNARK e zk-STARK | Prova a conoscenza zero

    Luglio 8, 2021
  • oblivious-transfer-spiegazione-italiano-ot-explanation Privacy Preserving

    Oblivious Transfer (OT)

    Luglio 6, 2021
  • Aleo Studio Website Preview machine-learning

    Aleo Studio: un IDE per Zero-Knowledge Proofs Applications

    Luglio 1, 2021
  • privacy-enhancing-technologies-data-machine-learning-data-science Privacy Preserving

    Perché il Privacy Tech è un vantaggio competitivo micidiale

    Giugno 17, 2021
  • bloom-filter-spiegazione-italian Privacy Preserving

    Bloom Filter

    Giugno 3, 2021
  • trusted-execution-environment-tee-data-science-come-fuziona Data Science, Privacy Preserving

    Trusted Execution Environment | Cos’è un TEE?

    Giugno 2, 2021
  • Crypto Custody services machine-learning

    Crypto Custody: Guida alla custodia delle criptomonete

    Maggio 26, 2021
  • deep-q-learning-q-learning-reinforcement-learning machine-learning

    Deep Q-Learning

    Aprile 27, 2021

Quello che Google pensa ti possa piacere

Prodotti che i Cookie dicono potresti trovare interessanti

AI Blog - © 2019-2021 Andrea Provino