Cos'è l'apprendimento per rinforzo?

Michael Chen | Content Strategist | 3 aprile 2024

L'apprendimento per rinforzo è una forma di machine learning (ML) che permette ai modelli AI di perfezionare il processo decisionale in base a feedback positivi, neutri e negativi che li aiuta a decidere se ripetere un'azione in circostanze simili. L'apprendimento per rinforzo si verifica in un ambiente esplorativo quando gli sviluppatori perseguono un obiettivo prefissato, rendendolo diverso dall'apprendimento supervisionato e non supervisionato.

Nell'apprendimento per rinforzo, l'algoritmo funziona con un set di dati non etichettati focalizzato su un risultato specifico. Ogni passo compiuto dall'algoritmo per esplorare il set di dati crea feedback positivi, negativi o neutri. Questo feedback è la parte di "rinforzo" del processo di apprendimento: man mano che si accumula, supporta la decisione di andare avanti con un percorso positivo o di evitare un percorso negativo. Alla fine, il modello può determinare la strategia migliore per raggiungere un risultato. Poiché l'algoritmo considera l'obiettivo primario generale, questo percorso può includere un processo di gratificazione ritardata, accumulando piccole conseguenze negative per raggiungere il risultato desiderato.

Se questo ti suona familiare, è perché l'apprendimento per rinforzo imita il processo di apprendimento naturale. Complimenti, ricompense e conseguenze negative sono usati come informazioni per definire i confini delle menti in via di sviluppo, rafforzando le linee guida su come agire e avere successo nel mondo, che si tratti di un giovane animale che si procaccia il cibo o di un bambino che impara a identificare i simboli. Poiché l'apprendimento per rinforzo funziona come l'apprendimento del mondo reale, è utile per scenari complessi e aperti in cui la strategia a lungo termine può essere più importante di un risultato immediato.

In ambienti pieni di regole, limitazioni e relazioni connesse o dinamiche, l'apprendimento per rinforzo aggiunge sfumature alla modellazione del processo decisionale favorendo una comprensione delle conseguenze delle azioni. A livello tecnico, l'apprendimento per rinforzo offre molta più flessibilità dell'apprendimento supervisionato perché non si basa su set di dati etichettati. Invece, i modelli imparano attraverso la sperimentazione, creando un'adattabilità che porta a una gamma più ampia di soluzioni in un intero spettro di successo. I modelli possono adattarsi alle circostanze.

Cos'è l'apprendimento per rinforzo?

Si parla di apprendimento per rinforzo quando i modelli perfezionano il loro processo decisionale sulla base di rinforzi positivi, neutri e negativi. È una scelta efficace per l'addestramento di modelli di machine learning in diverse circostanze. L'apprendimento per rinforzo è particolarmente appropriato quando l'obiettivo è comprendere le strategie alla base dei risultati di successo piuttosto che produrre alberi decisionali più semplici.

Ad esempio, se un modello AI completa con successo un livello in un gioco, può essere ricompensato con punti bonus o un avanzamento di livello. Il rinforzo neutro, d'altra parte, si riferisce a situazioni in cui non vengono date ricompense o sanzioni e viene in genere utilizzato quando le azioni del modello non hanno un impatto significativo sull'obiettivo generale. Il rinforzo negativo prevede sanzioni quando il modello esegue azioni indesiderate o non riesce a raggiungere il risultato auspicato. Ad esempio, se l'intelligenza artificiale effettua una mossa non consentita o infruttuosa in un gioco, può essere penalizzata con una detrazione in punti o con la retrocessione di un livello.

Fra i casi d'uso ideali per l'apprendimento per rinforzo ci sono

  • Gaming: i primi avversari virtuali di scacchi al computer sono stati costruiti su una serie di regole if/then. Con l'apprendimento per rinforzo, il modello riceve una comprensione più ampia e organica di situazioni, scelte e risultati, creando un processo decisionale complesso che si traduce in un avversario CPU più sofisticato.
  • AI generativa: la formazione sui rinforzi può far parte della base del ML per un modello di AI generativa. Che il modello generi immagini, testo o audio, l'apprendimento per rinforzo consente un approccio trial-and-error per determinare e perfezionare la precisione di prompt e output.
  • Marketing: ogni interazione nel marketing è un'opportunità per rafforzare l'apprendimento. Indipendentemente dal fatto che i clienti abbiano aperto, fatto clic e siano rimasti, o meno, sulle pagine, l'interazione offre rinforzi sia positivi che negativi, che vengono inseriti nuovamente nel modello per creare un profilo cliente più accurato.
  • Motori di suggerimento: un modello di suggerimento ottiene un rinforzo positivo attraverso il coinvolgimento ricevuto per ogni consiglio. Ciò porta a pattern che si basano su un modello più preciso per i profili dei clienti.
  • Auto a guida autonoma: grazie all'apprendimento in ambienti controllati e simulati, i modelli di auto a guida autonoma possono acquisire una conoscenza approfondita di circostanze estremamente complesse. Poiché la guida prevede così tante decisioni sul momento con fattori come la vicinanza, la velocità, il meteo e i pericoli, l'apprendimento per rinforzo consente una serie di risposte per perfezionare il processo decisionale nei modelli.

In tutti questi casi, le fasi iniziali dell'addestramento sono simili a un bambino che inizia a capire il mondo. Quando il modello raggiunge la fase di produzione, può essere considerato maturo o adulto, in grado di prendere decisioni generalmente accurate mentre impara continuamente a perfezionare quel livello di precisione, e, con le giuste circostanze e risorse, anche raggiungere la padronanza dell'argomento, che si tratti di giocare a un gioco come gli scacchi o di fornire suggerimento che interessano sempre un cliente.

L'intelligenza artificiale può aiutare i CIO ad analizzare i dati per ottimizzare la spesa cloud e suggerire modifiche al codice per progettare e ridurre al minimo i dati in uscita. Scopri come sfruttare ora il potere dell'intelligenza artificiale per affrontare talenti, sicurezza e altre sfide.

Domande frequenti sull'apprendimento per rinforzo

L'apprendimento per rinforzo è ML o AI?

L'apprendimento per rinforzo è una tecnica di machine learning che può essere utilizzata per addestrare i sistemi a prendere decisioni basate sulla ricezione di feedback positivi, neutri e negativi. Un modello ML che utilizza l'apprendimento per rinforzo può far parte di un modello di intelligenza artificiale più avanzato progettato per simulare le reazioni umane a una particolare circostanza o situazione.

Quali sono i tre principali tipi di apprendimento per rinforzo?

I tre principali tipi di apprendimento per rinforzo sono

  • Basato su modelli: viene creato un ambiente che il modello può esplorare liberamente man mano che determina i suoi parametri per creare il percorso migliore verso il successo.
  • Basato su policy: le relazioni tra strategie potenziali (policy), azioni (valori) e risultati vengono esaminate prima che il modello determini quale policy raggiunge il livello di successo più elevato.
  • Basato sul valore: l'ambiente corrente in relazione ad azioni (valori) specifiche viene esaminato prima che il modello determini quale valore raggiunge il più alto livello di successo.

Qual è la differenza tra apprendimento supervisionato e apprendimento per rinforzo?

L'apprendimento supervisionato utilizza set di dati etichettati per addestrare i modelli in modo che possano ottenere con precisione i risultati previsti. L'apprendimento per rinforzo utilizza un approccio più esplorativo, fornendo un ambiente aperto per il modello per esplorare diverse strategie e scelte fino al raggiungimento del risultato desiderato.