Michael Chen | Content Strategist | 17 luglio 2024
L'apprendimento supervisionato è una tipologia di machine learning che utilizza set di dati etichettati per addestrare gli algoritmi. Con l'apprendimento supervisionato, i data set etichettati consentono all'algoritmo di determinare le relazioni tra input e output. Man mano che l'algoritmo lavora sui suoi dati di formazione, identifica pattern che alla fine possono perfezionare i modelli predittivi o fornire informazioni da usare per le decisioni durante i flussi di lavoro automatizzati. In sostanza, i set di dati etichettati fungono da esempi che l'algoritmo impara, come uno studente durante una lezione strutturata.
L'apprendimento supervisionato è la scelta ideale per una serie di obiettivi e circostanze. Se un progetto ha un obiettivo ben definito, l'apprendimento supervisionato può aiutare i team a finire più velocemente rispetto all'utilizzo dell'apprendimento non supervisionato, in cui l'algoritmo assimila un set di dati non etichettato senza parametri o obiettivi e determina da solo pattern e relazioni nei dati. Nell'apprendimento supervisionato, i data set etichettati fungono da guide per l'addestramento degli algoritmi.
Inoltre, rispetto ad altre forme di machine learning, l'addestramento di un algoritmo di apprendimento supervisionato offre il vantaggio di gestire quantità note, come caratteristiche e risultati. Ciò può accelerare il processo di revisione, poiché le metriche standard permettono ai trainer di comprendere concretamente lo stato attuale di un progetto.
Con l'apprendimento supervisionato, le organizzazioni possono ottenere diversi vantaggi. Integrando la capacità di elaborare in modo efficiente i big data, le organizzazioni possono identificare pattern e insight molto più velocemente per prendere decisioni più tempestive. Inoltre, gli algoritmi di apprendimento supervisionato possono potenziare gli sforzi di automazione delle attività, potenzialmente migliorando e accelerando i flussi di lavoro. Ad esempio, un algoritmo di machine learning in un'operazione di produzione potrebbe essere addestrato utilizzando set di dati storici per identificare i cicli di manutenzione tipici per varie apparecchiature. Fatto ciò, il sistema potrebbe applicare tale conoscenza ai dati in tempo reale provenienti da sensori che tracciano l'utilizzo e le prestazioni di uno strumento. L'algoritmo potrebbe quindi segnalare segni di usura o avvertire della fine del ciclo di vita per le parti critiche affinché i componenti di ricambio possano essere ordinati prima che un malfunzionamento di uno strumento arresti un'intera linea di produzione.
Il machine learning supervisionato inizia curando i set di dati di formazione etichettati, con input e output identificati in modo chiaro e coerente. L'algoritmo utilizza questi dati per imparare le relazioni; questo apprendimento porta a un modello matematico per la previsione. Il processo di addestramento è iterativo e si ripete per perfezionare l'algoritmo fino a quando il modello non raggiunge il livello di precisione desiderato. A questo punto, è possibile utilizzare set di dati diversi per valutare e confermare che il modello sia pronto per l'utilizzo con i dati attivi.
Gli algoritmi di apprendimento supervisionato generalmente rientrano in una di queste due categorie.
Classificazione: gli algoritmi di classificazione acquisiscono dati e inseriscono input in output categorizzati. Ad esempio, un algoritmo finanziario per il rilevamento delle frodi esaminerà la cronologia degli acquisti di un cliente con carta di credito e utilizzerà tali dati per decidere se una nuova transazione è probabilmente legittima o dovrebbe essere contrassegnata per un'ulteriore ispezione delle frodi.
Regressione: gli algoritmi di regressione utilizzano data set di addestramento etichettati per identificare una relazione più adatta tra input e output in modo da poter eseguire previsioni matematiche per nuovi input. Ad esempio, un algoritmo meteorologico può assumere variabili come stagione, trend recenti, pattern storici e metriche ambientali correnti per creare un output di previsione.
Sebbene l'apprendimento supervisionato sia un approccio di machine learning collaudato ed efficace, presenta diverse sfide. I team devono esaminare i seguenti problemi prima di decidere se procedere con l'apprendimento supervisionato.
Selezione dei modelli: gli algoritmi di apprendimento supervisionato variano in complessità e intensità di risorse. Ad esempio, un albero decisionale, che è essenzialmente un diagramma di flusso di punti decisionali e possibili risultati, può funzionare con una footprint ridotta, ma non ha le capacità per essere preciso in un'area complessa. D'altra parte, una rete neurale profonda richiederà molte più risorse sia per l'addestramento che per la produzione, ma alla fine potrà fare previsioni accurate e molto altro ancora. Trovare il giusto equilibrio è la chiave per un progetto di successo.
Qualità dei dati di addestramento: qualsiasi progetto di machine learning richiede dati puliti da fonti di qualità. Nel caso dei dati di formazione supervisionati, significa nello specifico dati con etichettatura accurata e coerente compatibile con altre fonti utilizzate per l'addestramento. Se i data set di addestramento non sono in formati compatibili, le tecniche di integrazione e trasformazione dei dati devono essere applicate prima della formazione, cosa che aggiunge tempo e spese.
Comprendere i vincoli del progetto: fattori come budget, risorse dell'ambiente di addestramento e scadenze possono creare vincoli pratici che determineranno la realtà di un progetto di machine learning. Poiché questi vincoli possono influire sulla selezione degli algoritmi, i team devono identificare i parametri prima di iniziare.
La conclusione è che l'apprendimento supervisionato può essere il giusto approccio di apprendimento automatico per i progetti in cui sono disponibili set di dati etichettati. Oltre a ciò, i team dovrebbero capire che l'apprendimento supervisionato funziona meglio quando l'obiettivo sono previsioni accurate o decisioni basate su pattern identificati: pensa ad esempio al rilevamento di frodi o spam, dove l'algoritmo può essere addestrato su esempi di risultati corretti e errati. Infine, comprendere i diversi tipi di modelli di apprendimento supervisionato, come gli alberi decisionali e la regressione lineare, mostrerà se questo è l'approccio giusto per un progetto specifico.
Quale caso d'uso di intelligenza artificiale si adatta meglio all'apprendimento supervisionato? Scoprilo in questo ebook.
Qual è un esempio di algoritmo di apprendimento supervisionato?
Un esempio di algoritmo di apprendimento supervisionato è la creazione di un modello che prevede la probabilità di una condizione medica in base alla cartella clinica elettronica di un paziente. Il modello è addestrato su un insieme etichettato di dati del paziente, utilizzando fattori come sintomi, età, risultati dei test, condizioni preesistenti e altri fattori. Ciò consente al sistema di assimilare i dati di un paziente e identificare cosa, se non altro, potrebbe adattarsi a una condizione medica non diagnosticata e richiedere un'analisi più attenta.
Qual è un esempio di apprendimento non supervisionato?
A differenza dell'apprendimento supervisionato, gli algoritmi di apprendimento non supervisionati vengono addestrati utilizzando data set non etichettati. L'obiettivo dell'apprendimento non supervisionato è consentire all'algoritmo di esplorare i dati e identificare i pattern autonomamente. Il modello che ne risulta può quindi essere applicato ai dati in entrata. Un esempio di apprendimento non supervisionato è un modello di segmentazione dei clienti, che può includere pattern in grandi set di dati di utilizzo dei clienti e cronologia degli acquisti per raggruppare i clienti in gruppi per scopi di marketing.
Le CNN sono supervisionate o non supervisionate?
Le convolutional neural network (CNN) non sono altro che una tecnica di apprendimento supervisionato addestrata su set di dati etichettati per scopi come l'analisi di immagini o video, oltre ad applicazioni con modelli simili come l'elaborazione del linguaggio naturale. Le CNN utilizzano più livelli per separare le attività, come identificare caratteristiche/specifiche o applicare la classificazione, e ottimizzare le risorse di calcolo.