What is unsupervised learning?

Unsupervised learning is a type of machine learning where the algorithm is trained on unlabeled data. An unsupervised learning project starts with establishing the problem to be solved or other goal. With that information, the project’s leads can choose the type of algorithm for the project. This selection is usually based on the desired outcome: clustering, relationships, or dimensionality—the process of identifying and defining features or variables within a data set. Goals also drive the search for appropriate training data sets, as the project’s goals and algorithm types drive the type of data needed.

What are the two types of unsupervised learning?

Unsupervised learning techniques are generally classified as one of two different types. Clustering refers to the process of grouping data based on traits, with algorithms using analysis methods such as hierarchical clustering—creating clusters in hierarchical trees, such as customer purchasing power based on zip code—and probabilistic clustering, which uses probability scores that calculate the likelihood of belonging, such as a customer’s risk characteristics in loan analysis. Association rule learning refers to the process of identifying relationships between data points to determine patterns and trends, with algorithms using methods such as quantitative association—relationships associated based on numerical or quantitative attributes between data points, such as purchasing trends by age—and multirelational association, that is, relationships associated among multiple possible variables between data points, such as a pro athlete’s performance based on age, quality of teammates, salary, and college program.

What’s a good example of unsupervised learning?

A good example of unsupervised learning is an artificial intelligence LLM for the health care industry. In this case, the LLM trains on unstructured data sets, such as medical textbooks, patient records, and study data. Using iterative training, the LLM learns relationships and patterns, with the eventual goal for the LLM to answer queries using appropriate medical language with a high level of accuracy.

What’s the difference between supervised and unsupervised learning?

Supervised learning uses labeled data sets in algorithm training. With clear input and output labels, supervised learning builds off a foundation of established definitions. For example, an algorithm for identifying cats trains off photos clearly labeled as either having cats or not having cats. Unsupervised learning uses unlabeled data sets in training. Without labels, the algorithm explores the data sets to identify patterns and trends. Using the same example of identifying cats, the system could pretrain with large unlabeled data sets of general encyclopedia-style text and images to learn visual patterns and concepts related to cats, then refine by training on smaller image data sets for specific items, such as cat faces, paws, and tails.

What’s an example of unsupervised feature learning?

In machine learning, features are variables found in a data set. An example of a feature for a weather algorithm is the day of the year. In the specific case of unsupervised learning, features are identified as the algorithm explores the data. Going back to that weather example, the model may find via exploration that date is an important factor in making predictions and thus determine that’s a required input feature for the model.

Paese

Cos'è l'apprendimento non supervisionato?

Michael Chen | Content Strategest | 17 luglio 2024

In questo articolo

Cos'è l'apprendimento non supervisionato?
Domande frequenti sull'apprendimento non supervisionato

L'apprendimento non supervisionato è una tecnica di machine learning che utilizza data set non etichettati per l'addestramento. Con l'apprendimento non supervisionato, un modello non ha linee guida stabilite per gli output o le relazioni desiderate. L'obiettivo è invece quello di esplorare i dati e, così facendo, scoprire pattern, tendenze e relazioni.

L'apprendimento non supervisionato è la scelta ottimale per un progetto di machine learning con una grande quantità di dati non etichettati, spesso diversi, in cui pattern e relazioni non sono ancora noti. L'algoritmo spesso scoprirà insight che potrebbero non essere stati trovati altrimenti. Ad esempio, esaminare un set di dati di cronologie degli acquisti può rivelare cluster di clienti che acquistano in modi simili, ma prima sconosciuti. I decision maker potrebbero utilizzare tali informazioni per sviluppare nuovi programmi di vendita.

Per via della sua natura esplorativa, l'apprendimento non supervisionato funziona meglio per scenari specifici. Questi includono:

Analisi dei dati grezzi: gli algoritmi di apprendimento non supervisionato possono esplorare volumi di dati molto grandi e non strutturati, come testi, per trovare pattern e trend. Ne è esempio l'analisi degli storici di e-mail dei clienti, in cui un algoritmo di apprendimento non supervisionato può esplorare un set di dati non strutturati di e-mail dei clienti. Sebbene non ci sia alcuna etichettatura per definire la qualità o lo scopo di queste interazioni, l'algoritmo può rilevare modelli che potrebbero evidenziare opportunità di miglioramento, come un elevato volume di richieste sullo stesso problema tecnico.

Raggruppamenti: nel caso della segmentazione dei dati, l'apprendimento non supervisionato può esaminare le caratteristiche dei datapoint per determinare le caratteristiche comuni e i pattern e creare gruppi. Ne è esempio un progetto per addestrare un modello linguistico di grandi dimensioni (LLM) per rispondere all'input del cliente. Utilizzando il feedback non strutturato dei clienti da chatbot e messaggi, l'algoritmo può imparare a identificare le categorie in base al testo, come domanda di fatturazione, feedback positivo o negativo, domanda tecnica o richiesta di impiego. Questa categorizzazione aiuta quindi il modello a identificare le risposte appropriate sia in termini di lingua che di tono.

Relazioni: in modo simile ai raggruppamenti, l'apprendimento non supervisionato può esaminare il peso (l'importanza delle funzioni o degli input che si sovrappongono ai datapoint), la distanza (la misura della somiglianza complessiva tra i datapoint) e la qualità delle relazioni per determinare la modalità di connessione dei datapoint. Prendi in considerazione un algoritmo di rilevamento delle frodi che va oltre la segnalazione binaria di record discutibili esaminando diversi datapoint correlati, come acquisti simili effettuati da account precedentemente contrassegnati o altri acquisti da parte dell'account in questione. L'analisi delle relazioni fornisce il contesto, consentendo agli istituti di determinare se il registro contrassegnato era un'istanza una tantum, parte di un modello di comportamento più ampio o una frode.

In ciascuno di questi casi, l'apprendimento non supervisionato identifica pattern e caratteristiche all'interno dei dati. Questo processo può portare a una migliore comprensione di ciò che si può imparare per guidare il processo decisionale.

Cos'è l'apprendimento non supervisionato?

L'apprendimento non supervisionato è un tipo di apprendimento automatico in cui l'algoritmo viene addestrato su dati non etichettati. Un progetto di apprendimento non supervisionato inizia con la definizione del problema da risolvere o di un altro obiettivo. Con queste informazioni, i lead del progetto possono scegliere il tipo di algoritmo per il progetto. Questa selezione si basa in genere sul risultato desiderato: clustering, relazioni o dimensionalità, ovvero il processo di identificazione e definizione di funzioni o variabili all'interno di un data set. Gli obiettivi determinano anche la ricerca di set di dati di formazione appropriati, poiché gli obiettivi e i tipi di algoritmo del progetto determinano il tipo di dati necessari.

Una volta che questi pezzi sono impostati, l'algoritmo viene addestrato, utilizzando tentativi ed errori per imitare le relazioni di input/output stabilite fino a quando non viene raggiunto uno standard di prestazioni accettabile. Gli esperti di dati analizzano i risultati per vedere se il modello ha scoperto gli insight desiderati e iterano perfezionandolo e modificando i parametri per migliorare le prestazioni.

La decisione di utilizzare l'apprendimento non supervisionato implica alcune avvertenze. Poiché l'apprendimento non supervisionato è un metodo di formazione più complesso rispetto all'apprendimento supervisionato o semi-supervisionato, a causa della mancanza di dati etichettati che aiuterebbero a convalidare i risultati, in genere richiede la supervisione di esperti in grado di verificare le prestazioni del modello. Pertanto, sebbene l'apprendimento non supervisionato sia un processo pratico dal punto di vista dell'etichettatura e della preparazione dei dati, ha bisogno di una stretta sorveglianza per rimanere sulla giusta strada. Ad esempio, in un modello di AI generativa con il compito di produrre illustrazioni realistiche, gli esperti di dominio dovranno rivedere attentamente i risultati per garantire che i modelli e le relazioni che alimentano la generazione di immagini siano accurati in aree come l'illuminazione, l'anatomia e la fattibilità strutturale. Altrimenti, potresti finire con dita di mani e piedi in più.

I tipi più comuni di apprendimento non supervisionato sono i seguenti:

Clustering: quando l'algoritmo cerca gruppi di dati simili e le caratteristiche comuni tra loro. Fra gli esempi reali ci sono la segmentazione dei clienti e l'ordinamento automatico dei filtri e-mail.

Regola di associazione: quando l'algoritmo esamina le relazioni tra i datapoint, indipendentemente dal fatto che siano a un livello più superficiale o più nascosti. Gli esempi del mondo reale includono modelli di acquisto dei clienti e relazioni dei sintomi per la diagnosi medica.

Riduzione della dimensionalità: quando il modello esamina un data set per ridurre il numero di funzioni irrilevanti (dimensioni) utilizzate. Gli esempi del mondo reale includono il riconoscimento delle immagini e gli algoritmi di compressione dei dati.

Il machine learning non supervisionato consente alle aziende di scoprire pattern e insight in set di dati di grandi dimensioni, vari e non strutturati privi di categorie o etichette predefinite, senza l'intervento umano. È come setacciare migliaia di granelli di sabbia per cercare pepite, potenzialmente sbloccando nuove opportunità di crescita e innovazione.

Quale caso d'uso dell'intelligenza artificiale si adatta meglio all'apprendimento non supervisionato? Scopri questo e altro ancora in questo ebook

Accedi all'ebook

Domande frequenti sull'apprendimento non supervisionato

Quali sono i due tipi di apprendimento non supervisionato?

Le tecniche di apprendimento non supervisionato sono generalmente classificate in due tipi diversi. Per clustering si intende il processo di raggruppamento dei dati in base alle caratteristiche, con algoritmi che utilizzano metodi di analisi quali il clustering gerarchico, la creazione di cluster in alberi gerarchici, ad esempio il potere di acquisto del cliente basato sul CAP, e il clustering probabilistico, che utilizza punteggi di probabilità che calcolano la probabilità di appartenenza, ad esempio le caratteristiche di rischio di un cliente nell'analisi dei prestiti. Con apprendimento per regola di associazione si intende il processo di identificazione delle relazioni tra i datapoint per determinare pattern e tendenze, con algoritmi che utilizzano metodi quali associazioni quantitative, relazioni associate in base ad attributi numerici o quantitativi tra datapoint, come le tendenze di acquisto per età, e l'associazione multirelazionale, ovvero le relazioni associate tra più variabili possibili tra i datapoint, come le prestazioni di un atleta professionista in base all'età, alla qualità dei compagni di squadra, allo stipendio e al programma universitario.

Qual è un buon esempio di apprendimento non supervisionato?

Un buon esempio di apprendimento non supervisionato è un LLM di intelligenza artificiale per il settore sanitario. In questo caso, l'LLM si allena su set di dati non strutturati, come libri di testo di medicina, cartelle cliniche e dati di studio. Utilizzando l'addestramento iterativo, l'LLM apprende relazioni e modelli, con l'obiettivo finale per l'LLM di rispondere alle domande utilizzando un linguaggio medico appropriato con un alto livello di precisione.

Qual è la differenza tra apprendimento supervisionato e non supervisionato?

L'apprendimento supervisionato utilizza set di dati etichettati nell'addestramento degli algoritmi. Con etichette chiare di input e output, l'apprendimento supervisionato si basa su una base di definizioni consolidate. Ad esempio, un algoritmo che identifica i gatti si allena con foto chiaramente etichettate come "con gatti" o "senza gatti". L'apprendimento non supervisionato utilizza set di dati non etichettati nell'addestramento. Senza etichette, l'algoritmo esplora i data set per identificare pattern e tendenze. Utilizzando lo stesso esempio di identificazione dei gatti, il sistema potrebbe pre-addestrarsi con grandi set di dati non etichettati di testo e immagini in stile enciclopedia generale per apprendere modelli visivi e concetti relativi ai gatti, quindi perfezionarsi addestrandosi su set di dati di immagini più piccoli per elementi specifici, come facce di gatti, zampe e code.

Qual è un esempio di apprendimento delle caratteristiche non supervisionato?

Nel machine learning, le caratteristiche sono variabili presenti in un data set. Un esempio di caratteristica per un algoritmo meteorologico è il giorno dell'anno. Nel caso specifico dell'apprendimento non supervisionato, le caratteristiche vengono identificate man mano che l'algoritmo esplora i dati. Tornando a questo esempio meteorologico, il modello potrebbe scoprire attraverso l'esplorazione che la data è un fattore importante nel fare previsioni e quindi determinare che è una caratteristica di input necessaria per il modello.