Che cosa è l'inferenza AI?

Jeffrey Erickson | Content Strategist | 2 aprile 2024

L'inferenza, per una persona laica, è una conclusione basata su prove e ragionamenti. Nell'intelligenza artificiale, l'inferenza è la capacità dell'intelligenza artificiale, dopo molti addestramenti su set di dati curati, di ragionare e trarre conclusioni a partire da dati che non ha mai visto prima.

Comprendere l'inferenza AI è un passo importante per capire come funziona l'intelligenza artificiale. Descriveremo le fasi coinvolte, le sfide, i casi d'uso e le prospettive future su come i sistemi AI giungono alle loro conclusioni.

Che cosa è l'inferenza AI?

Si parla di inferenza AI quando un modello AI che è stato addestrato per visualizzare i pattern in set di dati curati inizia a riconoscere tali pattern nei dati che non ha mai visto prima. Di conseguenza, il modello di intelligenza artificiale può ragionare e fare previsioni in un modo che simula le capacità umane.

Un modello di intelligenza artificiale è costituito da algoritmi decisionali addestrati su una rete neurale, ovvero un modello di linguaggio strutturato come il cervello umano, per eseguire un compito specifico. Per fare un esempio, i data scientist potrebbero mostrare al modello AI un data set con immagini di migliaia o milioni di auto con le marche e i modelli indicati. Dopo un po', l'algoritmo inizierebbe a identificare accuratamente le auto nel set di dati di addestramento. Si parla di inferenza AI quando al modello viene mostrato un set di dati casuale e individua, o deduce, la marca e il modello di un'auto con un livello di precisione accettabile. Un modello di intelligenza artificiale addestrato in questo modo potrebbe essere utilizzato a un valico di frontiera o all'ingresso di un ponte a pedaggio per abbinare le targhe alle auto in una rapida valutazione. Processi simili possono dedurre inferenze AI con ragionamenti e previsioni con più sfrumature per lavorare nella sanità, nel banking, nel retail e in molti altri settori.

Concetti chiave

  • L'inferenza AI è la capacità di un modello AI di dedurre o estrapolare conclusioni a partire da dati nuovi.
  • I modelli di intelligenza artificiale dipendono dall'inferenza per la loro straordinaria capacità di imitare il ragionamento e il linguaggio umano.
  • L'inferenza AI è l'obiettivo finale di un processo che utilizza un mix di tecnologie e tecniche per addestrare un modello AI utilizzando set di dati curati.
  • Per raggiungere il successo servono una solida architettura dati, dati puliti e molti cicli GPU per addestrare ed eseguire l'intelligenza artificiale negli ambienti di produzione.

Definizione di inferenza AI

L'inferenza AI è la fase del ciclo di vita del modello AI che segue la fase di addestramento dell'AI. Pensa all'addestramento dei modelli AI come ad algoritmi di machine learning (ML) che eseguono compiti e all'inferenza AI come ad un test.

L'addestramento AI prevede la presentazione di set di dati di grandi dimensioni e curati al modello in modo che possa conoscere l'argomento trattato. Il compito dei dati di addestramento è quello di insegnare al modello a svolgere un determinato compito, quindi i set di dati variano. Possono includere immagini di gatti o ponti, chiamate registrate al servizio clienti o immagini mediche. Il modello AI può analizzare i dati in tempo reale, riconoscere i pattern e fare previsioni accurate su ciò che verrà dopo nel data set.

Con i modelli linguistici di grandi dimensioni (LLM), ad esempio, il modello può dedurre quale parola viene dopo e produrre frasi e paragrafi con una precisione e una fluidità senza precedenti.

Perché è importante l'inferenza AI?

L'inferenza AI è importante perché tale riconoscimento è il modo in cui un modello AI addestrato analizza e genera insight sui nuovi dati. Senza la capacità di fare previsioni o risolvere compiti in tempo reale, l'AI farà fatica ad espandersi in nuovi ruoli, tra cui insegnamento, ingegneria, scoperte mediche ed esplorazione dello spazio, e ad occuparsi di un elenco in espansione di casi d'uso in ogni settore.

In realtà, l'inferenza è l'essenza di qualsiasi programma di intelligenza artificiale. La capacità di un modello di riconoscere i pattern in un data set e di dedurre conclusioni e previsioni accurate è al centro del valore dell'intelligenza artificiale. Vale la pena investire in un modello di intelligenza artificiale in grado di leggere con precisione una radiografia in pochi secondi o individuare frodi tra migliaia o milioni di transazioni con carta di credito.

Tipi di inferenza

Hai bisogno di un sistema AI in grado di prendere decisioni altamente accurate quasi in tempo reale, ad esempio se una transazione di grandi dimensioni potrebbe essere una frode? O è più importante che sia in grado di utilizzare i dati che ha già visto per prevedere il futuro, come con un sensore che è ottimizzato per richiedere una manutenzione prima che qualcosa si rompa? Comprendere gli approcci all'inferenza AI ti aiuterà a stabilire il modello migliore per il tuo progetto.

  • Inferenza batch
    Si parla di inferenza batch quando le previsioni AI vengono generate offline utilizzando batch di dati. In questo approccio, i dati vengono raccolti nel tempo ed eseguiti attraverso algoritmi ML a intervalli regolari. L'inferenza batch è una buona scelta quando gli output AI non sono immediatamente necessari. Funziona bene per portare le previsioni AI in una dashboard di business analytics che si aggiorna ogni ora o ogni giorno.
  • Inferenza online
    L'inferenza online, a volte chiamata "inferenza dinamica", è un modo per fornire previsioni AI nel momento in cui vengono richieste. L'inferenza online può essere più impegnativa dell'inferenza batch a causa dei requisiti di bassa latenza.

    La creazione di un sistema per l'inferenza online richiede decisioni iniziali diverse. Ad esempio, potrebbe essere necessario inserire nella cache dati comunemente utilizzati per un accesso rapido oppure potrebbe essere necessario trovare un modello AI più semplice che richieda meno operazioni per arrivare alle previsioni. Poiché non c'è tempo per rivedere gli output AI prima che gli utenti finali li vedano, le inferenze online potrebbero anche aver bisogno di un altro livello di monitoraggio in tempo reale per garantire che le previsioni rientrino nelle norme accettabili. I modelli linguistici di grandi dimensioni (LLM), come ChatGPT di OpenAI e Bard di Google, sono esempi di inferenza online.
  • Inferenza streaming
    L'inferenza streaming viene spesso utilizzata nei sistemi Internet of Things. Non è configurata per interagire con le persone nel modo in cui lo fa un LLM. Invece, una pipeline di dati, come le misurazioni regolari dai sensori delle macchine, fluisce in un algoritmo ML che poi effettua continuamente previsioni. I pattern nelle letture dei sensori possono indicare che la macchina monitorata funziona in modo ottimale, o il modello può indicare problemi in anticipo, attivando un avviso o una richiesta di manutenzione o riparazione.

Qual è la differenza tra inferenza e addestramento di deep learning?

L'addestramento di deep learning e l'inferenza AI sono due parti dello stesso processo attraverso cui si ottengono risultati utili da un modello AI. L'addestramento di deep learning avviene prima. È così che un modello di intelligenza artificiale viene addestrato per elaborare i dati in un modo ispirato al funzionamento del cervello umano. Quando un modello viene addestrato, acquisisce la capacità di riconoscere livelli più profondi di informazioni dai dati. Ad esempio, può passare dal riconoscere forme in un'immagine al riconoscere possibili temi o attività. L'inferenza AI avviene dopo l'addestramento, quando al modello AI viene chiesto di riconoscere questi elementi nei nuovi dati.

Come funziona l'inferenza AI?

Affinché l'inferenza AI fornisca valore in uno specifico caso d'uso, è necessario seguire molti processi e prendere molte decisioni in merito all'architettura tecnologica, alla complessità dei modelli e ai dati.

  • Preparazione dei dati
    Assembla il materiale di formazione dai dati all'interno dell'organizzazione o identificando set di dati esterni, incluso eventualmente un set di dati open source. Spesso i set di dati interni ed esterni vengono messi insieme. Dopo aver scelto i data set, è necessario eseguire la pulizia dei dati per rimuovere i duplicati, i dati non necessari e i problemi di formattazione.
  • Selezione dei modelli
    Identifica un modello open source, aziendale generale o specializzato progettato per fornire il tipo di output AI di cui hai bisogno. Tieni presente che i modelli presentano diversi livelli di complessità. Gli algoritmi più complessi possono assorbire un set più ampio di input e fare inferenze più acute, ma hanno bisogno di un numero maggiore di operazioni per arrivare a un output desiderato. Trova un modello che si adatti alle tue esigenze in termini di complessità e fame di risorse informatiche.
  • Ottimizzazione dei modelli
    Ottimizza il modello iterando il tuo regime di addestramento AI. L'obiettivo di ogni ciclo di addestramento è quello di avvicinarsi alla precisione di output desiderata riducendo al contempo la quantità di memoria e la potenza di calcolo necessaria per arrivarci. L'ottimizzazione dei modelli consiste nel migliorare l'utilità dell'inferenza AI riducendo al contempo i costi e minimizzando la latenza.
  • Inferenza del modello
    Si verifica quando il modello AI passa dalla fase di addestramento alla fase operativa, in cui estrapola nuovi dati. Man mano che il modello si avvicina alla produzione, rivedi le inferenze e le previsioni nel suo output. Questo è il momento in cui puoi verificare l'accuratezza, i bias e qualsiasi problema di privacy dei dati.
  • Post-elaborazione
    Nell'AI, la post-elaborazione è un set di metodi per il controllo dell'output del modello. La fase di post-elaborazione può includere routine per il filtraggio, la combinazione e l'integrazione dei dati per aiutare a eliminare gli output sgradevoli o inutili.
  • Implementazione
    L'implementazione avviene quando l'architettura e i sistemi di dati che supportano il modello AI vengono formalizzati, ridimensionati e protetti per essere utilizzati in un normale processo aziendale. Questo è anche il momento per l'istruzione e la gestione del cambiamento, in cui alle persone dell'organizzazione più ampia viene insegnato ad accettare e utilizzare i risultati dell'intelligenza artificiale nel proprio lavoro.

Requisiti hardware per l'inferenza AI

L'inferenza AI è il risultato di un processo ad alta intensità di calcolo che prevede l'esecuzione di un modello AI attraverso regimi di addestramento consecutivi utilizzando grandi set di dati. Richiede l'integrazione di molte origini dati e un'architettura che consenta l'esecuzione efficiente del modello AI. Ecco le tecnologie chiave che abilitano il processo.

  • Central Processing Unit (CPU)
    La CPU è il cervello centrale di un computer. È un chip con circuiti complessi che risiede nella scheda madre del computer ed esegue il sistema operativo e le applicazioni. Una CPU aiuta a gestire le risorse di calcolo necessarie per l'addestramento e l'inferenza AI, come lo storage dei dati e le schede grafiche.
  • Graphics Processing Unit (GPU)
    Le GPU sono un componente hardware chiave per l'inferenza AI. Come le CPU, le GPU sono chip con circuiti complessi. A differenza delle CPU, sono appositamente progettate per eseguire calcoli matematici molto rapidamente per supportare la grafica e l'elaborazione delle immagini. Questa potenza di calcolo è ciò che rende possibile l'addestramento e l'inferenza AI compute-hungry.
  • Field-Programmable Gate Array (FPGA)
    Un FPGA è un circuito integrato che può essere programmato da un utente finale per funzionare in modo specifico. Nell'inferenza AI, un FPGA può essere configurato per fornire la giusta combinazione di velocità hardware o parallelismo, la quale suddivide il lavoro di elaborazione dei dati in modo che venga eseguito su hardware diversi in parallelo. Ciò consente al modello AI di effettuare previsioni su un determinato tipo di dati, tra cui testo, grafica o video.
  • Application-Specific Integrated Circuit (ASIC)
    Gli ASIC sono un altro strumento che i team IT e i data scientist utilizzano per dedurre inferenze AI alla velocità, ai costi e alla precisione di cui hanno bisogno. Un ASIC è un chip per computer che combina diversi circuiti su un singolo chip. Il chip può quindi essere ottimizzato per un particolare carico di lavoro, che si tratti di riconoscimento vocale, manipolazione delle immagini, rilevamento di anomalie o qualsiasi altro processo guidato dall'intelligenza artificiale.

Sfide dell'implementazione dell'inferenza AI

Progettare o scegliere un modello AI e poi addestrarlo non è altro che l'inizio. L'implementazione del modello AI per eseguire inferenze nel mondo reale comporta una serie di sfide. Fra queste possono esserci fornire al modello dati di qualità e successivamente spiegare i suoi output. Ecco un elenco di sfide da tenere a mente.

  • Qualità dei dati
    L'espressione "garbage in, garbage out" è valida nell'inferenza AI quanto in qualsiasi altro luogo. I dati che addestrano i modelli AI devono essere controllati per l'applicabilità e la formattazione e puliti da dati duplicati o estranei che rallentano il processo di addestramento.
  • Complessità dei modelli
    I modelli di intelligenza artificiale presentano diversi livelli di complessità, riuscendo così a dedurre o ad effettuare previsioni in una vasta gamma di situazioni, da semplici, come identificare una marca e un modello di auto, a complesse e critiche, come nel caso dei sistemi di intelligenza artificiale che ricontrollano la lettura di una TAC o di una risonanza magnetica da parte di un radiologo. Una sfida chiave dell'addestramento AI in generale e dell'inferenza in particolare è costruire o scegliere il modello giusto per le tue esigenze.
  • Requisiti hardware
    L'addestramento dell'inferenza AI è un'attività ad elevato consumo di dati. Richiede server per lo storage e l'analisi dei dati, processori grafici, reti veloci e possibilmente field-programmable gate array (FPGA) o application-specific integrated circuit (ASIC), che possono essere personalizzati in base al caso d'uso dell'inferenza AI.
  • Interpretabilità
    Quando l'inferenza AI è interpretabile o spiegabile, significa che i trainer umani capiscono come l'AI è arrivata alle sue conclusioni. Possono seguire il ragionamento che l'AI ha utilizzato per arrivare alla sua risposta o previsione. L'interpretabilità è un requisito sempre più richiesto nella governance dell'intelligenza artificiale ed è importante per individuare i pregiudizi nei risultati dell'intelligenza artificiale, ma man mano che i sistemi di intelligenza artificiale diventano più complessi, gli algoritmi e i processi di dati sottostanti possono diventare troppo intricati per essere pienamente compresi dagli esseri umani.
  • Regolamentazione e compliance
    La regolamentazione dell'AI è un obiettivo in movimento. È importante creare sicurezza dei dati, spiegabilità e una solida struttura di reporting per le inferenze AI. Ciò ti aiuterà a soddisfare più facilmente i requisiti di compliance con le normative sulla privacy, la sicurezza dei dati e i pregiudizi dell'AI man mano che si evolvono.
  • Mancanza di personale qualificato
    Le competenze necessarie per progettare, formare e ottimizzare i sistemi per l'inferenza AI richiedono tempo, istruzione ed esperienza per essere sviluppate. Di conseguenza, le persone con queste abilità sono difficili da trovare e costose da assumere.

Applicazioni dell'inferenza AI

Grazie alla loro capacità di dedurre conclusioni o previsioni dai dati disponibili, i modelli AI hanno cominciato a occuparsi di sempre più attività. I modelli linguistici più diffusi, come ChatGPT, utilizzano l'inferenza per scegliere parole e frasi con una precisione linguistica sbalorditiva. L'inferenza è anche ciò che consente all'intelligenza artificiale di dedurre quale grafica o video dovrebbe costruire in base a prompt verbali.

L'inferenza AI sta diventando una parte importante anche della formazione dei sistemi industriali. Ad esempio, l'intelligenza artificiale può essere utilizzata per effettuare una rapida ispezione visiva su una linea di produzione, consentendo agli ispettori umani di concentrarsi su difetti o anomalie identificate dall'intelligenza artificiale, riducendo così i costi e migliorando il controllo della qualità. Nei sistemi industriali in cui i robot lavorano insieme agli esseri umani sulle linee di produzione, l'inferenza AI consente la percezione, la previsione e la pianificazione necessarie per rilevare gli oggetti e prendere delicate decisioni di movimento.

Un altro uso comune dell'inferenza AI è l'apprendimento robotico, reso popolare dai molti tentativi di perfezionare le auto a guida autonoma. Come si dimostrato dagli anni di addestramento di aziende come Waymo, Tesla e Cruz, l'apprendimento robotico ha bisogno di molti tentativi ed errori man mano che le reti neurali imparano a riconoscere e reagire correttamente alle eccezioni alle regole scritte della strada.

L'inferenza AI sta anche aiutando ricercatori e medici. I modelli di intelligenza artificiale vengono addestrati per trovare cure setacciando masse di dati chimici o epidemiologici e stanno aiutando a diagnosticare le malattie leggendo indizi sottili nell'imaging medico.

Il futuro dell'inferenza AI

Il passo successivo per l'inferenza AI sarà quello di uscire da ambienti cloud o data center di grandi dimensioni e diventare possibile su computer e dispositivi locali. Mentre l'addestramento iniziale dei sistemi AI che utilizzano architetture di deep learning continuerà a essere eseguito in grandi data center, una nuova generazione di tecniche e hardware sta portando l'inferenza AI "ultimo miglio" in dispositivi più piccoli, più vicino a dove vengono generati i dati.

Ciò consentirà maggiore personalizzazione e controllo. Dispositivi e robot miglioreranno il rilevamento degli oggetti, il riconoscimento del volto e del comportamento e il processo decisionale predittivo. Se ti sembrano le basi per i robot di uso generale, non sei la sola persona a pensarlo. Nei prossimi anni, gli innovatori cercheranno di implementare questa tecnologia "inference at the edge" in una vasta gamma di dispositivi in nuovi mercati e settori.

Accelera le tue inferenze AI in tempo reale con Oracle

Oracle offre l'esperienza e la potenza di calcolo per addestrare e implementare modelli AI su larga scala. In particolare, Oracle Cloud Infrastructure (OCI) è una piattaforma in cui gli imprenditori, i team IT e i data scientist possono collaborare e mettere l'inferenza AI al lavoro in qualsiasi settore.

La piattaforma AI completamente gestita di Oracle consente ai team di creare, addestrare, implementare e monitorare modelli di machine learning utilizzando Python e i loro strumenti open source preferiti. Con un ambiente basato su JupyterLab di nuova generazione, le aziende possono sperimentare, sviluppare modelli e aumentare il volume dell'addestramento con GPU NVIDIA e una formazione distribuita. Oracle semplifica inoltre l'accesso ai modelli di AI generativa basati sugli LLM all'avanguardia di Cohere.

Con OCI, puoi mettere i modelli in produzione e tenerli in buona salute con le funzionalità di machine learning operations, come pipeline automatizzate e implementazioni e monitoraggio dei modelli. Oltre alla formazione e all'implementazione dei modelli, OCI offre una gamma di applicazioni SaaS con modelli ML integrati e servizi AI disponibili.

Quando interagisci con l'AI, stai vedendo l'inferenza AI a lavoro. È così anche se stai utilizzando il rilevamento delle anomalie, il riconoscimento delle immagini, testi generati dall'intelligenza artificiale o quasi qualsiasi altro output AI. I risultati sono il culmine di un lungo, tecnicamente complesso e resource-hungry processo di modellazione, addestramento, ottimizzazione e implementazione che getta le basi per la tua interazione con l'intelligenza artificiale.

La creazione di un centro di eccellenza AI prima dell'inizio della formazione specifica dell'organizzazione aumenta le probabilità di successo. Il nostro ebook spiega perché e offre suggerimenti per costruire un efficace CoE.

Domande frequenti sull'inferenza AI

Qual è un esempio di inferenza nell'AI?

Un buon esempio di inferenza nell'AI è quando un modello AI rileva un'anomalia nelle transazioni finanziarie e può capire dal contesto che tipo di frode potrebbe rappresentare. Da lì, il modello AI può generare un avviso per la società della carta e il titolare del conto.

Che cosa sono l'addestramento e l'inferenza nell'AI?

Si parla di addestramento quando set di dati curati vengono mostrati a un modello AI affinché possa iniziare a notare e comprendere pattern. Si parla di inferenza quando al modello AI vengono mostrati dati al di fuori dei data set curati, individua gli stessi pattern e fa previsioni basate su di essi.

Cosa si intende per inferenza nel machine learning?

Inferenza significa che un algoritmo o un insieme di algoritmi di machine learning ha imparato a riconoscere dei pattern nei data set curati e può quindi poi riconoscerli nei nuovi dati.

Cosa si intende per inferenza nel deep learning?

Il deep learning è l'addestramento di algoritmi di machine learning tramite l'uso di una rete neurale che imita il cervello umano. Ciò consente il riconoscimento e l'estrapolazione di concetti precisi visti, ad esempio, nella generazione del linguaggio naturale.

È possibile utilizzare l'inferenza AI sui dispositivi edge?

L'addestramento dell'inferenza AI è sempre stato un processo ad alta intensità di dati e compute-hungry. Man mano che l'inferenza AI viene più compresa, tuttavia, viene realizzata da dispositivi meno potenti che risiedono ai margini, lontano dai grandi data center. Questi dispositivi edge per l'inferenza AI possono portare il riconoscimento di immagini, voce e altre funzionalità nelle operations sul campo.

In che modo l'inferenza AI differisce dai modelli statistici tradizionali?

I modelli statistici tradizionali sono progettati semplicemente per dedurre la relazione tra le variabili in un data set. L'inferenza AI è progettata per fare un passo avanti nell'inferenza ed effettuare la previsione più accurata possibile in base a tali dati.

In che modo gli iperparametri incidono sulle prestazioni dell'inferenza AI?

Quando creano un modello AI, a volte i data scientist assegnano i parametri manualmente. A differenza dei parametri standard nel modello AI, questi iperparametri non sono determinati da ciò che il modello deduce dal set di dati. Gli iperparametri possono essere considerati come guide che possono essere regolate in base alle esigenze per aiutare con le inferenze AI e le prestazioni predittive.

In che modo le organizzazioni possono garantire l'accuratezza e l'affidabilità dei modelli di inferenza AI?

Un modo è sapere esplicitamente in anticipo a chi è destinato il tuo output e quale problema sta cercando di risolvere. Rendi i risultati desiderati specifici e misurabili. In questo modo, puoi stabilire benchmark e misurare continuamente le prestazioni del tuo sistema comparandole.