Speech to text (STT) e text to speech (TTS)

OCI Speech è un servizio AI che trascrive il parlato in testo e sintetizza il discorso dal testo. Ottieni trascrizioni accurate, normalizzate sul testo e con timestamp e voce sintetizzata tramite la console OCI, i notebook OCI Data Science e le API REST, nonché le interfacce CLI o gli SDK.

Caratteristiche di OCI Speech

Modelli acustici e linguistici predefiniti

OCI Speech utilizza il riconoscimento vocale automatico, un processo di deep learning, per ricavare una trascrizione accurata da conversazioni naturali. Inizia agilmente utilizzando modelli di linguaggio e acustici predefiniti che non richiedono agli utenti alcuna esperienza di data science.

Analizza dati da file audio e video

Cerca, indicizza e decifra i dati sepolti nei file audio. Converti le conversazioni audio registrate in dati di testo da analizzare con i servizi AI. Ad esempio, puoi utilizzare OCI Language per carpire il sentiment e le funzionalità di rilevamento delle anomalie di OCI Speech per identificare le probabilità di abbandono dei clienti.

Trascrizione in tempo reale

Ora in disponibilità limitata, la funzione di trascrizione in tempo reale di OCI Speech ti consente di inviare flussi audio e ricevere trascrizioni accurate in pochi secondi.

Text to speech (TTS) neurale

Ora a disponibilità limitata, la funzione text-to-speech di OCI Speech consente agli sviluppatori di sintetizzare un parlato simile a quello umano a partire dal testo in tutte le applicazioni. Questa funzione consente conversazioni con i clienti, traduzioni vocali in più lingue e maggiore accessibilità. Scegli tra una varietà di voci per migliorare le interazioni.

Supporto multilingue nativo

I modelli ASR OCI Speech supportano l'inglese, lo spagnolo, il portoghese, il tedesco, il francese, l'italiano e l'hindi per fare in modo che gli utenti possano trascrivere i file audio nelle loro lingue preferite. Inoltre, OCI Speech supporta anche il modello OpenAI Whisper, che fornisce oltre 57 lingue supportate pronte all'uso. Scopri di più su OCI e sul modello Whisper.

Diarizzazione per una maggiore leggibilità e comprensione

OCI Speech supporta la diarizzazione per organizzare, analizzare ed estrarre informazioni significative da più relatori.


Servizio di trascrizione integrato

Elimina la necessità di affidarsi ad offerte di trascrizione di terze parti ed esercita un maggiore controllo sui tuoi dati con sicurezza e compliance end-to-end.

Facili da integrare

OCI Speech è un servizio versatile che può essere attivato tramite API REST, diversi SDK e Oracle CLI. Gli sviluppatori possono distribuire facilmente un servizio vocale scalabile senza ricorrere a competenze di data science o ML.

Soluzione specifica per la sicurezza e la privacy

Oracle Cloud Infrastructure Speech protegge la privacy dei clienti. I modelli di riconoscimento vocale automatico predefiniti trascrivono i contenuti ma non archiviano dati per la formazione, il debug o altri scopi.


Servizio di trascrizione integrato

OCI Speech utilizza modelli proprietari e architetture che consentono una rapida conversione della voce in testo.

Punteggio di affidabilità per parola

Abbiamo aggiunto un punteggio di affidabilità a livello di parola per aiutarti a identificare le parole che potrebbero essere state trascritte in modo errato. Usa il punteggio di affidabilità per determinare dove concentrarti durante la creazione di un'applicazione.

Filtri per le volgarità

Abbiamo aggiunto un filtro predefinito per le parole utilizzando una lista di volgarità. Puoi mascherare, rimuovere o etichettare le volgarità.


La nostra funzione di riconoscimento vocale in tempo reale aiuta a garantire che il tuo discorso sia accuratamente trascritto mentre parli in modo naturale, consentendo una comunicazione fluida e ininterrotta.
Michael Zhang, Senior Principal Product Manager, Oracle

Casi d'uso di OCI Speech

Ricerca di contenuti multimediali digitali e sottotitoli

Fornisci automaticamente sottotitoli nel flusso di lavoro sulla piattaforma OCI per tutti i contenuti creati e curati dai servizi di contenuti multimediali digitali. Indicizza i tuoi contenuti utilizzando OCI Speech per semplificare la ricerca fra i contenuti.

Feedback e analytics delle chiamate dei clienti

Trascrivi le chiamate dei clienti per semplificare la ricerca e il recupero delle informazioni. Utilizza OCI Language per rilevare le opinioni e aiutare a identificare le possibilità di abbandono del cliente e di formazione del personale.

Dettatura medica

La trascrizione in tempo reale consente a medici e infermieri di acquisire le note dei pazienti in qualsiasi momento, cosa che contribuisce ad aumentare l'efficienza e a migliorare le cure e i risultati.

Migliore accessibilità

Il text-to-speech neurale fornisce una voce simile a quella umana e altamente accurata con varie intonazioni, fornendo più opzioni per le funzionalità di accessibilità.

Risorse su OCI Speech

Inizia ad utilizzare OCI Speech


Oracle Cloud Free Tier

Sviluppa, testa e implementa applicazioni su Oracle Cloud, gratuitamente.