Domande frequenti - Trasformazione di audio in testo tramite AI

Domande generali

Che cos'è Oracle Cloud Infrastructure Speech?

OCI Speech è un servizio che utilizza l'automatic speech recognition (ASR) per convertire voce in testo. Il servizio permette a sviluppatori, business unit, provider di contenuti, riparatori e altri utenti di trascrivere file audio. Con OCI Speech, gli utenti possono trascrivere le chiamate del call center o le riunioni, generare sottotitoli e indicizzare e cercare contenuti audio e video.

Perché dovrei usare OCI Speech?

Dovresti utilizzare OCI Speech se hai bisogno di un servizio di trascrizione rapido, accurato e marca temporale. Se stai utilizzando OCI per memorizzare i file audio, otterrai anche latenze inferiori e nessun costo di rete associato alla trascrizione.

Come iniziare a utilizzare OCI Speech?

Inizia qui per creare la tua prima trascrizione, altrimenti consulta ulteriori informazioni sul servizio qui.

Caratteristiche

Quali sono i servizi di trascrizione supportati?

Attualmente supportiamo la trascrizione asincrona basata su file. Ad ora non offriamo trascrizione in tempo reale.

Quali lingue sono attualmente supportate?

La trascrizione viene fornita con modelli pre-addestrati per le seguenti lingue: inglese, spagnolo e portoghese.

I file che ho trascritto vengono utilizzati da OCI per migliorare il servizio (o altro)?

No. Noi trascriviamo unicamente i tuoi contenuti, senza conservare alcuna informazione dal file.

Che altro devo sapere sul servizio?

Come qualsiasi altro servizio di trascrizione, la qualità dell'output dipende dalla qualità del file audio di input. Gli accenti degli interlocutori, i rumori di fondo, il passaggio da una lingua all'altra, l'uso di mix di lingue (come lo "Spanglish") e il sovrapporsi di più interlocutori possono influire sulla qualità della trascrizione. Noi lavoriamo costantemente per migliorare le prestazioni del servizio e fornire trascrizioni più accurate per tutti gli input e gli interlocutori.

OCI Speech è in grado di rilevare automaticamente la lingua nel file?

Non al momento (ma lo sarà presto).

Quali formati di file di input sono supportati?

Supportiamo file audio PCM WAV a 16 bit a canale singolo con un tasso di campionamento a 16 kHz. Consigliamo Audacity (GUI) o ffmpeg (linea di comando) per la transcodifica audio. Ulteriori formati audio saranno disponibili a breve.

Quali formati di output sono supportati?

Supportiamo JSON (come predefinito) e SRT (come opzione senza costi aggiuntivi).

Fatturazione e prezzi

Come mi verranno addebitati i costi?

Utilizziamo la fatturazione di precisione, il che significa che ti addebitiamo $ 0,50 per ogni ora di trascrizione, ma usiamo i secondi per misurare l'uso aggregato. Ad esempio, se hai caricato tre file con le seguenti durate: 3.600 secondi, 4.575 secondi e 1.421 secondi, la fattura mensile verrà calcolata in base alla somma dei secondi (9.596) suddivisi per 3.600 (il numero di secondi in un'ora), moltiplicato per $0,50. In altre parole, ti verranno addebitati $1,332 o 9.596/3.600 x $0,50 = $1,332.

Qual è la metrica fatturabile per OCI Speech?

Abbiamo chiamato la nostra metrica fatturabile "ora di trascrizione". L'ora di trascrizione misura il numero di ore audio trascritte durante un determinato mese del servizio.

Sono previsti costi di configurazione o impegni minimi di servizio con Speech?

No. OCI Speech non ha costi di impostazione o impegni minimi per il servizio. E non è richiesto alcun hardware.

Sono offerte ore gratuite per provare il servizio?

Sì. Offriamo cinque ore di trascrizione gratuita al mese per tenancy.

Si addebita di più per la punteggiatura o il SRT?

La punteggiatura è un servizio gratuito, proprio come SRT. La memorizzazione dei file SRT può aumentare la spesa per lo storage.

Altre domande tecniche

Quali dispositivi saranno supportati da OCI Speech?

Speech funziona con qualsiasi dispositivo di registrazione e non è specifico per alcun dispositivo.

Il mio file non è un file WAV. Come posso convertire il mio file in WAV?

Si consiglia di utilizzare la utility ffmpeg con il seguente comando: ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Sto visualizzando il seguente messaggio di errore: il bucket denominato "undefined" non esiste nel namespace <namespace> o non sei autorizzato ad accedervi. Come posso risolvere il problema?

Leggi la policy di configurazione di Speech.