Domande frequenti - Trasformazione di audio in testo tramite AI


Domande generali

Che cos'è Oracle Cloud Infrastructure Speech?

OCI Speech è un servizio AI che trascrive il parlato in testo e sintetizza il discorso dal testo. Applica la tecnologia di riconoscimento vocale automatico per trasformare i contenuti audio in testo in tempo reale o in modo asincrono. La funzione di sintesi vocale basata su rete neurale genera una voce dal suono naturale in base al testo di input. Gli sviluppatori possono effettuare chiamate API per integrare nelle proprie applicazioni i modelli predefiniti di OCI Speech. OCI Speech può essere utilizzato per avere una trascrizione accurata, adattata agli standard testuali e con timestamp o voce sintetica tramite Console, API REST, CLI o SDK. Puoi inoltre utilizzare OCI Speech in una sessione notebook di OCI Data Science. Con OCI Speech , puoi filtrare le volgarità, ottenere punteggi di affidabilità sia per le singole parole che per le trascrizioni complete, e molto altro ancora.

Perché dovrei usare OCI Speech?

Dovresti utilizzare OCI Speech se hai bisogno di un servizio di trascrizione rapido, accurato e marca temporale. Se stai utilizzando OCI per memorizzare i file audio, otterrai anche latenze inferiori e nessun costo di rete associato alla trascrizione. Le più recenti funzionalità di sintesi vocale e di sintesi vocale in tempo reale, ora a disponibilità limitata, offrono funzionalità aggiuntive da integrare con la tua applicazione.

Come iniziare a utilizzare OCI Speech?

Per iniziare, esegui il login per creare la prima trascrizione o leggi ulteriori informazioni sul servizio.

Caratteristiche

Quali sono i servizi di trascrizione supportati?

Attualmente supportiamo la trascrizione asincrona basata su file. La trascrizione in tempo reale è offerta in disponibilità limitata in questo momento.

Quali lingue sono attualmente supportate?

La trascrizione viene fornita con modelli pre-addestrati per le seguenti lingue: inglese, spagnolo, portoghese, tedesco, francese, italiano e hindi. Supportiamo anche il modello OpenAI Whisper per la trascrizione asincrona basata su file con oltre 57 lingue supportate pronte all'uso.

I file che ho trascritto vengono utilizzati da OCI per migliorare il servizio (o altro)?

No. Noi trascriviamo unicamente i tuoi contenuti, senza conservare alcuna informazione dal file.

Che altro devo sapere sul servizio?

Come qualsiasi altro servizio di trascrizione, la qualità dell'output dipende dalla qualità del file audio di input. Gli accenti degli interlocutori, i rumori di fondo, il passaggio da una lingua all'altra, l'uso di mix di lingue (come lo "Spanglish") e il sovrapporsi di più interlocutori possono influire sulla qualità della trascrizione. Noi lavoriamo anche costantemente per migliorare le prestazioni del servizio e fornire trascrizioni più accurate per tutti gli input e gli interlocutori.

OCI Speech è in grado di rilevare automaticamente la lingua nel file?

Non al momento, ma questa funzionalità sarà disponibile a breve.

Quali formati di file di input sono supportati?

Supportiamo file audio PCM WAV a 16 bit a canale singolo con un tasso di campionamento a 16 kHz. Supportiamo anche i seguenti formati multimediali e li convertiamo in PCM WAV prima di eseguire la trascrizione:

  • AAC
  • AC3
  • AMR
  • Australia
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM

È inoltre possibile convertire i file prima di inviare i processi per ridurre la latenza. Consigliamo Audacity (GUI) o FFmpeg (linea di comando) per la transcodifica audio.

Quali formati di output sono supportati?

Supportiamo JSON (come predefinito) e SRT (come opzione senza costi aggiuntivi).

Fatturazione e prezzi

Come mi verranno addebitati i costi?

Utilizziamo la fatturazione di precisione, il che significa che ti addebitiamo $ 0,50 per ogni ora di trascrizione o sintesi vocale, ma usiamo i secondi per misurare l'uso aggregato. Ad esempio, se hai caricato tre file con le rispettive durate di 10.860 secondi, 8.575 secondi e 9.421 secondi, la fattura mensile verrà calcolata in base alla somma dei secondi (28.856) suddivisi per 3.600 (il numero di secondi in un'ora), meno 5 (il numero di ore gratuite al mese) moltiplicato per $0,50. In altre parole, ti verranno addebitati $1.508 o (28.856/3.600 - 5) x $0,50 = $1.508.

Qual è la metrica fatturabile per OCI Speech?

La nostra metrica fatturabile è l'ora di trascrizione. L'ora di trascrizione misura il numero di ore audio trascritte o sintetizzate durante un determinato mese del servizio.

Sono previsti costi di configurazione o impegni minimi di servizio con OCI Speech?

No, OCI Speech non ha costi di impostazione o impegni minimi per il servizio e non è necessario alcun hardware.

Sono offerte ore gratuite per provare il servizio?

Sì. Offriamo cinque ore di trascrizione gratuita al mese per tenancy.

Si addebita di più per la punteggiatura o il SRT?

La punteggiatura è un servizio gratuito, proprio come SRT. La memorizzazione dei file SRT può aumentare la spesa per lo storage.

Altre domande tecniche

Quali dispositivi saranno supportati da OCI Speech?

OCI Speech funziona con qualsiasi dispositivo di registrazione e non è specifico per alcun dispositivo.

Il mio file non è un file WAV. Come posso convertire il mio file in WAV?

Si consiglia di utilizzare la utility FFmpeg con il seguente comando: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Sto visualizzando il seguente messaggio di errore: il bucket denominato "undefined" non esiste nel namespace <namespace> o non sei autorizzato ad accedervi. Come posso risolvere il problema?

Leggi la documentazione di configurazione di Speech.