OCI Speech è un servizio AI che trascrive il parlato in testo e sintetizza il discorso dal testo. Applica la tecnologia di riconoscimento vocale automatico per trasformare i contenuti audio in testo in tempo reale o in modo asincrono. La funzione di sintesi vocale basata su rete neurale genera una voce dal suono naturale in base al testo di input. Gli sviluppatori possono effettuare chiamate API per integrare nelle proprie applicazioni i modelli predefiniti di OCI Speech. OCI Speech può essere utilizzato per avere una trascrizione accurata, adattata agli standard testuali e con timestamp o voce sintetica tramite Console, API REST, CLI o SDK. Puoi inoltre utilizzare OCI Speech in una sessione notebook di OCI Data Science. Con OCI Speech , puoi filtrare le volgarità, ottenere punteggi di affidabilità sia per le singole parole che per le trascrizioni complete, e molto altro ancora.
Dovresti utilizzare OCI Speech se hai bisogno di un servizio di trascrizione rapido, accurato e marca temporale. Se stai utilizzando OCI per memorizzare i file audio, otterrai anche latenze inferiori e nessun costo di rete associato alla trascrizione. Le più recenti funzionalità di sintesi vocale e di sintesi vocale in tempo reale, ora a disponibilità limitata, offrono funzionalità aggiuntive da integrare con la tua applicazione.
Per iniziare, esegui il login per creare la prima trascrizione o leggi ulteriori informazioni sul servizio.
Attualmente supportiamo la trascrizione asincrona basata su file. La trascrizione in tempo reale è offerta in disponibilità limitata in questo momento.
La trascrizione viene fornita con modelli pre-addestrati per le seguenti lingue: inglese, spagnolo, portoghese, tedesco, francese, italiano e hindi. Supportiamo anche il modello OpenAI Whisper per la trascrizione asincrona basata su file con oltre 57 lingue supportate pronte all'uso.
No. Noi trascriviamo unicamente i tuoi contenuti, senza conservare alcuna informazione dal file.
Come qualsiasi altro servizio di trascrizione, la qualità dell'output dipende dalla qualità del file audio di input. Gli accenti degli interlocutori, i rumori di fondo, il passaggio da una lingua all'altra, l'uso di mix di lingue (come lo "Spanglish") e il sovrapporsi di più interlocutori possono influire sulla qualità della trascrizione. Noi lavoriamo anche costantemente per migliorare le prestazioni del servizio e fornire trascrizioni più accurate per tutti gli input e gli interlocutori.
Non al momento, ma questa funzionalità sarà disponibile a breve.
Supportiamo file audio PCM WAV a 16 bit a canale singolo con un tasso di campionamento a 16 kHz. Supportiamo anche i seguenti formati multimediali e li convertiamo in PCM WAV prima di eseguire la trascrizione:
È inoltre possibile convertire i file prima di inviare i processi per ridurre la latenza. Consigliamo Audacity (GUI) o FFmpeg (linea di comando) per la transcodifica audio.
Supportiamo JSON (come predefinito) e SRT (come opzione senza costi aggiuntivi).
Utilizziamo la fatturazione di precisione, il che significa che ti addebitiamo $ 0,50 per ogni ora di trascrizione o sintesi vocale, ma usiamo i secondi per misurare l'uso aggregato. Ad esempio, se hai caricato tre file con le rispettive durate di 10.860 secondi, 8.575 secondi e 9.421 secondi, la fattura mensile verrà calcolata in base alla somma dei secondi (28.856) suddivisi per 3.600 (il numero di secondi in un'ora), meno 5 (il numero di ore gratuite al mese) moltiplicato per $0,50. In altre parole, ti verranno addebitati $1.508 o (28.856/3.600 - 5) x $0,50 = $1.508.
La nostra metrica fatturabile è l'ora di trascrizione. L'ora di trascrizione misura il numero di ore audio trascritte o sintetizzate durante un determinato mese del servizio.
No, OCI Speech non ha costi di impostazione o impegni minimi per il servizio e non è necessario alcun hardware.
Sì. Offriamo cinque ore di trascrizione gratuita al mese per tenancy.
La punteggiatura è un servizio gratuito, proprio come SRT. La memorizzazione dei file SRT può aumentare la spesa per lo storage.
OCI Speech funziona con qualsiasi dispositivo di registrazione e non è specifico per alcun dispositivo.
Si consiglia di utilizzare la utility FFmpeg con il seguente comando: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.