OCI Speech este un serviciu AI care transcrie vocea în text și sintetizează vocea din text. Acesta aplică tehnologia de recunoaștere automată a vocii pentru a transforma conținutul audio în text în timp real sau asincron. Funcția text-to-speech bazată pe rețeaua neurală generează o voce cu sunet natural pe baza textului introdus. Puteți efectua cu ușurință apeluri API pentru a integra modelele preinstruite ale OCI Speech în aplicațiile lor. OCI Speech poate fi utilizat pentru transcriere precisă, normalizată în text, cu ștampilă de timp sau voce sintetică prin intermediul consolei și al API-urilor REST, precum și al CLI-urilor sau SDK-urilor. De asemenea, puteți utiliza OCI Speech în cadrul sesiunilor OCI Data Science pe notebook. Cu OCI Speech, puteți filtra oportunitățile, obține punctaje de încredere pentru cuvintele unice, transcrierile complete și multe altele.
Ar trebui să utilizați OCI Speech dacă aveți nevoie de un serviciu de transcriere rapid, precis și cu marcaj temporal. Dacă utilizați OCI pentru stocarea fișierelor audio, vă puteți bucura, de asemenea, de latențe mai mici și de lipsa costurilor de rețea asociate transcrierii. Cele mai recente funcții text-to-speech și speech-to-text în timp real, acum în disponibilitate limitată, oferă capacități suplimentare de integrare cu aplicația dvs.
Pentru a începe, înregistrați-vă și creați prima dvs. transcriere sau citiți mai multe despre serviciu.
În prezent, oferim transcriere asincronă bazată pe fișiere. Transcrierea în timp real este oferită în disponibilitate limitată în acest moment.
Transcrierea vine cu modele preinstruite pentru următoarele limbi: engleză, spaniolă, portugheză, germană, franceză, italiană și hindi. De asemenea, suportăm modelul OpenAI Whisper pentru transcrierea asincronă bazată pe fișiere, cu peste 57 de limbi acceptate din fabrică.
Nu. Vom transcrie doar conținutul, fără a păstra informațiile din fișierul respectiv.
Ca orice alt serviciu de transcriere, calitatea rezultatului depinde de calitatea fișierului audio introdus. Calitatea transcrierii poate fi afectată de accentul vorbitorilor, zgomotele de fundal, schimbarea limbii, utilizarea limbilor de fuziune (cum ar fi „spanglish”) și faptul că vorbesc simultan mai multe persoane. De asemenea, lucrăm constant la îmbunătățirea performanței serviciului pentru a oferi transcrieri mai precise pentru toate intrările și toți vorbitorii.
Nu în prezent, dar această capacitate va fi disponibilă în curând.
Acceptăm fișiere audio PCM WAV pe un singur canal, pe 16 biți, cu o rată de eșantionare de 16 kHz. De asemenea, acceptăm următoarele formate media și le vom converti în PCM WAV înainte de transcriere:
De asemenea, vă puteți converti fișierele înainte de trimiterea sarcinilor pentru a reduce latența. Pentru transcodarea audio, recomandăm Audacity (GUI) sau ffmpeg (linie de comandă).
Acceptăm JSON ca standard și SRT ca opțiune fără costuri suplimentare.
Folosim facturarea de precizie, ceea ce înseamnă că percepem 0,50 $ pentru fiecare oră de transcriere sau sinteză vocală, dar folosim secunde pentru a măsura utilizarea cumulată. De exemplu, dacă încărcați trei fișiere cu duratele respective de 10.860, 8.575 și 9.421 secunde, factura dvs. lunară va fi calculată prin suma secundelor dvs. (28.856) împărțită la 3.600 (numărul de secunde dintr-o oră) și minus 5 (numărul de ore gratuite pe lună), înmulțită cu 0,50 $. Cu alte cuvinte, veți fi taxat cu 1,508 $ sau (28.856/3.600 - 5) x 0,50 $ = 1,508 $.
Metrica noastră facturabilă este ora de transcriere. Ora de transcriere măsoară numărul de ore audio transcrise sau sintetizate într-o anumită lună a serviciului.
Nu. OCI Speech nu are taxe de instalare sau angajamente minime de servicii și nu este necesar niciun hardware.
Da. Oferim cinci ore de transcriere gratuită lunar per tenancy.
Punctuația este un serviciu gratuit, ca și SRT. Totuși, dacă stocați fișiere SRT, taxa de stocare poate crește.
OCI Speech funcționează cu orice dispozitiv de înregistrare și nu este specific dispozitivului.
Recomandăm utilitarul FFmpeg cu următoarea comandă: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.
Consultați Documentația de configurare a politicii vocale..