Întrebări frecvente despre AI Speech to Text


Generalități

Ce este Oracle Cloud Infrastructure Speech?

OCI Speech este un serviciu AI care transcrie vocea în text și sintetizează vocea din text. Acesta aplică tehnologia de recunoaștere automată a vocii pentru a transforma conținutul audio în text în timp real sau asincron. Funcția text-to-speech bazată pe rețeaua neurală generează o voce cu sunet natural pe baza textului introdus. Puteți efectua cu ușurință apeluri API pentru a integra modelele preinstruite ale OCI Speech în aplicațiile lor. OCI Speech poate fi utilizat pentru transcriere precisă, normalizată în text, cu ștampilă de timp sau voce sintetică prin intermediul consolei și al API-urilor REST, precum și al CLI-urilor sau SDK-urilor. De asemenea, puteți utiliza OCI Speech în cadrul sesiunilor OCI Data Science pe notebook. Cu OCI Speech, puteți filtra oportunitățile, obține punctaje de încredere pentru cuvintele unice, transcrierile complete și multe altele.

De ce să folosesc OCI Speech?

Ar trebui să utilizați OCI Speech dacă aveți nevoie de un serviciu de transcriere rapid, precis și cu marcaj temporal. Dacă utilizați OCI pentru stocarea fișierelor audio, vă puteți bucura, de asemenea, de latențe mai mici și de lipsa costurilor de rețea asociate transcrierii. Cele mai recente funcții text-to-speech și speech-to-text în timp real, acum în disponibilitate limitată, oferă capacități suplimentare de integrare cu aplicația dvs.

Cum încep să utilizez OCI Speech?

Pentru a începe, înregistrați-vă și creați prima dvs. transcriere sau citiți mai multe despre serviciu.

Caracteristici

Ce servicii de transcriere oferiți?

În prezent, oferim transcriere asincronă bazată pe fișiere. Transcrierea în timp real este oferită în disponibilitate limitată în acest moment.

Ce limbi sunt acceptate în prezent?

Transcrierea vine cu modele preinstruite pentru următoarele limbi: engleză, spaniolă, portugheză, germană, franceză, italiană și hindi. De asemenea, suportăm modelul OpenAI Whisper pentru transcrierea asincronă bazată pe fișiere, cu peste 57 de limbi acceptate din fabrică.

Fișierele pe care le-am transcris sunt utilizate de OCI pentru îmbunătățirea serviciului (sau pentru orice altceva)?

Nu. Vom transcrie doar conținutul, fără a păstra informațiile din fișierul respectiv.

Ce altceva ar trebui să știu despre serviciu?

Ca orice alt serviciu de transcriere, calitatea rezultatului depinde de calitatea fișierului audio introdus. Calitatea transcrierii poate fi afectată de accentul vorbitorilor, zgomotele de fundal, schimbarea limbii, utilizarea limbilor de fuziune (cum ar fi „spanglish”) și faptul că vorbesc simultan mai multe persoane. De asemenea, lucrăm constant la îmbunătățirea performanței serviciului pentru a oferi transcrieri mai precise pentru toate intrările și toți vorbitorii.

OCI Speech poate detecta automat limba din fișier?

Nu în prezent, dar această capacitate va fi disponibilă în curând.

Ce formate de fișiere de intrare acceptați?

Acceptăm fișiere audio PCM WAV pe un singur canal, pe 16 biți, cu o rată de eșantionare de 16 kHz. De asemenea, acceptăm următoarele formate media și le vom converti în PCM WAV înainte de transcriere:

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM

De asemenea, vă puteți converti fișierele înainte de trimiterea sarcinilor pentru a reduce latența. Pentru transcodarea audio, recomandăm Audacity (GUI) sau ffmpeg (linie de comandă).

Ce formate de fișiere de ieșire acceptați?

Acceptăm JSON ca standard și SRT ca opțiune fără costuri suplimentare.

Facturare și prețuri

Cum mi se va percepe plata?

Folosim facturarea de precizie, ceea ce înseamnă că percepem 0,50 $ pentru fiecare oră de transcriere sau sinteză vocală, dar folosim secunde pentru a măsura utilizarea cumulată. De exemplu, dacă încărcați trei fișiere cu duratele respective de 10.860, 8.575 și 9.421 secunde, factura dvs. lunară va fi calculată prin suma secundelor dvs. (28.856) împărțită la 3.600 (numărul de secunde dintr-o oră) și minus 5 (numărul de ore gratuite pe lună), înmulțită cu 0,50 $. Cu alte cuvinte, veți fi taxat cu 1,508 $ sau (28.856/3.600 - 5) x 0,50 $ = 1,508 $.

Care este unitatea de măsură facturabilă pentru OCI Speech?

Metrica noastră facturabilă este ora de transcriere. Ora de transcriere măsoară numărul de ore audio transcrise sau sintetizate într-o anumită lună a serviciului.

Există taxe de instalare sau angajamente minime de servicii cu OCI Speech?

Nu. OCI Speech nu are taxe de instalare sau angajamente minime de servicii și nu este necesar niciun hardware.

Oferiți ore gratuite pentru testarea serviciului?

Da. Oferim cinci ore de transcriere gratuită lunar per tenancy.

Percepeți sume suplimentare pentru punctuație sau SRT?

Punctuația este un serviciu gratuit, ca și SRT. Totuși, dacă stocați fișiere SRT, taxa de stocare poate crește.

Alte întrebări tehnice

Ce dispozitive vor fi acceptate de OCI Speech?

OCI Speech funcționează cu orice dispozitiv de înregistrare și nu este specific dispozitivului.

Fișierul meu nu este WAV. Cum îl pot converti într-un fișier WAV?

Recomandăm utilitarul FFmpeg cu următoarea comandă: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Primesc următorul mesaj de eroare: Grupul denumit „nedefinit” nu există în spațiul de nume <namespace> sau nu aveți autorizare pentru a-l accesa. Cum pot rezolva problema?

Consultați Documentația de configurare a politicii vocale..