Speech-to-text (STT) și text-to-speech (TTS)

OCI Speech este un serviciu AI care transcrie vocea în text și sintetizează vocea din text. Obțineți transcrieri exacte, cu text normalizat, cu ștampilă de timp și voce sintetizată prin intermediul consolei OCI, al notebook-urilor OCI Data Science și al API-urilor REST, precum și al CLI-urilor sau SDK-urilor.

Caracteristici OCI Speech

Modele acustice și lingvistice preintegrate

OCI Speech utilizează recunoașterea automată a vocii, un proces de învățare aprofundată, pentru a transcrie precis conversațiile naturale. Începeți ușor prin utilizarea modelelor acustice și lingvistice predefinite care nu necesită experiență data science.

Analizați datele din fișierele audio și video

Căutați, indexați și descifrați datele din fișierele audio. Transformați conversațiile audio înregistrate în date text pentru a le analiza folosind serviciile AI. De exemplu, utilizați OCI Language pentru a extrage sentimentul și capacitățile de detectare a anomaliilor ale OCI Speech pentru a identifica șansele de pierdere a clienților.

Transcriere în timp real

Acum în disponibilitate limitată, funcția de transcriere în timp real a OCI Speech vă permite să trimiteți fluxuri audio și să primiți transcrieri exacte în câteva secunde.

Text to speech (TTS) neuronal

Acum în disponibilitate limitată, funcția text-to-speech din OCI Speech vă permite să sintetizați discursuri umane din text în toate aplicațiile. Această funcție permite conversații cu clienții, traduceri vocale în mai multe limbi și accesibilitate îmbunătățită. Alegeți dintr-o varietate de voci pentru a îmbunătăți interacțiunile.

Suport nativ pentru mai multe limbi

Modelele OCI Speech ASR acceptă limbile engleză, spaniolă, portugheză, germană, franceză, italiană și hindi, permițându-vă să transcrieți fișierele audio în limba preferată. În plus, OCI Speech acceptă și modelul OpenAI Whisper, care oferă din start peste 57 de limbi acceptate. Aflați mai multe despre OCI și modelul Whisper.

Diarizare pentru sporirea lizibilității și a înțelegerii

OCI Speech acceptă jurnalizarea pentru organizarea, analizarea și extragerea informațiilor semnificative de la mai mulți vorbitori.


Serviciu de traducere integrat

Nu vă mai bazați pe ofertele de transcriere ale terților și exercitați mai mult control asupra datelor folosind securitatea integrală și conformitatea.

Integrare ușoară

OCI Speech este un serviciu flexibil, ce poate fi apelat prin API-uri REST, SDK-uri diferite și Oracle CLI. Dezvoltatorii pot implementa cu ușurință un serviciu pentru discursuri scalabil fără a avea experiență în știința datelor sau în ML.

Creat special pentru securitate și confidențialitate

Oracle Cloud Infrastructure Speech protejează confidențialitatea clienților. Modelele ASR integrate transcriu conținutul, dar nu stochează datele pentru instruire, remedierea eroilor sau alte motive.


Serviciu de traducere integrat

OCI Speech utilizează modele și arhitectură proprietară, care permite conversia rapidă a vorbirii în text.

Punctaj de încredere pentru fiecare cuvânt

Am adăugat un punctaj de încredere la nivel de cuvânt pentru a vă ajuta să identificați cuvinte care ar fi putut fi transcrise incorect. Utilizați punctajul de încredere pentru cuvinte și stabiliți unde să vă concentrați atenția la crearea unei aplicații.

Filtre pentru limbajul obscen

Am adăugat funcționalități integrate de filtrare a limbajului obscen, utilizând o listă organizată de termeni. Puteți masca, elimina sau eticheta expresiile vulgare.


Funcția noastră de recunoaștere vocală în timp real vă ajută să vă asigurați că discursul dvs. este transcris cu acuratețe în timp ce vorbiți în mod natural, permițând o comunicare fără întreruperi și fără probleme.
Michael Zhang, Senior Principal Product Manager, Oracle

Cazuri de utilizare pentru OCI Speech

Căutarea conținutului media digital și subtitrări închise

Asigurați automat subtitrarea în flux a subtitrărilor pe platforma OCI pentru tot conținutul creat și administrat de către serviciile media digitale. Indexați conținutul dvs. cu ajutorul OCI Speech pentru o căutare ușoară în tot conținutul dvs.

Feedback-ul clienților și analiza apelurilor

Transcrieți apelurile clienților pentru a facilita căutarea și recuperarea informațiilor. Utilizați OCI Language pentru a detecta sentimentele și pentru a ajuta la identificarea pierderilor de clienți și a oportunităților de formare a personalului.

Dictare medicală

Transcrierea în timp real le permite medicilor și asistentelor medicale să captureze notele pacienților din mers, contribuind la creșterea eficienței și la îmbunătățirea îngrijirii și a rezultatelor.

Accesibilitate îmbunătățită

Text-to-speech neuronal oferă o voce de înaltă precizie, asemănătoare celei umane, cu intonații, furnizând mai multe opțiuni pentru funcțiile de accesibilitate.

Resurse OCI Speech

Începeți să utilizați OCI Speech


Oracle Cloud Free Tier

Creați, testați și implementați gratuit aplicații în Oracle Cloud.