Speech to text (STT) and text to speech (TTS)

OCI Speech is an AI service that both transcribes speech to text and synthesizes speech from text. Get accurate, text-normalized, time-stamped transcriptions and synthetized voice via the OCI Console, OCI Data Science notebooks, and REST APIs, as well as CLIs or SDKs.

Caracteristici OCI Speech

Modele acustice și lingvistice preintegrate

OCI Speech utilizează recunoașterea automată a vocii, un proces de învățare aprofundată, pentru a transcrie precis conversațiile naturale. Începeți ușor utilizând modele acustice și lingvistice preintegrate, care nu necesită ca utilizatorii să aibă experiență în știința datelor.

Analizați datele din fișierele audio și video

Căutați, indexați și descifrați datele din fișierele audio. Transformați conversațiile audio înregistrate în date text pentru a le analiza folosind serviciile AI. De exemplu, puteți utiliza OCI Language pentru a prelua sentimentul și funcționalitățile de detectare a anomaliilor OCI Speech pentru a identifica șansele de pierdere a clienților.

Transcriere în timp real

În prezent disponibilă în mod limitat, funcția de transcriere în timp real a OCI Speech vă permite să trimiteți fluxuri audio și să primiți o transcriere exactă în câteva secunde.

Text to speech (TTS) neuronal

În prezent disponibilă în mod limitat, funcția text-to-speech din OCI Speech le permite dezvoltatorilor să sintetizeze vorbirea asemănătoare cu cea umană din text în cadrul aplicațiilor. Permiteți conversații cu clienții, traduceți mai multe limbi cu ajutorul vocii, îmbunătățiți accesibilitatea și îndepliniți alte sarcini.

Suport nativ pentru mai multe limbi

Modelele OCI Speech ASR funcționează cu mai multe limbi, precum engleză, spaniolă și portugheză, astfel încât să puteți transcrie fișierele audio în limba dvs. preferată.

Diarizare pentru sporirea lizibilității și a înțelegerii

OCI Speech acceptă diarizarea pentru organizarea, analizarea și extragerea de informații pertinente din interacțiunile vorbite.


Serviciu de traducere integrat

Nu vă mai bazați pe ofertele de transcriere ale terților și exercitați mai mult control asupra datelor folosind securitatea integrală și conformitatea.

Integrare ușoară

OCI Speech este un serviciu flexibil, ce poate fi apelat prin API-uri REST, SDK-uri diferite și Oracle CLI. Dezvoltatorii pot implementa cu ușurință un serviciu pentru discursuri scalabil fără a avea experiență în știința datelor sau în ML.

Creat special pentru securitate și confidențialitate

Oracle Cloud Infrastructure Speech protejează confidențialitatea clienților. Modelele ASR integrate transcriu conținutul, dar nu stochează datele pentru instruire, remedierea eroilor sau alte motive.


Serviciu de traducere integrat

OCI Speech utilizează modele și arhitectură proprietară, care permite conversia rapidă a vorbirii în text.

Punctaj de încredere pentru fiecare cuvânt

Am adăugat un punctaj de încredere la nivel de cuvânt pentru a vă ajuta să identificați cuvinte care ar fi putut fi transcrise incorect. Utilizați punctajul de încredere pentru cuvinte și stabiliți unde să vă concentrați atenția la crearea unei aplicații.

Filtre pentru limbajul obscen

Am adăugat funcționalități integrate de filtrare a limbajului obscen, utilizând o listă organizată de termeni. Puteți masca, elimina sau eticheta expresiile vulgare.


Funcția noastră de recunoaștere vocală în timp real vă ajută să vă asigurați că discursul dvs. este transcris cu acuratețe în timp ce vorbiți în mod natural, permițând o comunicare fără întreruperi și fără probleme.
Michael Zhang, Senior Principal Product Manager, Oracle

Cazuri de utilizare pentru OCI Speech

Căutarea conținutului media digital și subtitrări închise

Asigurați automat subtitrarea în flux a subtitrărilor pe platforma OCI pentru tot conținutul creat și administrat de către serviciile media digitale. Indexați conținutul dvs. cu ajutorul OCI Speech pentru o căutare ușoară în tot conținutul dvs.

Feedback-ul clienților și analiza apelurilor

Transcrieți apelurile clienților pentru a facilita căutarea și recuperarea informațiilor. Utilizați OCI Language pentru a detecta sentimentele și pentru a ajuta la identificarea pierderilor de clienți și a oportunităților de formare a personalului.

Dictare medicală

Transcrierea în timp real le permite medicilor și asistentelor medicale să captureze notele pacienților din mers, contribuind la creșterea eficienței și la îmbunătățirea îngrijirii și a rezultatelor.

Accesibilitate îmbunătățită

Text-to-speech neuronal oferă o voce de înaltă precizie, asemănătoare celei umane, cu intonații, furnizând mai multe opțiuni pentru funcțiile de accesibilitate.

Resurse OCI Speech

Începeți să utilizați OCI Speech


Oracle Cloud Free Tier

Creați, testați și implementați gratuit aplicații în Oracle Cloud.