Speech to text (STT) and text to speech (TTS)

OCI Speech is an AI service that both transcribes speech to text and synthesizes speech from text. Get accurate, text-normalized, time-stamped transcriptions and synthetized voice via the OCI Console, OCI Data Science notebooks, and REST APIs, as well as CLIs or SDKs.

OCI Speech 功能

預建的聲學與語言模型

OCI Speech 使用自動語音辨識這種深度學習的流程,從自然對話中獲得準確的轉錄內容。預建聲學和語言模型不需使用者擁有資料科學經驗,即可輕鬆開始使用。

從音訊和影片檔案分析資料

搜尋、索引及解碼隱藏在音訊檔案中的資料。將錄製的音訊對話轉換成文字資料,以透過人工智慧服務進行分析。例如,您可以使用 OCI 語言擷取情感和 OCI Speech 的異常偵測功能,以識別客戶流失的機率。

即時轉錄

目前,Oracle 限量提供 OCI Speech 的即時轉錄功能,可讓您在幾秒鐘內發送音訊串流並接收準確的轉錄內容。

神經文字轉語音 (TTS)

目前,Oracle 限時提供 OCI Speech 中的文字轉語音功能,讓開發人員跨應用程式從文字合成類似人類的語音,從而與客戶對話,透過語音翻譯多種語言,提高可訪問性以及執行其他任務。

原生多種語言支援

OCI Speech ASR 模型支援多種語言,例如英文、西班牙文及葡萄牙文,因此您可以使用偏好的語言轉錄音訊檔案。

自動分段標記有助於閱讀和理解

OCI Speech 支援自動分段標記,以便整理、分析及擷取口語互動中有意義的資訊。


整合轉錄服務

消除依賴第三方轉錄的方案,並透過端對端安全性和規範,更有效控制您的資料。

易於整合

OCI Speech 是一種多功能服務,可透過 REST API、不同的 SDK 以及 Oracle CLI 呼叫此服務。開發人員無需具備資料科學或機器學習專長,即可輕鬆部署可調整的語音服務。

專為安全和隱私而打造

Oracle Cloud Infrastructure Speech 會保護客戶隱私權。預建的自動語音辨識模型會轉錄您的內容,但不會儲存任何用於訓練、除錯或其他用途的資料。


整合轉錄服務

OCI Speech 使用專屬模型和架構,以將語音轉換成文字並進行快速轉換。

每個字詞的可信度分數

我們新增了字詞級可信度分數,以協助您識別未正確轉錄的字詞。使用字詞可信度分數來決定建置應用程式時重點位置。

髒話篩選

我們使用髒話精選清單新增了預建字詞篩選條件。您可以遮蔽、移除或標記髒話。


Oracle 的即時語音辨識功能可在您自然說話時準確轉錄您的語音,從而實現無縫且不間斷的溝通。
Oracle 資深首席產品經理 Michael Zhang

OCI Speech 的使用案例

數位媒體內容搜尋與隱藏式字幕

在 OCI 平台上,自動為數位媒體服務所建立和策劃的所有內容提供工作流程中的隱藏式字幕。使用 OCI Speech 編製內容索引,以便輕鬆搜尋內容。

客戶意見回饋和通話分析

轉錄客戶電話,以便快速搜尋及擷取資訊。使用 OCI Language 進行情感偵測,一方面識別客戶流失的情況,另一方面識別為員工提供培訓的機會。

適用於醫療領域的聽寫功能

藉助即時轉錄功能,醫生和護士能夠隨時隨地獲取病患筆記,有助提高效率並改善護理和結果。

提高可用性

神經文字轉語音提供高精準度、類人語音和語調,提供更多可用選項。

<!-- <section class="rc24 rc24v0 cpad rw-neutral-10bg"> <div class="rc24w1 cwidth"> <iframe data-src="/cloud/costestimator/#/load&tag=aispeech" class="f24 f24v0" scrolling="no"></iframe> </div> </section>-->

OCI Speech 資源

開始使用 OCI Speech


Oracle Cloud Free Tier

免費在 Oracle Cloud 上建構、測試及部署應用程式。