OCI Speech 是一項使用自動語音辨識 (ASR) 將語音轉換為文字的服務,可讓開發人員、業務單位、內容提供者、維護人員,以及其他使用者轉錄音訊檔案。使用者可以利用 OCI Speech 轉錄客服中心的通話或會議、產生隱藏字幕,以及為音訊及視訊內容編製索引並加以搜尋。
如果您需要快速準確且具備時間戳記的轉錄服務,OCI Speech 會是您最好的選擇。如果您使用 OCI 來儲存音訊檔案,您更可享有低延遲,且無須支付與轉錄相關聯的網路費用。
我們目前支援以檔案為基礎的非同步轉錄,尚不提供即時轉錄服務。
下列語言具備預先訓練的模型,可提供轉錄服務:英文、西班牙文和葡萄牙文。
不會。我們只會轉錄您的內容,但不會保留任何檔案資訊。
與其他轉錄服務相同,輸出品質取決於輸入音訊檔案的品質。講者的口音、背景雜音、切換不同語言、使用混合語言 (例如西英混合語),以及多人同時說話等都會影響轉錄品質。我們會持續努力改善服務效能,為所有輸入和講者提供更準確的轉錄內容。
目前無法 (但此功能即將推出)。
我們支援單聲道 16 位元 PCM WAV 音訊檔案,取樣率為 16kHz。建議您在對音訊進行轉碼時使用 Audacity (GUI) 或 ffmpeg (命令行)。我們也即將支援其他音訊格式。
我們支援 JSON (預設) 與 SRT (作為選項時無須進一步付費)。
我們的計費精確,這表示轉錄每小時收費美金 0.5 元,但匯總的使用量會以秒數來計算。舉例來說,若您上傳了三個檔案,時間長度分別為 3,600 秒、4,575 秒與 1,421 秒,您的月帳單計算方式則會是秒數總和 (9,596) 除以 3,600 (每小時秒數),再乘以美金 0.5 元。換言之,您需要支付美金 1,332 元 (9,596/3,600 x 美金 0.50 元 = 美金 1,332 元)。
我們將計費指標稱為「轉錄時數」。轉錄時數會測量指定服務月份內所轉錄的音訊時數。
沒有。OCI Speech 沒有任何設定費用或最低服務承諾用量,而且不需要任何硬體。
有。每個租用戶每個月可享有五小時的免費轉錄服務。
標點符號和 SRT 相同,都是免費服務。不過儲存 SRT 檔案可能會增加儲存費用。
Speech 適用於任何錄製裝置,並不限定於特定裝置。
建議您使用 ffmpeg 公用程式搭配下列命令:ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>。
查看 Speech 政策設定。