AI Speech to Text FAQ


一般問題

Oracle Cloud Infrastructure Speech 是什麼?

OCI Speech 是一項使用自動語音辨識 (ASR) 將語音轉換為文字的服務,可讓開發人員、業務單位、內容提供者、維護人員,以及其他使用者轉錄音訊檔案。使用者可以利用 OCI Speech 轉錄客服中心的通話或會議、產生隱藏字幕,以及為音訊及視訊內容編製索引並加以搜尋。

為什麼應該使用 OCI Speech?

如果您需要快速準確且具備時間戳記的轉錄服務,OCI Speech 會是您最好的選擇。如果您使用 OCI 來儲存音訊檔案,您更可享有低延遲,且無須支付與轉錄相關聯的網路費用。

如何開始使用 OCI Speech?

您可以從此處開始建立您的第一份轉錄稿,或是也可以在這裡深入瞭解本服務。

功能

有哪些轉錄服務受到支援?

我們目前支援以檔案為基礎的非同步轉錄,尚不提供即時轉錄服務。

目前支援哪些語言?

下列語言具備預先訓練的模型,可提供轉錄服務:英文、西班牙文和葡萄牙文。

OCI 是否會使用我轉錄的檔案來改善服務 (或用於其他項目)?

不會。我們只會轉錄您的內容,但不會保留任何檔案資訊。

關於此服務,還有哪些其他資訊我需要瞭解?

與其他轉錄服務相同,輸出品質取決於輸入音訊檔案的品質。講者的口音、背景雜音、切換不同語言、使用混合語言 (例如西英混合語),以及多人同時說話等都會影響轉錄品質。我們會持續努力改善服務效能,為所有輸入和講者提供更準確的轉錄內容。

OCI Speech 會自動偵測檔案語言嗎?

目前無法 (但此功能即將推出)。

支援的輸入格式有哪些?

我們支援單聲道 16 位元 PCM WAV 音訊檔案,取樣率為 16kHz。建議您在對音訊進行轉碼時使用 Audacity (GUI) 或 ffmpeg (命令行)。我們也即將支援其他音訊格式。

支援的輸出格式有哪些?

我們支援 JSON (預設) 與 SRT (作為選項時無須進一步付費)。

計費與定價

計費方式為何?

我們的計費精確,這表示轉錄每小時收費美金 0.5 元,但匯總的使用量會以秒數來計算。舉例來說,若您上傳了三個檔案,時間長度分別為 3,600 秒、4,575 秒與 1,421 秒,您的月帳單計算方式則會是秒數總和 (9,596) 除以 3,600 (每小時秒數),再乘以美金 0.5 元。換言之,您需要支付美金 1,332 元 (9,596/3,600 x 美金 0.50 元 = 美金 1,332 元)。

OCI Speech 的計費指標是什麼?

我們將計費指標稱為「轉錄時數」。轉錄時數會測量指定服務月份內所轉錄的音訊時數。

Speech 有任何設定費用或最低服務承諾用量嗎?

沒有。OCI Speech 沒有任何設定費用或最低服務承諾用量,而且不需要任何硬體。

是否有免費時數可試用服務?

有。每個租用戶每個月可享有五小時的免費轉錄服務。

我是否需要針對標點符號或 SRT 支付更多費用?

標點符號和 SRT 相同,都是免費服務。不過儲存 SRT 檔案可能會增加儲存費用。

其他技術問題

OCI Speech 支援哪些裝置?

Speech 適用於任何錄製裝置,並不限定於特定裝置。

我的檔案不是 WAV 檔,應該如何將檔案轉換為 WAV?

建議您使用 ffmpeg 公用程式搭配下列命令:ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>。

我收到下列錯誤訊息:命名空間 <namespace> 中不存在名為「未定義」的時段,或您未獲授權存取該時段。我該如何解決?

查看 Speech 政策設定