AI 语音转文本服务常见问题解答

常见问题解答主题

一般问题
特性
计费和定价
其它技术问题

一般问题

什么是 Oracle Cloud Infrastructure Speech？

OCI Speech 是一项 AI 服务，既能将语音转录为文本，又能将文本合成为语音。它使用自动语音识别技术，实时或异步地将基于音频的内容转换为文本。该特性是基于神经网络的文本转语音功能，可根据您的输入文本生成听起来很自然的声音。您可以轻松地进行 API 调用，将 OCI Speech 的预训练模型集成到应用中。OCI Speech 可通过控制台、REST API 以及 CLI 或 SDK 进行准确、文本规范化、带时间戳的转写或者语音合成。您还可以在 OCI Data Science 记事本会话中使用 OCI Speech。借助 OCI Speech，您可以过滤粗言秽语，获得单词和完整转写的置信度评分等功能。

为何要使用 OCI Speech？

如果您需要一款快速、准确、支持时间戳的转录服务，请使用 OCI Speech。如果您使用 OCI 存储音频文件，OCI Speech 不仅延迟低，而且还无需您支付网络成本。新的文本转语音和实时语音转文本功能现已限定供应，可提供更多功能与您的应用相集成。

如何上手使用 OCI Speech？

要开始使用 OCI Speech，请登录账户，创建您的第一个转录或详细了解该服务。

特性

OCI Speech 可提供哪些转录服务？

OCI Speech 当前仅支持基于文件的异步转录，实时转录目前处于限定供应状态。

目前支持哪些语言？

转录服务附带了以下语言的预训练模型：英语、西班牙语、葡萄牙语、德语、法语、意大利语和印地语。我们还支持 OpenAI Whisper 模型，现成支持 57 多种语言的基于文件的异步转录。

Oracle 会使用我的文件来优化 OCI 服务，或将我的文件用于其他目的吗？

不，Oracle 将仅转录您的文件内容，不会保留关于您文件的任何信息。

关于该服务还有哪些需要关注的？

与所有其它转录服务一样，输出质量取决于输入音频文件的质量。同时，发言者的口音、背景噪音、语言切换、融合语言（例如西班牙式英语）以及多人同时发言，这些都可能影响转录质量。Oracle 还将持续优化 OCI Speech 的性能，提高所有输入文件和发言者语音转录的准确性。

OCI Speech 可以自动检测文件中的语言吗？

目前还不能，但很快会具备这种能力。

OCI Speech 支持哪些格式的输入文件？

OCI Speech 支持单通道、16 位、16 kHz 采样率的 PCM WAV 音频文件，还支持以下媒体格式，并在转录之前将其转换为 PCM WAV：

AAC
AC3
AMR
AU
FLAC
M4A
MKV
MP3
MP4
OGA
OGG
WAV
WEBM

您也可以在提交任务之前先转换文件格式，以减少延迟。Oracle 建议您使用 Audacity (GUI) 或者 FFmpeg（命令行）来进行音频转码。

OCI Speech 支持哪些输出格式？

OCI Speech 支持 JSON（默认）和 SRT（无额外成本）输出格式。

计费和定价

如何计费？

OCI Speech 采用精确的计费方案，以秒为单位衡量总用量，每转录小时/语音合成小时的定价为 0.50 美元。举例来说，如果您上传了三个文件，时长分别为 10860 秒、8575 秒和 9421 秒，月度费用则为总秒数（28856 秒）除以 3600（一小时的总秒数）减去 5（每月免费小时数），然后乘以 0.50 美元（每转录小时定价）。换言之，您需要支付 1.508 美元，即 (28856/3600 - 5) x 0.50 美元 = 1.508 美元。

OCI Speech 的计费指标是什么？

OCI Speech 的计费指标为转录小时。转录小时指的是在使用 OCI Speech 服务的一个月时间内被转录或合成的音频小时数。

OCI Speech 是否收取设置费用，是否有最低使用要求？

没有。OCI Speech 不收取任何设置费用，也无最低使用要求，而且无需硬件。

该服务是否提供免费试用小时？

可以。每个租户每月可免费使用 OCI Speech 5 个小时来试用转录功能。

标点符号和 SRT 是否收费？

标点符号和 SRT 一样是免费服务。不过，SRT 文件存储可能会产生存储费用。

其它技术问题

OCI Speech 支持哪些设备？

OCI Speech 不受设备限制，支持所有录制设备。

我的文件不是 WAV 格式，如何转换为 WAV 格式？

我们建议您使用 FFmpeg 实用程序执行以下命令：$ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>。

我收到了以下错误信息：Either the bucket named “undefined” does not exist in the namespace <namespace> or you are not authorized to access it。如何修复？

请参阅 Speech 策略设置文档。

注：为免疑义，本网页所用以下术语专指以下含义：

除Oracle隐私政策外，本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国。
相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。