AI 语音转文本服务常见问题解答


一般问题

什么是 Oracle Cloud Infrastructure Speech?

OCI Speech 是一项 AI 服务,既能将语音转录为文本,又能将文本合成为语音。它使用自动语音识别技术,实时或异步地将基于音频的内容转换为文本。该特性是基于神经网络的文本转语音功能,可根据您的输入文本生成听起来很自然的声音。您可以轻松地进行 API 调用,将 OCI Speech 的预训练模型集成到应用中。OCI Speech 可通过控制台、REST API 以及 CLI 或 SDK 进行准确、文本规范化、带时间戳的转写或者语音合成。您还可以在 OCI Data Science 记事本会话中使用 OCI Speech。借助 OCI Speech,您可以过滤粗言秽语,获得单词和完整转写的置信度评分等功能。

为何要使用 OCI Speech?

如果您需要一款快速、准确、支持时间戳的转录服务,请使用 OCI Speech。如果您使用 OCI 存储音频文件,OCI Speech 不仅延迟低,而且还无需您支付网络成本。新的文本转语音和实时语音转文本功能现已限定供应,可提供更多功能与您的应用相集成。

如何上手使用 OCI Speech?

要开始使用 OCI Speech,请登录账户,创建您的第一个转录详细了解该服务

特性

OCI Speech 可提供哪些转录服务?

OCI Speech 当前仅支持基于文件的异步转录,实时转录目前处于限定供应状态。

目前支持哪些语言?

转录服务附带了以下语言的预训练模型:英语、西班牙语、葡萄牙语、德语、法语、意大利语和印地语。我们还支持 OpenAI Whisper 模型,现成支持 57 多种语言的基于文件的异步转录。

Oracle 会使用我的文件来优化 OCI 服务,或将我的文件用于其他目的吗?

不,Oracle 将仅转录您的文件内容,不会保留关于您文件的任何信息。

关于该服务还有哪些需要关注的?

与所有其它转录服务一样,输出质量取决于输入音频文件的质量。同时,发言者的口音、背景噪音、语言切换、融合语言(例如西班牙式英语)以及多人同时发言,这些都可能影响转录质量。Oracle 还将持续优化 OCI Speech 的性能,提高所有输入文件和发言者语音转录的准确性。

OCI Speech 可以自动检测文件中的语言吗?

目前还不能,但很快会具备这种能力。

OCI Speech 支持哪些格式的输入文件?

OCI Speech 支持单通道、16 位、16 kHz 采样率的 PCM WAV 音频文件,还支持以下媒体格式,并在转录之前将其转换为 PCM WAV:

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM

您也可以在提交任务之前先转换文件格式,以减少延迟。Oracle 建议您使用 Audacity (GUI) 或者 FFmpeg(命令行)来进行音频转码。

OCI Speech 支持哪些输出格式?

OCI Speech 支持 JSON(默认)和 SRT(无额外成本)输出格式。

计费和定价

如何计费?

OCI Speech 采用精确的计费方案,以秒为单位衡量总用量,每转录小时/语音合成小时的定价为 0.50 美元。举例来说,如果您上传了三个文件,时长分别为 10860 秒、8575 秒和 9421 秒,月度费用则为总秒数(28856 秒)除以 3600(一小时的总秒数)减去 5(每月免费小时数),然后乘以 0.50 美元(每转录小时定价)。换言之,您需要支付 1.508 美元,即 (28856/3600 - 5) x 0.50 美元 = 1.508 美元。

OCI Speech 的计费指标是什么?

OCI Speech 的计费指标为转录小时。转录小时指的是在使用 OCI Speech 服务的一个月时间内被转录或合成的音频小时数。

OCI Speech 是否收取设置费用,是否有最低使用要求?

没有。OCI Speech 不收取任何设置费用,也无最低使用要求,而且无需硬件。

该服务是否提供免费试用小时?

可以。每个租户每月可免费使用 OCI Speech 5 个小时来试用转录功能。

标点符号和 SRT 是否收费?

标点符号和 SRT 一样是免费服务。不过,SRT 文件存储可能会产生存储费用。

其它技术问题

OCI Speech 支持哪些设备?

OCI Speech 不受设备限制,支持所有录制设备。

我的文件不是 WAV 格式,如何转换为 WAV 格式?

我们建议您使用 FFmpeg 实用程序执行以下命令:$ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>。

我收到了以下错误信息:Either the bucket named “undefined” does not exist in the namespace <namespace> or you are not authorized to access it。如何修复?

请参阅 Speech 策略设置文档

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国 。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。