AI 语音转文本服务常见问题解答

一般问题

什么是 Oracle Cloud Infrastructure Speech?

OCI Speech 服务使用自动语音识别 (ASR) 技术将语音转换为文本,支持开发人员、业务部门、内容生产者、优化师和其他用户高效转录音频文件。使用 OCI Speech,用户可以转录呼叫中心呼叫和会议,生成 CC 字幕,创建索引并搜索音频和视频内容。

为何要使用 OCI Speech?

如果您需要一款快速、准确、支持时间戳的转录服务,请使用 OCI Speech。如果您使用 OCI 存储音频文件,OCI Speech 不仅延迟低,而且还无需您支付网络成本。

如何上手使用 OCI Speech?

请点击这里,创建您的第一个转录工作,或点击这里了解关于 OCI Speech 的更多信息。

特性

OCI Speech 可提供哪些转录服务?

OCI Speech 当前仅支持基于文件的异步转录,不支持实时转录。

目前支持哪些语言?

Oracle 基于预训练模型的转录服务支持以下语言:英语、西班牙语和葡萄牙语。

Oracle 会使用我的文件来优化 OCI 服务,或将我的文件用于其他目的吗?

不,Oracle 将仅转录您的文件内容,不会保留关于您文件的任何信息。

关于该服务还有哪些需要关注的?

与所有其它转录服务一样,输出质量取决于输入音频文件的质量。同时,发言者的口音、背景噪音、语言切换、融合语言(例如西班牙式英语)以及多人同时发言,这些都可能影响转录质量。Oracle 将持续优化 OCI Speech 的性能,提高所有输入文件和发言者语音转录的准确性。

OCI Speech 可以自动检测文件中的语言吗?

目前不可以,但 Oracle 很快会推出这一功能。

OCI Speech 支持哪些格式的输入文件?

OCI Speech 支持单通道、16 位、16kHz 采样率的 PCM WAV 音频文件,Oracle 建议您使用 Audacity(图形用户界面)或者 ffmpeg(命令行)来进行音频转码。OCI Speech 很快将支持更多音频格式。

OCI Speech 支持哪些输出格式?

OCI Speech 支持 JSON(默认)和 SRT(无额外成本)输出格式。

计费和定价

如何计费?

OCI Speech 采用精确的计费方案,以秒为单位衡量总用量,每转录小时的定价为 0.50 美元。举例来说,如果您上传了三个文件,时长分别为 36000 秒、4575 秒和 1421 秒,月度费用则为总秒数(9596 秒)除以 3600(一小时的总秒数),然后乘以 0.50 美元(每转录小时定价)。换言之,您需要支付 9596/3600 x 0.50 美元 = 1.332 美元。

OCI Speech 的计费指标是什么?

OCI Speech 的计费指标为“转录小时”。“转录小时”指的是在使用 OCI Speech 的一个月时间内被转录的音频小时数。

OCI Speech 是否收取设置费用,是否有最低使用要求?

没有。OCI Speech 不收取任何设置费用,无最低使用要求,不需要任何硬件。

该服务是否提供免费试用小时?

是的。每个租户每月可免费使用 OCI Speech 5 个小时来试用转录功能。

标点符号和 SRT 是否收费?

标点符号和 SRT 一样是免费服务。不过,SRT 文件存储可能会产生存储费用。

其它技术问题

OCI Speech 支持哪些设备?

OCI Speech 不受设备限制,支持所有录制设备。

我的文件不是 WAV 格式,如何转换为 WAV 格式?

我们建议您使用 ffmpeg 实用程序执行以下命令:ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>。

我收到了以下错误信息:Either the bucket named “undefined” does not exist in the namespace <namespace> or you are not authorized to access it。如何修复?

请参阅 Speech 策略设置

注:为免疑义,本网页所用以下术语专指以下含义:

  1. Oracle专指Oracle境外公司而非甲骨文中国。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。