OCI Speech 服务使用自动语音识别 (ASR) 技术将语音转换为文本,支持开发人员、业务部门、内容生产者、优化师和其他用户高效转录音频文件。使用 OCI Speech,用户可以转录呼叫中心呼叫和会议,生成 CC 字幕,创建索引并搜索音频和视频内容。
如果您需要一款快速、准确、支持时间戳的转录服务,请使用 OCI Speech。如果您使用 OCI 存储音频文件,OCI Speech 不仅延迟低,而且还无需您支付网络成本。
OCI Speech 当前仅支持基于文件的异步转录,不支持实时转录。
Oracle 基于预训练模型的转录服务支持以下语言:英语、西班牙语和葡萄牙语。
不,Oracle 将仅转录您的文件内容,不会保留关于您文件的任何信息。
与所有其它转录服务一样,输出质量取决于输入音频文件的质量。同时,发言者的口音、背景噪音、语言切换、融合语言(例如西班牙式英语)以及多人同时发言,这些都可能影响转录质量。Oracle 将持续优化 OCI Speech 的性能,提高所有输入文件和发言者语音转录的准确性。
目前不可以,但 Oracle 很快会推出这一功能。
OCI Speech 支持单通道、16 位、16kHz 采样率的 PCM WAV 音频文件,Oracle 建议您使用 Audacity(图形用户界面)或者 ffmpeg(命令行)来进行音频转码。OCI Speech 很快将支持更多音频格式。
OCI Speech 支持 JSON(默认)和 SRT(无额外成本)输出格式。
OCI Speech 采用精确的计费方案,以秒为单位衡量总用量,每转录小时的定价为 0.50 美元。举例来说,如果您上传了三个文件,时长分别为 36000 秒、4575 秒和 1421 秒,月度费用则为总秒数(9596 秒)除以 3600(一小时的总秒数),然后乘以 0.50 美元(每转录小时定价)。换言之,您需要支付 9596/3600 x 0.50 美元 = 1.332 美元。
OCI Speech 的计费指标为“转录小时”。“转录小时”指的是在使用 OCI Speech 的一个月时间内被转录的音频小时数。
没有。OCI Speech 不收取任何设置费用,无最低使用要求,不需要任何硬件。
是的。每个租户每月可免费使用 OCI Speech 5 个小时来试用转录功能。
标点符号和 SRT 一样是免费服务。不过,SRT 文件存储可能会产生存储费用。
OCI Speech 不受设备限制,支持所有录制设备。
我们建议您使用 ffmpeg 实用程序执行以下命令:ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>。
请参阅 Speech 策略设置。
注:为免疑义,本网页所用以下术语专指以下含义: