OCI Speech 是一项 AI 服务,既能将语音转录为文本,又能将文本合成为语音。它使用自动语音识别技术,实时或异步地将基于音频的内容转换为文本。该特性是基于神经网络的文本转语音功能,可根据您的输入文本生成听起来很自然的声音。您可以轻松地进行 API 调用,将 OCI Speech 的预训练模型集成到应用中。OCI Speech 可通过控制台、REST API 以及 CLI 或 SDK 进行准确、文本规范化、带时间戳的转写或者语音合成。您还可以在 OCI Data Science 记事本会话中使用 OCI Speech。借助 OCI Speech,您可以过滤粗言秽语,获得单词和完整转写的置信度评分等功能。
如果您需要一款快速、准确、支持时间戳的转录服务,请使用 OCI Speech。如果您使用 OCI 存储音频文件,OCI Speech 不仅延迟低,而且还无需您支付网络成本。新的文本转语音和实时语音转文本功能现已限定供应,可提供更多功能与您的应用相集成。
要开始使用 OCI Speech,请登录账户,创建您的第一个转录或详细了解该服务。
OCI Speech 当前仅支持基于文件的异步转录,实时转录目前处于限定供应状态。
转录服务附带了以下语言的预训练模型:英语、西班牙语、葡萄牙语、德语、法语、意大利语和印地语。我们还支持 OpenAI Whisper 模型,现成支持 57 多种语言的基于文件的异步转录。
不,Oracle 将仅转录您的文件内容,不会保留关于您文件的任何信息。
与所有其它转录服务一样,输出质量取决于输入音频文件的质量。同时,发言者的口音、背景噪音、语言切换、融合语言(例如西班牙式英语)以及多人同时发言,这些都可能影响转录质量。Oracle 还将持续优化 OCI Speech 的性能,提高所有输入文件和发言者语音转录的准确性。
目前还不能,但很快会具备这种能力。
OCI Speech 支持单通道、16 位、16 kHz 采样率的 PCM WAV 音频文件,还支持以下媒体格式,并在转录之前将其转换为 PCM WAV:
您也可以在提交任务之前先转换文件格式,以减少延迟。Oracle 建议您使用 Audacity (GUI) 或者 FFmpeg(命令行)来进行音频转码。
OCI Speech 支持 JSON(默认)和 SRT(无额外成本)输出格式。
OCI Speech 采用精确的计费方案,以秒为单位衡量总用量,每转录小时/语音合成小时的定价为 0.50 美元。举例来说,如果您上传了三个文件,时长分别为 10860 秒、8575 秒和 9421 秒,月度费用则为总秒数(28856 秒)除以 3600(一小时的总秒数)减去 5(每月免费小时数),然后乘以 0.50 美元(每转录小时定价)。换言之,您需要支付 1.508 美元,即 (28856/3600 - 5) x 0.50 美元 = 1.508 美元。
OCI Speech 的计费指标为转录小时。转录小时指的是在使用 OCI Speech 服务的一个月时间内被转录或合成的音频小时数。
没有。OCI Speech 不收取任何设置费用,也无最低使用要求,而且无需硬件。
可以。每个租户每月可免费使用 OCI Speech 5 个小时来试用转录功能。
标点符号和 SRT 一样是免费服务。不过,SRT 文件存储可能会产生存储费用。
OCI Speech 不受设备限制,支持所有录制设备。
我们建议您使用 FFmpeg 实用程序执行以下命令:$ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>。
请参阅 Speech 策略设置文档。
注:为免疑义,本网页所用以下术语专指以下含义: