Speech to text (STT) and text to speech (TTS)

OCI Speech is an AI service that both transcribes speech to text and synthesizes speech from text. Get accurate, text-normalized, time-stamped transcriptions and synthetized voice via the OCI Console, OCI Data Science notebooks, and REST APIs, as well as CLIs or SDKs.

OCI Speech 的特性

预构建声学和语言模型

OCI Speech 采用深度学习流程 — 自动语音识别技术,可准确转写自然对话。即使不了解数据科学,您也可以通过预构建的声学和语言模型轻松使用该服务。

分析音频和视频文件中的数据

搜索音频文件中的数据,为其编索引,并进行分析。将录制的音频对话转为文本数据,并使用 AI 服务进行分析。您还可以使用 OCI Language 检索客户情绪,并使用 OCI Speech 的异常检测功能预测客户流失的可能性。

实时转录

OCI Speech 的实时转录功能目前处于限量发布状态,支持您在几秒钟内发送音频流并接收准确的转录文本。

神经文本转语音 (TTS)

OCI Speech 的文本转语音功能目前处于限量发布状态,可帮助开发人员跨应用从文本合成类似人类的语音。该功能支持与客户对话,包括使用语音翻译多种语言,提高可访问性并执行其它任务。

原生多语言支持

OCI Speech ASR 模型支持英语、西班牙语和葡萄牙语,您可将音频文件转写为您偏好的语言。

通过声纹分割聚类功能提高可读性和理解能力

OCI Speech 支持声纹分割聚类功能,可对语音交互进行组织、分析,然后从中提取有意义的信息。


一体化转写服务

无需依赖第三方转写产品,提供端到端的安全性和合规性流程,助您更好地控制数据。

易于集成

OCI Speech 是一个通用服务,可通过 REST API、不同的 SDK 和 Oracle CLI 进行调用。开发人员即使不具备数据科学或机器学习专业知识,也可轻松部署可扩展的语音识别服务。

专为保护安全和隐私而打造

Oracle Cloud Infrastructure Speech 可保障客的隐私。预构建的自动语音识别模型可转写您的内容,但不会存储任何数据用于训练、调试或其他目的。


一体化转写服务

OCI Speech 使用专有模型和架构,快速将语音转换为文本。

每个单词的置信度评分

新增的单词级别的置信度评分可帮助您识别可能被错误转写的单词。您还可以使用单词置信度评分来确定构建应用时的重点。

粗言秽语过滤器

使用精选的粗言秽语列表,添加预建的单词过滤功能。您可以屏蔽、删除或标记粗言秽语。


Oracle 的实时语音识别功能有助于确保您的语音在您自然说话时准确地转录成文本,从而实现无缝且不间断的通信。
甲骨文公司高级首席产品经理 Michael Zhang

OCI Speech 的使用场景

数字媒体内容搜索和隐藏式字幕

自动在 OCI 平台上针对数字媒体服务创建和定制的所有内容提供工作流隐藏式字幕。使用 OCI Speech 为内容编索引,实现轻松搜索。

客户反馈和呼叫分析

将客户通话转录成文本,以便于搜索和检索信息。使用 OCI Language 检测客户情绪,有助于识别客户流失和员工培训机会。

医学听写

通过实时转录功能,医生和护士可以随时随地捕捉患者笔记,从而提高效率并改善护理和疗效。

提高可访问性

神经文本转语音功能提供高精度、类似人类的带有语调的语音,为无障碍功能提供更多选项。

OCI Speech 资源

赶快行动


Oracle Cloud 免费套餐

免费在 OCI 上构建、测试和部署应用。

注:为免疑义,本网页所用以下术语专指以下含义:

  1. Oracle专指Oracle境外公司而非甲骨文中国。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。