Conversão de fala em texto (STT) e texto em fala (TTS)

O OCI Speech é um serviço de IA que transcreve a fala em forma de texto e sintetiza fala a partir de texto. Obtenha transcrições precisas, com texto normalizado e registro de data e hora, além de voz sintetizada por meio do OCI Console, dos notebooks do OCI Data Science e das APIs REST, bem como de CLIs ou SDKs.

Recursos do OCI Speech

Modelos acústicos e de linguagem predefinidos

A OCI Speech utiliza reconhecimento automático de fala, isto é, um processo de aprendizado profundo, para derivar transcrições precisas de conversas naturais. Comece facilmente usando modelos acústicos e de linguagem pré-criados que não exigem experiência anterior em ciência de dados.

Analise os dados a partir de arquivos de áudio e vídeo

Pesquise, crie índices, e decifre dados escondidos em seus arquivos de áudio. Converta os diálogos de áudio em dados textuais para analisá-los com a ajuda de serviços de IA. Por exemplo, use o OCI Language para recuperar o sentimento e os recursos de detecção de anomalias do OCI Speech para identificar chances de rotatividade de clientes.

Transcrição em tempo real

Agora com disponibilidade limitada, o recurso de transcrição em tempo real do OCI Speech permite que você envie fluxos de áudio e receba transcrições precisas em segundos.

Conversão de texto em fala (TTS) neural

Agora com disponibilidade limitada, o recurso de conversão de texto em fala do OCI Speech permite que você sintetize fala semelhante à humana a partir de texto em várias aplicações. Esse recurso permite conversas com clientes, traduções de voz em vários idiomas e acessibilidade aprimorada. Escolha entre uma variedade de vozes para melhorar as interações.

Suporte multilíngue nativo

Os modelos de ASR do OCI Speech oferecem suporte a inglês, espanhol, português, alemão, francês, italiano e hindi, permitindo que você transcreva seus arquivos de áudio no seu idioma de preferência. Além disso, o OCI Speech também oferece suporte ao modelo OpenAI Whisper, que fornece mais de 57 idiomas prontos para uso. Saiba mais sobre a OCI e o modelo Whisper.

Diarização para maior legibilidade e compreensão

O OCI Speech oferece suporte à diarização para organizar, analisar e extrair informações significativas de vários falantes.


Serviço integrado de transcrição

Você não precisa depender de serviços de transcrição de terceiros. Tenha mais controle sobre os seus dados com segurança e conformidade de ponta a ponta.

Fácil de integrar

O OCI Speech é um serviço versátil que pode ser ativado por meio de REST APIs, diferentes SDKs, e pelo Oracle CLI. Os desenvolvedores podem facilmente desenvolver um serviço de reconhecimento de fala escalável, mesmo sem nenhuma experiência com ciência de dados ou ML.

Criada especificamente para segurança e privacidade

A Oracle Cloud Infrastructure Speech protege a privacidade dos nossos clientes. Os modelos pré-desenvolvidos do ASR transcrevem o seu conteúdo, porém nenhum dado é armazenado para fins de treinamento, depuração, ou outros propósitos.


Serviço integrado de transcrição

A OCI Speech utiliza modelos proprietários e arquitetura que permitem converter fala em texto rapidamente.

Classificação de confiança por palavra

Adicionamos uma classificação de confiança ao nível de palavra para ajudá-lo a identificar palavras que possam ter sido transcritas incorretamente. Utilize essa classificação para concentrar os seus esforços durante o desenvolvimento da aplicação.

Filtros para conteúdo impróprio

Incluímos um filtro predefinido de uma lista cuidadosamente criada com conteúdo palavrões e outros conteúdos impróprios. Você pode remover, ocultar ou destacar esses teores.


Nosso recurso de reconhecimento de fala em tempo real ajuda a garantir que sua fala seja transcrita com precisão enquanto você fala naturalmente, permitindo uma comunicação contínua e ininterrupta.
Michael Zhang, Gerente de Produtos Sênior, Oracle

Casos de uso do OCI Speech

Pesquisa de conteúdo e legendas de mídia digital

Fornece fluxo de legendas automáticas na plataforma OCI para todos os conteúdos criados e selecionados pelos serviços de mídia digital. Indexe o conteúdo usando o OCI Speech para facilitar a busca dentro do conteúdo.

Feedback e análise de chamadas do cliente

Transcreva as chamadas dos clientes para facilitar a pesquisa e recuperação de informações. Use o OCI Language para detectar sentimentos e ajudar a identificar a rotatividade de clientes e oportunidades de treinamento da equipe.

Ditado médico

A transcrição em tempo real permite que médicos e enfermeiros façam anotações sobre o paciente em qualquer lugar, ajudando a aumentar a eficiência e a melhorar o atendimento e os resultados.

Acessibilidade aprimorada

A conversão de texto em fala neural fornece uma voz altamente precisa e semelhante à humana, com entonações, oferecendo mais opções de recursos de acessibilidade.

Recursos do OCI Speech

Comece a utilizar o OCI Speech


Modo Gratuito da Oracle Cloud

Crie, teste e implemente aplicações na Oracle Cloud gratuitamente.