Perguntas frequentes sobre IA de fala para texto

Tópicos de perguntas frequentes

Geral
Recursos
Faturamento e preços
Outras questões técnicas

Geral

O que é o Oracle Cloud Infrastructure Speech?

O OCI Speech é um serviço de IA que transcreve a fala em forma de texto e sintetiza fala a partir de texto. Ele aplica a tecnologia de reconhecimento automático de fala para transformar conteúdo baseado em áudio em texto em tempo real ou de forma assíncrona. O recurso de conversão de texto em fala baseado em rede neural gera uma voz com som natural com base no texto inserido. Você pode facilmente chamar APIs para integrar os modelos pré-treinados do OCI Speech em suas aplicações.. O OCI Speech pode ser usado para transcrições precisas, com texto normalizado e registro de data e hora, ou voz sintética por meio do console e APIs, REST, bem como CLIs ou SDKs. Também é possível usar a OCI Speech em uma sessão padrão do OCI Data Science. A OCI Speech ajuda você a filtrar conteúdos impróprios, obter pontuações de confiabilidade para palavras ou sentenças completas, e muito mais.

Por que devo usar o OCI Speech?

Você deve usar o OCI Speech se precisar de um serviço de transcrição rápido, preciso e com marcação de data/hora. Se você estiver usando a OCI para armazenar seus arquivos de áudio, também pode aproveitar latências mais baixas e nenhum custo de rede associado à transcrição. Os recursos mais recentes de conversão de texto em fala e de fala em texto em tempo real, agora com disponibilidade limitada, oferecem recursos adicionais para integração com a sua aplicação.

Como faço para começar a usar o OCI Speech?

Para começar, faça login para criar sua primeira transcrição ou leia mais sobre o serviço.

Recursos

Quais serviços de transcrição são oferecidos?

No momento, oferecemos suporte à transcrição assíncrona baseada em arquivo. A transcrição em tempo real é oferecida com disponibilidade limitada no momento.

Quais idiomas são suportados atualmente?

A transcrição vem com modelos pré-treinados para os seguintes idiomas: inglês, espanhol, português, alemão, francês, italiano e hindi. Também oferecemos suporte ao modelo OpenAI Whisper para transcrição assíncrona baseada em arquivo com suporte imediato em mais de 57 idiomas.

Os arquivos transcritos são usados pela OCI para melhorar o serviço (ou para qualquer outra coisa)?

Não. Apenas transcrevemos o seu conteúdo e não mantemos nenhuma informação do arquivo.

O que mais devo saber sobre o serviço?

Como qualquer outro serviço de transcrição, a qualidade da saída depende da qualidade do arquivo de áudio de entrada. Os sotaques dos falantes, os ruídos de fundo, a alternância entre idiomas, o uso de idiomas de fusão (como o espanglês) e várias pessoas falando simultaneamente podem afetar a qualidade da transcrição. Também estamos trabalhando constantemente para melhorar o desempenho do serviço e fornecer transcrições mais precisas para todas as entradas e falantes.

O OCI Speech pode detectar automaticamente o idioma no arquivo?

Atualmente não, mas esse recurso estará disponível em breve.

Quais formatos de arquivo de entrada são aceitos?

Oferecemos suporte a arquivos de áudio PCM WAV de 16 bits e canal único com uma taxa de amostragem de 16 kHz. Também oferecemos suporte aos seguintes formatos de mídia e os converteremos para PCM WAV antes de transcrever:

AAC
AC3
AMR
AU
FLAC
M4A
MKV
MP3
MP4
OGA
OGG
WAV
WEBM

Você também pode converter seus arquivos antes de enviar tarefas para reduzir a latência. Recomendamos Audacity (GUI) ou FFmpeg (linha de comando) para transcodificação de áudio.

Quais formatos de saída são aceitos?

Oferecemos suporte a JSON como padrão e SRT como opção sem custos adicionais.

Faturamento e preços

Como será a cobrança?

Usamos um faturamento de precisão, o que significa que cobramos US$ 0,50 por cada hora de transcrição ou síntese de voz, mas usamos segundos para medir o uso agregado. Por exemplo, se você enviar três arquivos com durações respectivas de 10.860 segundos, 8.575 segundos e 9.421 segundos, sua fatura mensal será calculada pela soma dos seus segundos (28.856) dividida por 3.600 (o número de segundos em uma hora) e menos 5 (o número de horas gratuitas por mês), multiplicado por US$ 0,50. Em outras palavras, você será cobrado US$ 1,508 ou (28.856/3.600 - 5) x US$ 0,50 = US$ 1,508.

Qual é a métrica faturável para o OCI Speech?

Nossa métrica faturável é a hora de transcrição. A hora de transcrição mede o número de horas de áudio transcritas ou sintetizadas durante um determinado mês do serviço.

Há alguma taxa de instalação ou compromisso de serviço mínimo com o OCI Speech?

Não. O OCI Speech não tem nenhuma taxa de instalação ou compromisso de serviço mínimo, e não há necessidade de hardware.

Vocês oferecem uma quantidade de horas gratuita para experimentar o serviço?

Sim. Oferecemos cinco horas de transcrição gratuita todos os meses por tenancy.

Vocês cobram mais por pontuação ou SRT?

A pontuação é um serviço gratuito, assim como o SRT. Armazenar arquivos SRT pode aumentar sua taxa de armazenamento.

Outras perguntas técnicas

Quais dispositivos terão o suporte do OCI Speech?

O OCI Speech funciona com qualquer dispositivo de gravação e não é específico dele.

Meu arquivo não é WAV. Como devo converter meu arquivo para WAV?

Recomendamos usar o utilitário FFmpeg com o seguinte comando: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Estou recebendo a seguinte mensagem de erro: O bucket chamado “undefined” não existe no namespace <namespace> ou você não está autorizado a acessá-lo. Como eu corrijo isso?

Consulte a documentação da política do OCI Speech.