Perguntas frequentes sobre IA de fala para texto

Geral

O que é o Oracle Cloud Infrastructure Speech?

OCI Speech é um serviço que usa reconhecimento automático de fala (Automatic Speech Recognition, ASR) para converter fala em texto. O serviço permite que desenvolvedores, unidades de negócios, provedores de conteúdo, criadores e outros usuários transcrevam arquivos de áudio. Com o OCI Speech, os usuários podem transcrever reuniões ou chamadas de call center, gerar legendas ocultas e indexar e pesquisar conteúdo de áudio e vídeo.

Por que devo usar o OCI Speech?

Você deve usar o OCI Speech se precisar de um serviço de transcrição rápido, preciso e com marcação de data/hora. Se você estiver usando a OCI para armazenar seus arquivos de áudio, também desfrutará de latências mais baixas e nenhum custo de rede associado às transcrições.

Como faço para começar a usar o OCI Speech?

Comece aqui para criar sua primeira transcrição ou leia mais sobre o serviço aqui.

Recursos

Quais serviços de transcrição são oferecidos?

No momento, oferecemos suporte à transcrição assíncrona baseada em arquivo. No momento, não oferecemos transcrição em tempo real.

Quais idiomas são suportados atualmente?

A transcrição vem com modelos pré-treinados para os seguintes idiomas: inglês, espanhol e português.

Os arquivos transcritos são usados pela OCI para melhorar o serviço (ou para qualquer outra coisa)?

Não. Apenas transcrevemos o seu conteúdo e não mantemos nenhuma informação do arquivo.

O que mais devo saber sobre o serviço?

Como qualquer outro serviço de transcrição, a qualidade da saída depende da qualidade do arquivo de áudio de entrada. Os sotaques dos falantes, os ruídos de fundo, a alternância entre idiomas, o uso de idiomas de fusão (como o espanglês) e várias pessoas falando simultaneamente podem afetar a qualidade da transcrição. Estamos constantemente trabalhando para melhorar o desempenho do serviço para fornecer transcrições mais precisas para todas as entradas e falantes.

O OCI Speech pode detectar automaticamente o idioma no arquivo?

Atualmente não (mas em breve).

Quais formatos de arquivo de entrada são aceitos?

Oferecemos suporte a arquivos de áudio WAV PCM de canal único de 16 bits com uma taxa de amostragem de 16 kHz. Recomendamos Audacity (GUI) ou ffmpeg (linha de comando) para transcodificação de áudio. Outros formatos de áudio serão disponibilizados em breve.

Quais formatos de saída são aceitos?

Damos suporte a JSON (como padrão) e SRT (como opção sem custos adicionais).

Faturamento e preços

Como será a cobrança?

Usamos um faturamento de precisão, o que significa que cobramos US$ 0,50 por cada hora de transcrição, mas usamos segundos para medir o uso agregado. Por exemplo, se você carregou três arquivos com as seguintes durações: 3.600 segundos, 4.575 segundos e 1.421 segundos, sua fatura mensal será calculada pela soma de seus segundos (9.596) dividido por 3.600 (o número de segundos em uma hora), multiplicado por $ 0,50. Em outras palavras, você será cobrado $ 1,332 ou 9.596/3.600 x $ 0,50 = $ 1,332.

Qual é a métrica faturável para o OCI Speech?

Chamamos nossa métrica faturável de “hora de transcrição”. A hora de transcrição mede o número de horas de áudio transcritas durante um determinado mês do serviço.

Há cobranças de configuração ou compromissos mínimos de serviço com o Speech?

Não. O OCI Speech não tem nenhuma cobrança de configuração ou compromissos mínimos de serviço. E não requer hardware adicional.

Vocês oferecem uma quantidade de horas gratuita para experimentar o serviço?

Sim. Oferecemos cinco horas de transcrição gratuita todos os meses por tenancy.

Vocês cobram mais por pontuação ou SRT?

A pontuação é um serviço gratuito, assim como o SRT. Armazenar arquivos SRT pode aumentar sua taxa de armazenamento.

Outras perguntas técnicas

Quais dispositivos terão o suporte do OCI Speech?

O Speech funciona com qualquer dispositivo de gravação e não é específico do dispositivo.

Meu arquivo não é WAV. Como devo converter meu arquivo para WAV?

Recomendamos usar o utilitário ffmpeg com o seguinte comando: ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Estou recebendo a seguinte mensagem de erro: O bucket chamado “undefined” não existe no namespace <namespace> ou você não está autorizado a acessá-lo. Como eu corrijo isso?

Consulte a Configuração de Política do Speech.