Preguntas frecuentes de la conversión de voz en texto con IA

General

¿Qué es Oracle Cloud Infrastructure Speech?

OCI Speech es un servicio que utiliza reconocimiento automático de voz (ASR) para convertir el habla en texto. El servicio permite a los desarrolladores, unidades de negocio, proveedores de contenido, aficionados y otros usuarios transcribir archivos de audio. Con OCI Speech, los usuarios pueden transcribir llamadas de centros de llamadas o reuniones, generar subtítulos cerrados e indexar y buscar contenido de audio y video.

¿Por qué debería usar OCI Speech?

Deberías usar OCI Speech si necesitas un servicio de transcripción rápido, preciso y con marca de tiempo. Si estás utilizando OCI para almacenar tus archivos de audio, también disfrutarás de latencias más bajas y sin costos de red asociados a la transcripción.

¿Cómo empiezo con OCI Speech?

Comienza aquí para crear tu primera transcripción, o lee más sobre el servicio aquí.

Características

¿Qué servicios de transcripción son compatibles?

Actualmente admitimos la transcripción asincrónica basada en archivos. No ofrecemos transcripción en tiempo real en este momento.

¿Qué idiomas se admiten actualmente?

La transcripción cuenta con modelos preentrenados para los siguientes idiomas: inglés, español y portugués.

¿Los archivos que transcribo se utilizan por OCI para mejorar el servicio (u otras cosas)?

No. Solo transcribimos tu contenido y no guardamos ninguna información del archivo.

¿Qué más debo saber sobre el servicio?

Al igual que cualquier otro servicio de transcripción, la calidad de la salida depende de la calidad del archivo de audio de entrada. Los acentos de los hablantes, los ruidos de fondo, el cambio entre idiomas, el uso de idiomas fusionados (como el Spanglish) y varias personas hablando al mismo tiempo pueden afectar la calidad de la transcripción. Trabajamos constantemente para mejorar el rendimiento del servicio y proporcionar transcripciones más precisas para todos los tipos de entrada y hablantes.

¿Puede OCI Speech detectar automáticamente el idioma en el archivo?

Actualmente no (pero pronto).

¿Qué formatos de archivo de entrada admiten?

Admitimos archivos de audio WAV de PCM de 16 bits y un solo canal con una frecuencia de muestreo de 16 kHz. Recomendamos Audacity (interfaz gráfica) o ffmpeg (línea de comandos) para la transcodificación de audio. Pronto se agregarán más formatos de audio.

¿Qué formatos de salida son compatibles?

Admitimos JSON (como formato predeterminado) y SRT (como opción sin costos adicionales).

Facturación y precios

¿Cómo se me cobrará?

Utilizamos facturación precisa, lo que significa que te cobramos USD 0,50 por cada hora de transcripción, pero utilizamos segundos para medir el uso agregado. Por ejemplo, si cargaste tres archivos con las siguientes duraciones: 3600 segundos, 4575 segundos y 1421 segundos, tu factura mensual se calculará sumando tus segundos (9596) divididos por 3600 (la cantidad de segundos en una hora), multiplicado por USD 0,50. En otras palabras, se te cobrarán USD 1332 o 9596/3600 x USD 0,50 = USD 1332.

¿Cuál es la métrica facturable para OCI Speech?

Nuestro métrica facturable se denomina "hora de transcripción". La hora de transcripción mide el número de horas de audio transcritas durante un mes determinado del servicio.

¿Existen cargos por configuración o compromisos mínimos de servicio con Speech?

No. OCI Speech no tiene cargos de configuración ni compromisos mínimos de servicio. Y no se requiere hardware.

¿Ofrecen horas gratuitas para probar el servicio?

Sí. Ofrecemos cinco horas de transcripción gratuita cada mes por arrendamiento.

¿Cobran más por puntuación o por SRT?

La puntuación es un servicio gratuito al igual que SRT. El almacenamiento de archivos SRT puede aumentar tu tarifa de almacenamiento.

Otras preguntas técnicas

¿Qué dispositivos admitirá OCI Speech?

Speech funciona con cualquier dispositivo de grabación y no está específico para dispositivos.

Mi archivo no es un archivo WAV. ¿Cómo debo convertir mi archivo a WAV?

Recomendamos utilizar la utilidad ffmpeg con el siguiente comando: ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Obtengo el siguiente mensaje de error: Either the bucket named “undefined” does not exist in the namespace <namespace> or you are not authorized to access it. ¿Cómo puedo solucionarlo?

Consulta la Configuración de políticas de Speech.