OCI Speech es un servicio que utiliza reconocimiento automático de voz (ASR) para convertir el habla en texto. El servicio permite a los desarrolladores, unidades de negocio, proveedores de contenido, aficionados y otros usuarios transcribir archivos de audio. Con OCI Speech, los usuarios pueden transcribir llamadas de centros de llamadas o reuniones, generar subtítulos cerrados e indexar y buscar contenido de audio y video.
Deberías usar OCI Speech si necesitas un servicio de transcripción rápido, preciso y con marca de tiempo. Si estás utilizando OCI para almacenar tus archivos de audio, también disfrutarás de latencias más bajas y sin costos de red asociados a la transcripción.
Comienza aquí para crear tu primera transcripción, o lee más sobre el servicio aquí.
Actualmente admitimos la transcripción asincrónica basada en archivos. No ofrecemos transcripción en tiempo real en este momento.
La transcripción cuenta con modelos preentrenados para los siguientes idiomas: inglés, español y portugués.
No. Solo transcribimos tu contenido y no guardamos ninguna información del archivo.
Al igual que cualquier otro servicio de transcripción, la calidad de la salida depende de la calidad del archivo de audio de entrada. Los acentos de los hablantes, los ruidos de fondo, el cambio entre idiomas, el uso de idiomas fusionados (como el Spanglish) y varias personas hablando al mismo tiempo pueden afectar la calidad de la transcripción. Trabajamos constantemente para mejorar el rendimiento del servicio y proporcionar transcripciones más precisas para todos los tipos de entrada y hablantes.
Actualmente no (pero pronto).
Admitimos archivos de audio WAV de PCM de 16 bits y un solo canal con una frecuencia de muestreo de 16 kHz. Recomendamos Audacity (interfaz gráfica) o ffmpeg (línea de comandos) para la transcodificación de audio. Pronto se agregarán más formatos de audio.
Admitimos JSON (como formato predeterminado) y SRT (como opción sin costos adicionales).
Utilizamos facturación precisa, lo que significa que te cobramos USD 0,50 por cada hora de transcripción, pero utilizamos segundos para medir el uso agregado. Por ejemplo, si cargaste tres archivos con las siguientes duraciones: 3600 segundos, 4575 segundos y 1421 segundos, tu factura mensual se calculará sumando tus segundos (9596) divididos por 3600 (la cantidad de segundos en una hora), multiplicado por USD 0,50. En otras palabras, se te cobrarán USD 1332 o 9596/3600 x USD 0,50 = USD 1332.
Nuestro métrica facturable se denomina "hora de transcripción". La hora de transcripción mide el número de horas de audio transcritas durante un mes determinado del servicio.
No. OCI Speech no tiene cargos de configuración ni compromisos mínimos de servicio. Y no se requiere hardware.
Sí. Ofrecemos cinco horas de transcripción gratuita cada mes por arrendamiento.
La puntuación es un servicio gratuito al igual que SRT. El almacenamiento de archivos SRT puede aumentar tu tarifa de almacenamiento.
Speech funciona con cualquier dispositivo de grabación y no está específico para dispositivos.
Recomendamos utilizar la utilidad ffmpeg con el siguiente comando: ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.
Consulta la Configuración de políticas de Speech.