OCI Speech est un service qui utilise la reconnaissance automatique de la parole (ASR, Automatic speech recognition) pour convertir la parole en texte. Ce service permet aux développeurs, aux unités opérationnelles, aux fournisseurs de contenu, aux amateurs et aux autres utilisateurs de retranscrire des fichiers audio. Avec OCI Speech, les utilisateurs peuvent retranscrire des appels ou des réunions des centre d'appels, générer des sous-titres codés et indexer et rechercher du contenu audio et vidéo.
Vous devez utiliser OCI Speech si vous avez besoin d'un service de retranscription rapide, précis et horodaté. Si vous utilisez OCI pour stocker vos fichiers audio, vous bénéficierez également de latences plus faibles et d'aucun coût réseau associé à la retranscription.
Commencez ici à créer votre première transcription ou cliquez ici pour en savoir plus sur le service.
Nous prenons actuellement en charge la retranscription asynchrone basée sur des fichiers. Nous n'offrons pas de retranscription en temps réel pour le moment.
La retranscription est livrée avec des modèles préentraînés pour les langues suivantes : anglais, espagnol et portugais.
Non, nous ne retranscrivons que votre contenu et ne conservons aucune information du fichier.
Comme tout autre service de retranscription, la qualité de la sortie dépend de la qualité du fichier audio d'entrée. Les accents des intervenants, les bruits de fond, le passage d'une langue à l'autre, l'utilisation de langues fusionnées (tels que le Franglais) et plusieurs personnes parlant simultanément peuvent avoir des conséquences sur la qualité de la retranscription. Nous travaillons constamment à l'amélioration des performances du service afin de fournir des retranscriptions plus précises pour toutes les entrées et tous les intervenants.
Pas actuellement (mais bientôt).
Nous prenons en charge les fichiers audio PCM WAV à canal unique et 16 bits avec une fréquence d'échantillonnage de 16 kHz. Nous vous recommandons Audacity (GUI) ou ffmpeg (ligne de commande) pour le transcodage audio. D'autres formats audio seront bientôt disponibles.
Nous prenons en charge JSON (comme valeur par défaut) et SRT (comme option sans frais supplémentaires).
Nous utilisons une facturation de précision, ce qui signifie que nous vous facturons 0,50 USD pour chaque heure de retranscription, mais nous utilisons des secondes pour mesurer l'utilisation agrégée. Par exemple, si vous avez chargé trois fichiers avec les durées suivantes : 3 600 secondes, 4 575 secondes et 1 421 secondes, votre facture mensuelle sera calculée en divisant la somme de vos secondes (9 596) par 3 600 (nombre de secondes en une heure), multipliée par 0,50 USD. En d'autres termes, vous serez facturé 1 332 USD ou 9 596/3 600 USD x 0,50 USD = 1 332 USD.
Nous avons nommé notre mesure facturable « heure de retranscription ». L'heure de retranscription mesure le nombre d'heures audio retranscrites pendant un mois donné du service.
Non, OCI Speech ne demande pas de frais d'installation ni d'engagement de service minimum. De plus, aucun matériel n'est requis.
Oui. Nous offrons cinq heures de retranscription gratuite par mois et par location.
La ponctuation est un service gratuit comme le SRT. Le stockage des fichiers SRT peut augmenter vos frais de stockage.
La reconnaissance vocale fonctionne avec n'importe quel périphérique d'enregistrement et n'est pas spécifique au périphérique.
Nous vous recommandons d'utiliser l'utilitaire ffmpeg avec la commande suivante : ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.
Reportez-vous à la section Speech Policy Setup.