AI Speech to Text FAQ


Généralités

Qu'est-ce qu'Oracle Cloud Infrastructure Speech ?

OCI Speech est un service qui utilise la reconnaissance automatique de la parole (ASR, Automatic speech recognition) pour convertir la parole en texte. Ce service permet aux développeurs, aux unités opérationnelles, aux fournisseurs de contenu, aux amateurs et aux autres utilisateurs de retranscrire des fichiers audio. Avec OCI Speech, les utilisateurs peuvent retranscrire des appels ou des réunions des centre d'appels, générer des sous-titres codés et indexer et rechercher du contenu audio et vidéo.

Pourquoi utiliser OCI Speech ?

Vous devez utiliser OCI Speech si vous avez besoin d'un service de retranscription rapide, précis et horodaté. Si vous utilisez OCI pour stocker vos fichiers audio, vous bénéficierez également de latences plus faibles et d'aucun coût réseau associé à la retranscription.

Comment commencer avec OCI Speech ?

Commencez ici à créer votre première transcription ou cliquez ici pour en savoir plus sur le service.

Fonctionnalités

Quels services de retranscription prenez-vous en charge ?

Nous prenons actuellement en charge la retranscription asynchrone basée sur des fichiers. Nous n'offrons pas de retranscription en temps réel pour le moment.

Quelles sont les langues actuellement prises en charge ?

La retranscription est livrée avec des modèles préentraînés pour les langues suivantes : anglais, espagnol et portugais.

Les fichiers que j'ai retranscrits sont-ils utilisés par OCI pour améliorer le service (ou autre chose) ?

Non, nous ne retranscrivons que votre contenu et ne conservons aucune information du fichier.

Que dois-je savoir d'autre sur le service ?

Comme tout autre service de retranscription, la qualité de la sortie dépend de la qualité du fichier audio d'entrée. Les accents des intervenants, les bruits de fond, le passage d'une langue à l'autre, l'utilisation de langues fusionnées (tels que le Franglais) et plusieurs personnes parlant simultanément peuvent avoir des conséquences sur la qualité de la retranscription. Nous travaillons constamment à l'amélioration des performances du service afin de fournir des retranscriptions plus précises pour toutes les entrées et tous les intervenants.

OCI Speech peut-il détecter automatiquement la langue dans le fichier ?

Pas actuellement (mais bientôt).

Quels formats de fichier d'entrée prenez-vous en charge ?

Nous prenons en charge les fichiers audio PCM WAV à canal unique et 16 bits avec une fréquence d'échantillonnage de 16 kHz. Nous vous recommandons Audacity (GUI) ou ffmpeg (ligne de commande) pour le transcodage audio. D'autres formats audio seront bientôt disponibles.

Quels formats de sortie prenez-vous en charge ?

Nous prenons en charge JSON (comme valeur par défaut) et SRT (comme option sans frais supplémentaires).

Facturation et tarification

Comment serai-je facturé ?

Nous utilisons une facturation de précision, ce qui signifie que nous vous facturons 0,50 USD pour chaque heure de retranscription, mais nous utilisons des secondes pour mesurer l'utilisation agrégée. Par exemple, si vous avez chargé trois fichiers avec les durées suivantes : 3 600 secondes, 4 575 secondes et 1 421 secondes, votre facture mensuelle sera calculée en divisant la somme de vos secondes (9 596) par 3 600 (nombre de secondes en une heure), multipliée par 0,50 USD. En d'autres termes, vous serez facturé 1 332 USD ou 9 596/3 600 USD x 0,50 USD = 1 332 USD.

Quelle est la mesure facturable pour OCI Speech ?

Nous avons nommé notre mesure facturable « heure de retranscription ». L'heure de retranscription mesure le nombre d'heures audio retranscrites pendant un mois donné du service.

Y a-t-il des frais d’installation ou des engagements de service minimum avec Speech ?

Non, OCI Speech ne demande pas de frais d'installation ni d'engagement de service minimum. De plus, aucun matériel n'est requis.

Offrez-vous des heures gratuites pour essayer le service ?

Oui. Nous offrons cinq heures de retranscription gratuite par mois et par location.

Chargez-vous davantage pour la ponctuation ou le seuil de reconnaissance vocale (SRT) ?

La ponctuation est un service gratuit comme le SRT. Le stockage des fichiers SRT peut augmenter vos frais de stockage.

Autres questions techniques

Quels appareils seront pris en charge par OCI Speech ?

La reconnaissance vocale fonctionne avec n'importe quel périphérique d'enregistrement et n'est pas spécifique au périphérique.

Mon fichier n'est pas un fichier WAV. Comment convertir mon fichier en WAV ?

Nous vous recommandons d'utiliser l'utilitaire ffmpeg avec la commande suivante : ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Je reçois le message d'erreur suivant : « Le bucket nommé « undefined » n'existe pas dans l'espace de noms <namespace> ou vous n'êtes pas autorisé à y accéder. » Comment résoudre ce problème ?

Reportez-vous à la section Speech Policy Setup.