Häufig gestellte Fragen zu AI Speech to Text


Allgemeines

Was ist Oracle Cloud Infrastructure Speech?

OCI Speech ist ein KI-Dienst, der sowohl Sprache in Text transkribiert als auch Sprache aus Text synthetisiert. Der Service verwendet eine automatische Spracherkennungstechnologie, um Audioinhalte in Echtzeit oder asynchron in Text umzuwandeln. Die auf neuronalen Netzen basierende Text-to-Speech-Funktion erzeugt eine natürlich klingende Stimme auf der Grundlage Ihres eingegebenen Textes. Sie können ganz einfach API-Aufrufe tätigen, um die vorab trainierten Modelle von OCI Speech in ihre Anwendungen zu integrieren. OCI Speech kann für eine genaue, textnormierte, mit Zeitstempeln versehene Transkription oder synthetische Stimme über die Konsole und REST-APIs sowie CLIs oder SDKs verwendet werden. Sie können OCI Speech auch in einer OCI Data Science-Notebook-Session verwenden. Mit OCI Speech können Sie Obszönitäten filtern, Konfidenzscores für einzelne Wörter und vollständige Transkriptionen usw. abrufen.

Warum sollte ich OCI Speech verwenden?

Sie sollten OCI Speech verwenden, wenn Sie einen schnellen, präzisen und mit Zeitstempel versehenen Transkriptionsdienst benötigen. Wenn Sie OCI zum Speichern Ihrer Audiodateien verwenden, können Sie außerdem von geringeren Latenzen und dem Wegfall von Netzwerkkosten im Zusammenhang mit der Transkription profitieren. Die neuesten Text-to-Speech- und Echtzeit-Speech-to-Text-Funktionen, die jetzt begrenzt verfügbar sind, bieten zusätzliche Möglichkeiten zur Integration in Ihre Anwendung.

Wie sehen die ersten Schritte mit OCI Speech aus?

Melden Sie sich an, um Ihre erste Transkription zu erstellen oder um mehr über den Service zu lesen.

Features

Welche Transkriptionsdienste unterstützen Sie?

Wir unterstützen derzeit die asynchrone Transkription auf Dateibasis. Die Echtzeit-Transkription ist derzeit nur eingeschränkt verfügbar.

Welche Sprachen werden derzeit unterstützt?

Die Transkription wird mit vorab trainierten Modellen für die folgenden Sprachen geliefert: Englisch, Spanisch, Portugiesisch, Deutsch, Französisch, Italienisch und Hindi. Wir unterstützen außerdem das OpenAI Whisper-Modell für die asynchrone dateibasierte Transkription mit mehr als 57 Sprachen, die standardmäßig unterstützt werden.

Werden die von OCI transkribierten Dateien verwendet, um den Service zu verbessern (oder anderweitig)?

Nein. Wir transkribieren Ihre Inhalte nur und behalten keine Informationen aus der Datei.

Was sollte ich sonst noch über den Service wissen?

Wie bei jedem anderen Transkriptionsservice hängt die Qualität des Ergebnisses von der Qualität der eingegebenen Audiodatei ab. Die Akzente der Sprecher, Hintergrundgeräusche, der Wechsel zwischen Sprachen, die Verwendung von Fusionssprachen (wie Spanglish) und das gleichzeitige Sprechen mehrerer Personen können die Qualität der Transkription beeinträchtigen. Wir arbeiten ständig daran, die Leistung des Dienstes zu verbessern, um genauere Transkriptionen für alle Eingaben und Sprecher zu ermöglichen.

Kann OCI Speech die Sprache in der Datei automatisch erkennen?

Derzeit nicht, aber diese Funktion wird bald verfügbar sein.

Welche Eingabedateiformate werden unterstützt?

Wir unterstützen einkanalige 16-Bit-PCM-WAV-Audiodateien mit einer Abtastrate von 16 kHz. Außerdem unterstützen wir die folgenden Medienformate und konvertieren sie vor der Transkription in PCM WAV:

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM

Sie können Ihre Dateien auch vor dem Einreichen von Aufträgen konvertieren, um die Latenz zu verringern. Wir empfehlen Audacity (GUI) oder FFmpeg (Befehlszeile) für die Audiotranscodierung.

Welche Ausgabeformate unterstützen Sie?

Wir unterstützen JSON als Standard und SRT als Option ohne zusätzliche Kosten.

Abrechnung und Preisgestaltung

Wie erfolgt die Abrechnung?

Wir verwenden eine präzise Abrechnung, d. h. wir berechnen Ihnen 0,50 $ für jede Stunde Transkription oder Sprachsynthese, doch wir verwenden Sekunden, um die Gesamtnutzung zu messen. Wenn Sie beispielsweise drei Dateien mit einer jeweiligen Dauer von 10.860, 8.575 und 9.421 Sekunden hochladen, wird Ihre monatliche Rechnung anhand der Summe Ihrer Sekunden (28.856) geteilt durch 3.600 (die Anzahl der Sekunden in einer Stunde) und minus 5 (die Anzahl der kostenlosen Stunden pro Monat), multipliziert mit 0,50 $, berechnet. Anders ausgedrückt werden Ihnen 1,508 $ oder (28.856/3.600 - 5) x 0,50 $ = 1,508 $ berechnet.

Was ist die abrechenbare Metrik für OCI Speech?

Unsere abrechnungsfähige Messgröße ist die Transkriptionsstunde. Die Transkriptionsstunde misst die Anzahl der Audiostunden, die während eines bestimmten Monats des Dienstes transkribiert oder synthetisiert wurden.

Gibt es bei OCI Speech Einrichtungsgebühren oder Mindestserviceverpflichtungen?

Nein. OCI Speech hat keine Einrichtungsgebühren oder Mindestserviceverpflichtungen und erfordert keine Hardware.

Bieten Sie kostenlose Teststunden an, um den Dienst auszuprobieren?

Ja. Pro Monat und Tenancy bieten wir fünf Stunden kostenlose Transkription an.

Berechnen Sie mehr für Interpunktion oder SRT?

Interpunktion ist genau wie SRT kostenlos inkludiert. Das Speichern von SRT-Dateien kann Ihre Speichergebühr erhöhen.

Sonstige technische Fragen

Welche Geräte werden von OCI Speech unterstützt?

OCI Speech funktioniert mit jedem Aufnahmegerät und ist nicht gerätespezifisch.

Meine Datei ist keine WAV-Datei. Wie konvertiere ich meine Datei in WAV?

Wir empfehlen die Verwendung des FFmpeg-Dienstprogramms mit dem folgenden Befehl: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Ich erhalte die folgende Fehlermeldung: „Entweder existiert der Bucket mit dem Namen „undefined“ nicht im Namespace <namespace> oder Sie sind nicht berechtigt, darauf zuzugreifen.“ Wie kann ich diese beheben?

Siehe Dokumentation zur Einrichtung der Rednerrichtlinien.