OCI Speech ist ein KI-Dienst, der sowohl Sprache in Text transkribiert als auch Sprache aus Text synthetisiert. Der Service verwendet eine automatische Spracherkennungstechnologie, um Audioinhalte in Echtzeit oder asynchron in Text umzuwandeln. Die auf neuronalen Netzen basierende Text-to-Speech-Funktion erzeugt eine natürlich klingende Stimme auf der Grundlage Ihres eingegebenen Textes. Sie können ganz einfach API-Aufrufe tätigen, um die vorab trainierten Modelle von OCI Speech in ihre Anwendungen zu integrieren. OCI Speech kann für eine genaue, textnormierte, mit Zeitstempeln versehene Transkription oder synthetische Stimme über die Konsole und REST-APIs sowie CLIs oder SDKs verwendet werden. Sie können OCI Speech auch in einer OCI Data Science-Notebook-Session verwenden. Mit OCI Speech können Sie Obszönitäten filtern, Konfidenzscores für einzelne Wörter und vollständige Transkriptionen usw. abrufen.
Sie sollten OCI Speech verwenden, wenn Sie einen schnellen, präzisen und mit Zeitstempel versehenen Transkriptionsdienst benötigen. Wenn Sie OCI zum Speichern Ihrer Audiodateien verwenden, können Sie außerdem von geringeren Latenzen und dem Wegfall von Netzwerkkosten im Zusammenhang mit der Transkription profitieren. Die neuesten Text-to-Speech- und Echtzeit-Speech-to-Text-Funktionen, die jetzt begrenzt verfügbar sind, bieten zusätzliche Möglichkeiten zur Integration in Ihre Anwendung.
Melden Sie sich an, um Ihre erste Transkription zu erstellen oder um mehr über den Service zu lesen.
Wir unterstützen derzeit die asynchrone Transkription auf Dateibasis. Die Echtzeit-Transkription ist derzeit nur eingeschränkt verfügbar.
Die Transkription wird mit vorab trainierten Modellen für die folgenden Sprachen geliefert: Englisch, Spanisch, Portugiesisch, Deutsch, Französisch, Italienisch und Hindi. Wir unterstützen außerdem das OpenAI Whisper-Modell für die asynchrone dateibasierte Transkription mit mehr als 57 Sprachen, die standardmäßig unterstützt werden.
Nein. Wir transkribieren Ihre Inhalte nur und behalten keine Informationen aus der Datei.
Wie bei jedem anderen Transkriptionsservice hängt die Qualität des Ergebnisses von der Qualität der eingegebenen Audiodatei ab. Die Akzente der Sprecher, Hintergrundgeräusche, der Wechsel zwischen Sprachen, die Verwendung von Fusionssprachen (wie Spanglish) und das gleichzeitige Sprechen mehrerer Personen können die Qualität der Transkription beeinträchtigen. Wir arbeiten ständig daran, die Leistung des Dienstes zu verbessern, um genauere Transkriptionen für alle Eingaben und Sprecher zu ermöglichen.
Derzeit nicht, aber diese Funktion wird bald verfügbar sein.
Wir unterstützen einkanalige 16-Bit-PCM-WAV-Audiodateien mit einer Abtastrate von 16 kHz. Außerdem unterstützen wir die folgenden Medienformate und konvertieren sie vor der Transkription in PCM WAV:
Sie können Ihre Dateien auch vor dem Einreichen von Aufträgen konvertieren, um die Latenz zu verringern. Wir empfehlen Audacity (GUI) oder FFmpeg (Befehlszeile) für die Audiotranscodierung.
Wir unterstützen JSON als Standard und SRT als Option ohne zusätzliche Kosten.
Wir verwenden eine präzise Abrechnung, d. h. wir berechnen Ihnen 0,50 $ für jede Stunde Transkription oder Sprachsynthese, doch wir verwenden Sekunden, um die Gesamtnutzung zu messen. Wenn Sie beispielsweise drei Dateien mit einer jeweiligen Dauer von 10.860, 8.575 und 9.421 Sekunden hochladen, wird Ihre monatliche Rechnung anhand der Summe Ihrer Sekunden (28.856) geteilt durch 3.600 (die Anzahl der Sekunden in einer Stunde) und minus 5 (die Anzahl der kostenlosen Stunden pro Monat), multipliziert mit 0,50 $, berechnet. Anders ausgedrückt werden Ihnen 1,508 $ oder (28.856/3.600 - 5) x 0,50 $ = 1,508 $ berechnet.
Unsere abrechnungsfähige Messgröße ist die Transkriptionsstunde. Die Transkriptionsstunde misst die Anzahl der Audiostunden, die während eines bestimmten Monats des Dienstes transkribiert oder synthetisiert wurden.
Nein. OCI Speech hat keine Einrichtungsgebühren oder Mindestserviceverpflichtungen und erfordert keine Hardware.
Ja. Pro Monat und Tenancy bieten wir fünf Stunden kostenlose Transkription an.
Interpunktion ist genau wie SRT kostenlos inkludiert. Das Speichern von SRT-Dateien kann Ihre Speichergebühr erhöhen.
OCI Speech funktioniert mit jedem Aufnahmegerät und ist nicht gerätespezifisch.
Wir empfehlen die Verwendung des FFmpeg-Dienstprogramms mit dem folgenden Befehl: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.