Speech to text (STT) and text to speech (TTS)

OCI Speech is an AI service that both transcribes speech to text and synthesizes speech from text. Get accurate, text-normalized, time-stamped transcriptions and synthetized voice via the OCI Console, OCI Data Science notebooks, and REST APIs, as well as CLIs or SDKs.

OCI Speech-Funktionen

Vorkonfigurierte akustische und sprachliche Modelle

OCI Speech verwendet die automatische Spracherkennung, einen Deep Learning-Prozess, um eine genaue Transkription aus natürlichen Unterhaltungen abzuleiten. Einfacher Einstieg durch die Verwendung vordefinierter akustischer und sprachlicher Modelle, die keine Data Science-Erfahrung erfordern.

Analysieren von Daten aus Audio- und Videodateien

Suchen, Indexieren und Entschlüsseln von in Ihren Audiodateien versteckten Daten. Konvertieren aufgezeichneter Audiounterhaltungen in Textdaten zur Analyse mit KI-Services. Beispiel: Mit OCI Language können Sie die Funktionen zur Erkennung von Sentimenten und Anomalien bei OCI Speech abrufen, um die Risiken einer Kundenabwanderung zu identifizieren.

Echtzeit-Transkription

Die nun in begrenzter Verfügbarkeit erhältliche Echtzeit-Transkriptionsfunktion von OCI Speech ermöglicht es Ihnen, Audiostreams zu senden und innerhalb von Sekunden eine genaue Transkription zu erhalten.

Neuronales Text-to-Speech (TTS)

Die Text-to-Speech-Funktion in OCI Speech ist jetzt in begrenzter Verfügbarkeit erhältlich und ermöglicht es Entwicklern, aus Text in verschiedenen Anwendungen eine menschenähnliche Sprache zu synthetisieren. Ermöglichen Sie Gespräche mit Kunden, übersetzen Sie mehrere Sprachen per Spracherkennung, verbessern Sie die Barrierefreiheit und führen Sie weitere Aufgaben aus.

Nativer mehrsprachiger Support

OCI Speech ASR-Modelle unterstützen Englisch, Spanisch und Portugiesisch, sodass Sie Ihre Audiodateien in Ihren bevorzugten Sprachen transkribieren können.

Diarisierung für mehr Lesbarkeit und Verständnis

OCI Speech unterstützt die Diarisierung zum Organisieren, Analysieren und Extrahieren aussagekräftiger Informationen aus gesprochenen Interaktionen.


Integrierter Transkriptions-Service

Schaffen Sie die Abhängigkeit von Transkriptionsangeboten von Drittanbietern ab und üben Sie mehr Kontrolle über Ihre Daten durch End-to-End-Sicherheit und -Compliance aus.

Einfach zu integrieren

OCI Speech ist ein vielseitiger Service, der über REST-APIs, verschiedene SDKs und die Oracle CLI aufgerufen werden kann. Entwickler können einfach einen skalierbaren Sprachservice bereitstellen, ohne Data Science oder ML-Kenntnisse besitzen zu müssen.

Speziell entwickelt für Sicherheit und Datenschutz

Oracle Cloud Infrastructure Speech schützt die Privatsphäre unserer Kunden. Vordefinierte automatische Spracherkennungsmodelle übertragen Ihre Inhalte, speichern jedoch keine Daten für Schulungen, Debugging oder andere Zwecke.


Integrierter Transkriptions-Service

OCI Speech verwendet proprietäre Modelle und Architektur, die eine schnelle Konvertierung von Sprache in Text ermöglichen.

Konfidenzscore pro Wort

Wir haben einen Konfidenzscore auf Wortebene hinzugefügt, um Wörter zu identifizieren, die möglicherweise falsch transkribiert wurden. Mit dem Wortkonfidenzscore können Sie bestimmen, wo beim Erstellen einer Anwendung der Fokus liegt.

Obszönitätsfilter

Wir haben eine vorkonfigurierte Wortfilterung mit einer kuratierten Liste von Obszönitäten hinzugefügt. Sie können Obszönitäten maskieren, entfernen oder taggen.


Unsere Echtzeit-Spracherkennung sorgt dafür, dass Ihre Worte genau transkribiert werden, während Sie ganz natürlich sprechen, und ermöglicht so eine nahtlose und unterbrechungsfreie Kommunikation.
Michael Zhang, Senior Principal Product Manager, Oracle

Anwendungsfälle für OCI Speech

Inhaltssuche und Untertitel in den digitalen Medien

Automatische Bereitstellung von Untertiteln während des Workflows auf der OCI-Plattform für alle Inhalte, die von digitalen Mediendiensten erstellt und kuratiert werden. Indexieren Ihrer Inhalte mit OCI Speech, um Ihre Inhalte problemlos zu durchsuchen.

Kundenfeedback und Anrufanalyse

Transkribieren Sie Kundenanrufe, um Informationen leichter suchen und abrufen zu können. Verwenden Sie OCI Language, um die Stimmung zu erkennen sowie Kundenabwanderung und Schulungsmöglichkeiten für Mitarbeiter zu ermitteln.

Medizinisches Diktat

Durch die Echtzeit-Transkription können Ärzte und Krankenschwestern Patientendaten unterwegs erfassen, was zu einer höheren Effizienz und besseren Behandlungsergebnissen führt.

Verbesserte Barrierefreiheit

Neuronale Text-to-Speech-Technologie bietet eine menschliche Stimme mit hoher Genauigkeit und Intonation und damit mehr Optionen für barrierefreie Funktionen.

OCI Speech-Ressourcen

Erste Schritte mit OCI Speech


Oracle Cloud Free Tier

Erstellen, testen und implementieren Sie Anwendungen in Oracle Cloud – und das kostenlos.


Häufig gestellte Fragen

Antworten auf alle Ihre Fragen zu OCI Speech.