Транскрибирование речи в текст (STT) и синтез речи из текста (TTS)

OCI Speech — это сервис на базе ИИ, который транскрибирует речь в текст и синтезирует речь из текста. Получайте точные расшифровки аудио с нормализацией текста и простановкой тайм-кодов или синтезируйте речь через консоль OCI и API REST, блокноты OCI Data Science, а также через интерфейсы командной строки или SDK.

Возможности OCI Speech

Готовые акустические и языковые модели

OCI Speech использует автоматическое распознавание речи — процесс глубокого обучения, который обеспечивает точную транскрипцию живой речи. Благодаря готовым акустическим и языковым моделям начать работу очень просто, даже не имея опыта в сфере обработки данных.

Анализ данных из аудио- и видеофайлов

Поиск, индексация и дешифровка данных, которые содержатся в ваших аудиофайлах. Преобразование аудиозаписей диалогов в текст для анализа с помощью сервисов искусственного интеллекта. Например, можно использовать OCI Language для анализа тональности текста, а возможности OCI Speech по выявлению отклонений — для прогнозирования оттока клиентов.

Транскрибирование в реальном времени

Функция транскрибирования в реальном времени, в настоящее время доступная ограниченному кругу пользователей, позволяет отправлять аудиопотоки и получать точные расшифровки в считаные секунды.

Синтез речи на основе нейронных сетей (TTS)

Функция синтеза речи в OCI Speech, в настоящее время доступная ограниченному кругу пользователей, позволяет синтезировать приближенную к естественной речь из текста в самых разных приложениях. Это делает возможными разговоры с клиентами, устный перевод на множество языков, а также позволяет повысить доступность продуктов для людей с ограниченными возможностями здоровья. На ваш выбор предлагаются различные голоса для улучшения взаимодействий.

Нативная поддержка нескольких языков

Модели ASR OCI Speech поддерживают английский, испанский, итальянский, немецкий, португальский, французский языки и хинди, так что вы можете транскрибировать аудиозаписи на нужном языке. Кроме того, OCI Speech может работать с моделью OpenAI Whisper, которая в стандартной конфигурации поддерживает более 57 языков. Узнайте больше об OCI и модели Whisper.

Диаризация для повышения удобства чтения и понимания

OCI Speech поддерживает диаризацию для упорядочения, анализа и извлечения значимой информации из речи нескольких говорящих.


Встроенный сервис транскрибирования

Откажитесь от использования сторонних предложений по транскрипции и улучшите контроль над своими данными, укрепив защиту и соблюдая нормативные требования.

Простая интеграция

OCI Speech — это универсальный сервис, который можно вызывать с помощью REST API, различных SDK и Oracle CLI. Разработчики могут без труда развернуть масштабируемый сервис распознавания речи, не имея опыта в области data science или машинного обучения.

Разработано с учетом требований к безопасности и конфиденциальности

Oracle Cloud Infrastructure Speech обеспечивает конфиденциальность данных заказчика. Готовые модели автоматического распознавания речи транскрибируют ваш контент, но не сохраняют никакие данные для обучения, отладки или иных целей.


Встроенный сервис транскрибирования

OCI Speech использует собственные модели и инфраструктуру, которые позволяют быстро преобразовывать речь в текст.

Оценка достоверности для слов

Мы добавили оценку достоверности на уровне слова, чтобы вам было проще обнаружить слова, которые могли быть затранскрибированы с ошибками. Используйте оценку достоверности на уровне слов, чтобы определить, на что обратить особое внимание при создании приложения.

Фильтры нецензурной лексики

Мы добавили готовый фильтр, который использует подготовленный список нецензурной лексики. Нецензурные слова можно скрыть, удалить или отметить тегом.


27 апреля 2022 г.

В OCI Speech теперь доступны пунктуация, субтитры и модели для частоты дискретизации 8 кГц.

Гай Микаэли (Guy Michaeli), старший менеджер по продуктам,

Сегодня мы с радостью представляем вам три новые возможности, которые теперь доступны в сервисе Speech без дополнительной платы. Это встроенная поддержка аудиофайлов с частотой дискретизации 8 кГц, поддержка вывода в формат SRT (формат субтитров) и автоматическая расстановка знаков препинания в полученном тексте. Эти новые функции теперь доступны во всех регионах коммерческого распространения OCI. Мы подготовили это обновление в рамках непрекращающейся работы по созданию доступного сервиса высококачественного транскрибирования.

Читать статью полностью

Примеры использования OCI Speech

  • Анализ отзывов заказчиков

  • Поиск содержимого цифровых мультимедийных материалов и субтитры

    Автоматически предоставляйте субтитры в рабочих процессах на платформе OCI для всего содержимого, созданного и отбираемого сервисом цифровых мультимедийных материалов. Индексируйте контент с помощью OCI Speech, чтобы было удобнее и проще искать содержимое.

  • Центры обработки звонков, анализ вызовов

    OCI Speech может транскрибировать вызовы заказчиков, чтобы было легко выполнять поиск и извлекать нужную информацию. OCI Language и Anomaly Detection вместе позволяют определять настроение, прогнозировать отток заказчиков и выявлять возможности для обучения персонала.

Ресурсы OCI Speech

Начало работы с OCI Speech


Oracle Cloud Free Tier

Создавайте, тестируйте и разворачивайте приложения в Oracle Cloud бесплатно.