Преобразование речи в текст с помощью ИИ. Часто задаваемые вопросы

Общие вопросы

Что представляет собой Oracle Cloud Infrastructure Speech?

OCI Speech — это сервис, который использует технологию автоматического распознавания речи Automatic Speech Recognition (ASR) для преобразования ее в текст. Сервис позволяет разработчикам, бизнес-единицам, поставщикам контента, ремонтникам и другим пользователям транскрибировать аудиофайлы. С помощью OCI Speech можно расшифровывать звонки и конференции в колл-центрах, создавать субтитры, а также индексировать аудио- и видеоматериалы, чтобы в дальнейшем выполнять по ним поиск.

Для чего используется OCI Speech?

OCI Speech можно использовать для быстрого и точного транскрибирования речи с расстановкой тайм-кодов. Если для хранения аудиофайлов Вы используете OCI, Вам доступны преимущества малой задержки и бесплатного сетевого трафика, связанного с операциями транскрибирования.

Как начать работу с OCI Speech?

Создайте свою первую транскрипцию здесь или подробнее ознакомьтесь с сервисом здесь.

Возможности

Какие сервисы транскрибирования поддерживаются?

В настоящее время мы поддерживаем технологию асинхронного транскрибирования на основе файлов. На данный момент транскрибирование в режиме реального времени не поддерживается.

Какие языки можно выбрать?

Функция транскрибирования содержит предварительно обученные модели для следующих языков: английский, испанский и португальский.

Использует ли сервис OCI мои транскрибированные файлы для улучшения функций (или в других целях)?

Нет. Мы только обеспечиваем транскрибирование Ваших материалов, не сохраняя данные из файла.

Что еще важно знать о сервисе?

Как и в случае с любым другим сервисом транскрибирования, качество результата зависит от исходного аудиофайла. Акцент говорящего, фоновый шум, переход на другой язык, использование смешанных языков (например, «спанглиша») и одновременная речь нескольких людей могут снизить качество транскрипции. Мы постоянно работаем над совершенствованием эффективности сервиса, чтобы предоставлять более точные транскрипции для любых исходных материалов и особенностей говорящего.

Может ли сервис OCI Speech автоматически определять язык файла?

В данный момент нет, но мы скоро это исправим.

Какие форматы файлов исходных данных поддерживаются?

Сервис поддерживает одноканальные файлы ИКМ в формате WAV с частотой дискретизации 16 кГц и 16-битным разрешением. Для транскодирования аудио мы рекомендуем воспользоваться Audacity (графический интерфейс пользователя) или ffmpeg (командная строка). Вскоре будут добавлены и другие форматы аудио.

Какие параметры вывода поддерживаются?

Наш сервис поддерживает JSON (по умолчанию) и SRT (как бесплатную дополнительную возможность).

Ценообразование и выставление счетов

Как оплатить сервис?

Мы применяем подход точного расчета оплаты: сбор составляет 0,50 доллара США за каждый час транскрибирования, но общий объем использования измеряется посекундно. Например, Вы загрузили три файла следующей длительности: 3600 секунд, 4575 секунд и 1421 секунда. Счет будет выставлен следующим образом: сумма секунд (9596) делится на 3600 (количество секунд в каждом часе) и затем умножается на 0,50 доллара США. Иными словами, Вы заплатите 1332 $, т. е. 9596/3600 x 0,50 $ = 1332 $.

Что представляет собой метрика оплаты для OCI Speech?

Мы назвали нашу метрику оплаты «час транскрибирования». Час транскрибирования — это количество часов аудиоматериала, транскрибированных за данный месяц использования сервиса.

Применяются ли минимальные взносы или сборы за начало использования Speech?

Нет. Для OCI Speech не предусмотрены минимальные взносы или сборы за начало использования. Специальное оборудование не требуется.

Предлагаются ли бесплатные часы использования, которые позволят протестировать возможности сервиса?

Да. Ежемесячно мы предоставляем пять часов бесплатного транскрибирования на одного пользователя.

Взимается ли дополнительная плата за расстановку знаков препинания или формат SRT?

Расстановка знаков препинания и формат SRT предоставляются бесплатно. Хранение SRT-файлов может увеличить плату за хранение.

Прочие технические вопросы

Какие устройства поддерживают OCI Speech?

Speech работает с любым записывающим устройством, этот сервис не имеет особых требований к оборудованию.

Формат моего файла отличается от WAV. Как преобразовать его в WAV?

Мы рекомендуем утилиту ffmpeg, введите следующую команду: ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Я получаю следующее сообщение об ошибке: «Категория "Не определено" не существует в пространстве имен <namespace>, или у Вас нет права доступа к ней». Как исправить эту ошибку?

См. раздел Настройка политики использования Speech.