OCI Speech — это сервис, который использует технологию автоматического распознавания речи Automatic Speech Recognition (ASR) для преобразования ее в текст. Сервис позволяет разработчикам, бизнес-единицам, поставщикам контента, ремонтникам и другим пользователям транскрибировать аудиофайлы. С помощью OCI Speech можно расшифровывать звонки и конференции в колл-центрах, создавать субтитры, а также индексировать аудио- и видеоматериалы, чтобы в дальнейшем выполнять по ним поиск.
OCI Speech можно использовать для быстрого и точного транскрибирования речи с расстановкой тайм-кодов. Если для хранения аудиофайлов Вы используете OCI, Вам доступны преимущества малой задержки и бесплатного сетевого трафика, связанного с операциями транскрибирования.
Создайте свою первую транскрипцию здесь или подробнее ознакомьтесь с сервисом здесь.
В настоящее время мы поддерживаем технологию асинхронного транскрибирования на основе файлов. На данный момент транскрибирование в режиме реального времени не поддерживается.
Функция транскрибирования содержит предварительно обученные модели для следующих языков: английский, испанский и португальский.
Нет. Мы только обеспечиваем транскрибирование Ваших материалов, не сохраняя данные из файла.
Как и в случае с любым другим сервисом транскрибирования, качество результата зависит от исходного аудиофайла. Акцент говорящего, фоновый шум, переход на другой язык, использование смешанных языков (например, «спанглиша») и одновременная речь нескольких людей могут снизить качество транскрипции. Мы постоянно работаем над совершенствованием эффективности сервиса, чтобы предоставлять более точные транскрипции для любых исходных материалов и особенностей говорящего.
В данный момент нет, но мы скоро это исправим.
Сервис поддерживает одноканальные файлы ИКМ в формате WAV с частотой дискретизации 16 кГц и 16-битным разрешением. Для транскодирования аудио мы рекомендуем воспользоваться Audacity (графический интерфейс пользователя) или ffmpeg (командная строка). Вскоре будут добавлены и другие форматы аудио.
Наш сервис поддерживает JSON (по умолчанию) и SRT (как бесплатную дополнительную возможность).
Мы применяем подход точного расчета оплаты: сбор составляет 0,50 доллара США за каждый час транскрибирования, но общий объем использования измеряется посекундно. Например, Вы загрузили три файла следующей длительности: 3600 секунд, 4575 секунд и 1421 секунда. Счет будет выставлен следующим образом: сумма секунд (9596) делится на 3600 (количество секунд в каждом часе) и затем умножается на 0,50 доллара США. Иными словами, Вы заплатите 1332 $, т. е. 9596/3600 x 0,50 $ = 1332 $.
Мы назвали нашу метрику оплаты «час транскрибирования». Час транскрибирования — это количество часов аудиоматериала, транскрибированных за данный месяц использования сервиса.
Нет. Для OCI Speech не предусмотрены минимальные взносы или сборы за начало использования. Специальное оборудование не требуется.
Да. Ежемесячно мы предоставляем пять часов бесплатного транскрибирования на одного пользователя.
Расстановка знаков препинания и формат SRT предоставляются бесплатно. Хранение SRT-файлов может увеличить плату за хранение.
Speech работает с любым записывающим устройством, этот сервис не имеет особых требований к оборудованию.
Мы рекомендуем утилиту ffmpeg, введите следующую команду: ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.
См. раздел Настройка политики использования Speech.