Преобразование речи в текст с помощью ИИ. Часто задаваемые вопросы


Общие вопросы

Что представляет собой Oracle Cloud Infrastructure Speech?

OCI Speech — это сервис на базе ИИ, который транскрибирует речь в текст и синтезирует речь из текста. Принцип его работы заключается в применении технологии автоматического распознавания речи для преобразования аудиоконтента в текст в режиме реального времени или асинхронно. Функция преобразования текста в речь, основанная на нейронной сети, генерирует естественно звучащую речь на основе вашего входного текста. Делая вызовы API, вы легко можете интегрировать предобученные модели OCI Speech в свои приложения. OCI Speech можно использовать для точной расшифровки аудио с нормализацией текста и простановкой тайм-кодов или для синтеза речи через консоль и API REST, а также через интерфейсы командной строки или SDK. OCI Speech можно также использовать в сеансе блокнота OCI Data Science. OCI Speech позволяет отфильтровывать нецензурную лексику, определять степень достоверности как для отдельных слов, так и для расшифровки в целом и т. д.

Для чего используется OCI Speech?

OCI Speech можно использовать для быстрого и точного транскрибирования речи с расстановкой тайм-кодов. Если для хранения аудиофайлов вы используете OCI, вы дополнительно получаете такие преимущества, как малая задержка и отсутствие затрат на сетевой трафик, связанный с операциями транскрибирования. Новейшие функции преобразования текста в речь и речи в текст в реальном времени, в настоящее время доступные ограниченному кругу пользователей, предоставляют дополнительные возможности для интеграции с вашим приложением.

Как начать работу с OCI Speech?

Чтобы начать, войдите в систему и создайте свою первую расшифровку или узнайте больше о сервисе.

Возможности

Какие сервисы транскрибирования поддерживаются?

В настоящее время мы поддерживаем технологию асинхронного транскрибирования на основе файлов. Транскрибирование в реальном времени в данный момент предлагается ограниченно.

Какие языки поддерживаются?

Мы предлагаем предобученные модели для транскрибирования на следующих языках: английском, испанском, итальянском, немецком, португальском, французском и хинди. Для асинхронного транскрибирования файлов также можно использовать модель OpenAI Whisper, которая в стандартной конфигурации поддерживает более 57 языков.

Использует ли сервис OCI мои транскрибированные файлы для улучшения функций (или в других целях)?

Нет. Мы только обеспечиваем транскрибирование Ваших материалов, не сохраняя данные из файла.

Что еще важно знать о сервисе?

Как и в случае с любым другим сервисом транскрибирования, качество результата зависит от качества входного аудиофайла. Акцент говорящего, фоновый шум, переход на другой язык, использование смешанных языков (например, «спанглиша») и одновременная речь нескольких людей могут снизить качество транскрибирования. Мы постоянно работаем над совершенствованием сервиса, чтобы предоставлять как можно более точные расшифровки независимо от входного материала и особенностей говорящего.

Может ли сервис OCI Speech автоматически определять язык файла?

В настоящее время нет, но эта возможность скоро появится.

Какие форматы файлов исходных данных поддерживаются?

Сервис поддерживает одноканальные файлы ИКМ в формате WAV с частотой дискретизации 16 кГц и 16-битным разрешением. Также поддерживаются следующие форматы, которые преобразуются в ИКМ/WAV перед транскрибированием:

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM

Также вы можете преобразовывать файлы перед их отправкой на транскрибирование, чтобы уменьшить задержку. Мы рекомендуем использовать для транскодирования аудио Audacity (графический интерфейс) или FFmpeg (командная строка).

Какие выходные форматы поддерживаются?

Сервис поддерживает JSON по умолчанию и SRT в качестве варианта (без дополнительной оплаты).

Цены и оплата

Как оплачивается пользование сервисом?

Мы используем точный биллинг: стоимость пользования сервисом составляет 0,50 доллара США за каждый час транскрибирования или синтеза речи, однако совокупное использование измеряется с точностью до секунды. Например, если вы загрузили три файла длительностью 10 860 секунд, 8575 секунд и 9421 секунда соответственно, сумма вашего счета за месяц будет рассчитана как сумма секунд (28 856), деленная на 3600 (количество секунд в часе) минус 5 (количество бесплатных часов в месяц), умноженная на 0,50 доллара США. Иными словами, вы заплатите 1,508 доллара США, или (28 856/3600 - 5) x 0,50 = 1,508.

Что является оплачиваемой метрикой при использовании OCI Speech?

Оплачиваемой метрикой является час транскрибирования. Часы транскрибирования — это количество часов аудиоматериала, транскрибированных или синтезированных в данном месяце пользования сервисом.

Есть ли какие-либо плата за настройку или минимальный объем использования OCI Speech?

Нет. Плата за настройку или минимальный объем использования OCI Speech не предусмотрены, и никакое оборудование не требуется.

Предлагаются ли бесплатные часы использования, которые позволят протестировать возможности сервиса?

Да. Ежемесячно мы предоставляем пять часов бесплатного транскрибирования на одного пользователя.

Взимается ли дополнительная плата за расстановку знаков препинания или формат SRT?

Расстановка знаков препинания и формат SRT предоставляются бесплатно. Хранение SRT-файлов может увеличить плату за хранение.

Прочие технические вопросы

Какие устройства поддерживают OCI Speech?

OCI Speech работает с любым записывающим устройством и не предъявляет никаких требований к оборудованию.

Формат моего файла отличается от WAV. Как преобразовать его в WAV?

Мы рекомендуем использовать утилиту FFmpeg. Введите следующую команду: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Я получаю следующее сообщение об ошибке: «Категория "Не определено" не существует в пространстве имен <namespace>, или у Вас нет права доступа к ней». Как исправить эту ошибку?

См. документацию по настройке политики использования Speech.