OCI Speech — это сервис на базе ИИ, который транскрибирует речь в текст и синтезирует речь из текста. Принцип его работы заключается в применении технологии автоматического распознавания речи для преобразования аудиоконтента в текст в режиме реального времени или асинхронно. Функция преобразования текста в речь, основанная на нейронной сети, генерирует естественно звучащую речь на основе вашего входного текста. Делая вызовы API, вы легко можете интегрировать предобученные модели OCI Speech в свои приложения. OCI Speech можно использовать для точной расшифровки аудио с нормализацией текста и простановкой тайм-кодов или для синтеза речи через консоль и API REST, а также через интерфейсы командной строки или SDK. OCI Speech можно также использовать в сеансе блокнота OCI Data Science. OCI Speech позволяет отфильтровывать нецензурную лексику, определять степень достоверности как для отдельных слов, так и для расшифровки в целом и т. д.
OCI Speech можно использовать для быстрого и точного транскрибирования речи с расстановкой тайм-кодов. Если для хранения аудиофайлов вы используете OCI, вы дополнительно получаете такие преимущества, как малая задержка и отсутствие затрат на сетевой трафик, связанный с операциями транскрибирования. Новейшие функции преобразования текста в речь и речи в текст в реальном времени, в настоящее время доступные ограниченному кругу пользователей, предоставляют дополнительные возможности для интеграции с вашим приложением.
Чтобы начать, войдите в систему и создайте свою первую расшифровку или узнайте больше о сервисе.
В настоящее время мы поддерживаем технологию асинхронного транскрибирования на основе файлов. Транскрибирование в реальном времени в данный момент предлагается ограниченно.
Мы предлагаем предобученные модели для транскрибирования на следующих языках: английском, испанском, итальянском, немецком, португальском, французском и хинди. Для асинхронного транскрибирования файлов также можно использовать модель OpenAI Whisper, которая в стандартной конфигурации поддерживает более 57 языков.
Нет. Мы только обеспечиваем транскрибирование Ваших материалов, не сохраняя данные из файла.
Как и в случае с любым другим сервисом транскрибирования, качество результата зависит от качества входного аудиофайла. Акцент говорящего, фоновый шум, переход на другой язык, использование смешанных языков (например, «спанглиша») и одновременная речь нескольких людей могут снизить качество транскрибирования. Мы постоянно работаем над совершенствованием сервиса, чтобы предоставлять как можно более точные расшифровки независимо от входного материала и особенностей говорящего.
В настоящее время нет, но эта возможность скоро появится.
Сервис поддерживает одноканальные файлы ИКМ в формате WAV с частотой дискретизации 16 кГц и 16-битным разрешением. Также поддерживаются следующие форматы, которые преобразуются в ИКМ/WAV перед транскрибированием:
Также вы можете преобразовывать файлы перед их отправкой на транскрибирование, чтобы уменьшить задержку. Мы рекомендуем использовать для транскодирования аудио Audacity (графический интерфейс) или FFmpeg (командная строка).
Сервис поддерживает JSON по умолчанию и SRT в качестве варианта (без дополнительной оплаты).
Мы используем точный биллинг: стоимость пользования сервисом составляет 0,50 доллара США за каждый час транскрибирования или синтеза речи, однако совокупное использование измеряется с точностью до секунды. Например, если вы загрузили три файла длительностью 10 860 секунд, 8575 секунд и 9421 секунда соответственно, сумма вашего счета за месяц будет рассчитана как сумма секунд (28 856), деленная на 3600 (количество секунд в часе) минус 5 (количество бесплатных часов в месяц), умноженная на 0,50 доллара США. Иными словами, вы заплатите 1,508 доллара США, или (28 856/3600 - 5) x 0,50 = 1,508.
Оплачиваемой метрикой является час транскрибирования. Часы транскрибирования — это количество часов аудиоматериала, транскрибированных или синтезированных в данном месяце пользования сервисом.
Нет. Плата за настройку или минимальный объем использования OCI Speech не предусмотрены, и никакое оборудование не требуется.
Да. Ежемесячно мы предоставляем пять часов бесплатного транскрибирования на одного пользователя.
Расстановка знаков препинания и формат SRT предоставляются бесплатно. Хранение SRT-файлов может увеличить плату за хранение.
OCI Speech работает с любым записывающим устройством и не предъявляет никаких требований к оборудованию.
Мы рекомендуем использовать утилиту FFmpeg. Введите следующую команду: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.
См. документацию по настройке политики использования Speech.