OCI Speech는 자동 음성 인식(ASR) 기술을 사용해 음성을 텍스트로 변환하는 서비스입니다. 이 서비스는 개발자, 비즈니스 부서, 콘텐츠 제공업체, 초보자 및 기타 사용자들이 오디오 파일을 전사할 수 있게 해 줍니다. OCI Speech를 사용하면 사용자들은 콜 센터의 통화 내역 또는 회의 내용을 전사해 자막을 생성하고, 오디오 및 비디오 콘텐츠를 인덱스화 및 검색할 수 있습니다.
빠르고, 정확하고, 타임 스탬프가 제공되는 전사 서비스가 필요하다면 OCI Speech를 추천합니다. 게다가 음성 파일 저장에 OCI를 사용한다면 짧은 대기 시간의 이점을 누릴 수 있고, 전사와 관련된 네트워크 비용도 부과되지 않습니다.
현재 파일 기반의 비동기식 전사를 지원합니다. 지금으로써는 실시간 전사 서비스는 제공하지 않습니다.
전사 기능은 다음 언어에 대한 사전 훈련된 모델과 함께 제공됩니다: 영어, 스페인어, 포르투갈어.
아니요. Oracle은 고객의 콘텐츠를 전사할 뿐 파일에서 얻은 정보를 저장하지 않습니다.
다른 전사 서비스와 마찬가지로 출력물의 품질은 입력되는 오디오 파일의 품질에 따라 달라집니다. 연사의 악센트, 배경 소음, 언어 간 전환, 퓨전 언어의 사용(예: 스팽글리시), 여러 사람의 동시 발화 등이 전사의 품질에 영향을 미칠 수 있습니다. 우리는 모든 입력 값 및 연사에 대해 보다 정확한 전사를 제공할 수 있도록 서비스의 성능 개선을 위해 지속적으로 노력하고 있습니다.
현재는 불가능하지만 해당 기능이 곧 도입될 예정입니다.
16kHz 샘플 속도의 단일 채널, 16비트 PCM WAV 오디오 파일을 지원합니다. 음성 트랜스코딩에 Audacity(GUI) 또는 ffmpeg(명령줄)를 사용할 것을 추천합니다. 더 많은 오디오 형식이 곧 추가될 예정입니다.
JSON(기본값 ) 및 SRT(추가 비용 없는 옵션)를 지원합니다.
Oracle은 정밀 청구 방식을 사용합니다. 즉, 전사 시간당 $0.50를 청구하는 겁니다. 하지만 총 사용량을 측정할 때는 초 단위를 사용합니다. 예를 들어 3,600초, 4,575초, 1,421초 분량의 세 개의 파일을 업로드했다면, 월 청구 비용은 사용한 초의 총합(9,596)을 3,600(시간당 초의 수)으로 나눈 다음 $0.50을 곱해 계산됩니다. 즉, $1.332(9,596/3,600 x $0.50 = $1.332)가 청구됩니다.
Oracle은 우리의 청구 가능한 측정 지표를 '전사 시간'이라고 부릅니다. 전사 시간은 주어진 서비스 월 동안 전사된 음성의 시간 수를 측정하는 기법입니다.
아니요. OCI Speech는 설정 비용이나 최소 서비스 약정 비용을 부과하지 않습니다. 하드웨어 역시 필요하지 않습니다.
네. Oracle은 테넌시당 매달 5시간의 무료 전사 시간을 제공합니다.
구두점은 SRT와 마찬가지로 무료 서비스입니다. 하지만 SRT 파일을 저장하면 스토리지 비용이 증가할 수 있습니다.
OCI Speech는 모든 녹음 기기를 지원하며, 특정 기기에 한정되어 있지 않습니다.
다음 명령과 함께 ffmpeg 유틸리티를 사용할 것을 추천합니다: ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.
Speech 정책 설정을 참고하세요.