AI Speech to Text FAQ

개요

Oracle Cloud Infrastructure Speech가 무엇입니까?

OCI Speech는 자동 음성 인식(ASR) 기술을 사용해 음성을 텍스트로 변환하는 서비스입니다. 이 서비스는 개발자, 비즈니스 부서, 콘텐츠 제공업체, 초보자 및 기타 사용자들이 오디오 파일을 전사할 수 있게 해 줍니다. OCI Speech를 사용하면 사용자들은 콜 센터의 통화 내역 또는 회의 내용을 전사해 자막을 생성하고, 오디오 및 비디오 콘텐츠를 인덱스화 및 검색할 수 있습니다.

OCI Speech를 사용해야 하는 이유가 무엇입니까?

빠르고, 정확하고, 타임 스탬프가 제공되는 전사 서비스가 필요하다면 OCI Speech를 추천합니다. 게다가 음성 파일 저장에 OCI를 사용한다면 짧은 대기 시간의 이점을 누릴 수 있고, 전사와 관련된 네트워크 비용도 부과되지 않습니다.

OCI Speech를 시작하려면 어떻게 해야 합니까?

여기에서 첫 전사를 바로 생성할 수도 있고, 여기에서 서비스에 대한 더 많은 정보를 읽어볼 수도 있습니다.

특징

Oracle은 어떤 전사 서비스를 지원합니까?

현재 파일 기반의 비동기식 전사를 지원합니다. 지금으로써는 실시간 전사 서비스는 제공하지 않습니다.

지원 대상 언어는 무엇입니까?

전사 기능은 다음 언어에 대한 사전 훈련된 모델과 함께 제공됩니다: 영어, 스페인어, 포르투갈어.

내가 전사한 파일이 서비스 개선을 위한 목적(또는 기타 다른 이유)으로 OCI에서도 사용됩니까?

아니요. Oracle은 고객의 콘텐츠를 전사할 뿐 파일에서 얻은 정보를 저장하지 않습니다.

이 서비스에 대해 더 알고 있어야 할 정보가 무엇입니까?

다른 전사 서비스와 마찬가지로 출력물의 품질은 입력되는 오디오 파일의 품질에 따라 달라집니다. 연사의 악센트, 배경 소음, 언어 간 전환, 퓨전 언어의 사용(예: 스팽글리시), 여러 사람의 동시 발화 등이 전사의 품질에 영향을 미칠 수 있습니다. 우리는 모든 입력 값 및 연사에 대해 보다 정확한 전사를 제공할 수 있도록 서비스의 성능 개선을 위해 지속적으로 노력하고 있습니다.

OCI Speech가 파일 내 언어를 자동으로 감지할 수 있습니까?

현재는 불가능하지만 해당 기능이 곧 도입될 예정입니다.

지원되는 입력 값 파일 형식은 무엇입니까?

16kHz 샘플 속도의 단일 채널, 16비트 PCM WAV 오디오 파일을 지원합니다. 음성 트랜스코딩에 Audacity(GUI) 또는 ffmpeg(명령줄)를 사용할 것을 추천합니다. 더 많은 오디오 형식이 곧 추가될 예정입니다.

지원하는 출력 값 형식은 무엇입니까?

JSON(기본값 ) 및 SRT(추가 비용 없는 옵션)를 지원합니다.

청구 및 가격 정책

청구는 어떻게 이루어집니까?

Oracle은 정밀 청구 방식을 사용합니다. 즉, 전사 시간당 $0.50를 청구하는 겁니다. 하지만 총 사용량을 측정할 때는 초 단위를 사용합니다. 예를 들어 3,600초, 4,575초, 1,421초 분량의 세 개의 파일을 업로드했다면, 월 청구 비용은 사용한 초의 총합(9,596)을 3,600(시간당 초의 수)으로 나눈 다음 $0.50을 곱해 계산됩니다. 즉, $1.332(9,596/3,600 x $0.50 = $1.332)가 청구됩니다.

OCI Speech의 청구 가능한 측정 지표는 무엇입니까?

Oracle은 우리의 청구 가능한 측정 지표를 '전사 시간'이라고 부릅니다. 전사 시간은 주어진 서비스 월 동안 전사된 음성의 시간 수를 측정하는 기법입니다.

OCI Speech에 부과되는 설정 비용 또는 최소 서비스 약정 비용이 있습니까?

아니요. OCI Speech는 설정 비용이나 최소 서비스 약정 비용을 부과하지 않습니다. 하드웨어 역시 필요하지 않습니다.

서비스를 체험해 볼 수 있는 무료 시간도 제공합니까?

네. Oracle은 테넌시당 매달 5시간의 무료 전사 시간을 제공합니다.

구두점이나 SRT에 더 많은 비용을 청구합니까?

구두점은 SRT와 마찬가지로 무료 서비스입니다. 하지만 SRT 파일을 저장하면 스토리지 비용이 증가할 수 있습니다.

기타 기술 관련 질문

OCI Speech가 지원하는 기기는 무엇입니까?

OCI Speech는 모든 녹음 기기를 지원하며, 특정 기기에 한정되어 있지 않습니다.

내 파일은 WAV가 아닌데요, 파일을 WAV로 변환하려면 어떻게 해야 합니까?

다음 명령과 함께 ffmpeg 유틸리티를 사용할 것을 추천합니다: ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

다음과 같은 오류 메시지가 뜹니다: '정의되지 않음'이라는 이름의 버킷이 <namespace> 네임스페이스에 존재하지 않거나 액세스 권한을 보유하지 않았습니다. 오류를 해결하려면 어떻게 해야 합니까?

Speech 정책 설정을 참고하세요.