AI Speech to Text – często zadawane pytania

Ogólne

Co to jest Oracle Cloud Infrastructure Speech?

OCI Speech to usługa wykorzystująca automatyczne rozpoznawanie mowy (ASR) do przetwarzania mowy na tekst. Usługa ta umożliwia transkrypcję plików audio programistom, firmom, dostawcom treści, amatorom i innym użytkownikom. Dzięki OCI Speech użytkownicy mogą transkrybować spotkania lub rozmowy w telefonicznym centrum obsługi klienta, generować napisy do filmów oraz indeksować i wyszukiwać treści audio i wideo.

Dlaczego warto używać usługi OCI Speech?

OCI Speech sprawdza się, gdy potrzebna jest szybka, dokładna usługa transkrypcji z sygnaturą czasową. Używanie OCI do przechowywania plików audio może także zmniejszyć opóźnienia i pozwala uniknąć kosztów sieciowych związanych z transkrypcją.

Jak rozpocząć pracę z OCI Speech?

Zacznij tutaj, aby utworzyć pierwszą transkrypcję, lub przeczytaj więcej o usłudze tutaj.

Funkcje

Jakie usługi transkrypcji są obsługiwane?

Obecnie obsługujemy asynchroniczną transkrypcję opartą na plikach. Obecnie nie oferujemy transkrypcji w czasie rzeczywistym.

Jakie języki są obecnie obsługiwane?

Usługa transkrypcji zawiera wstępnie przeszkolone modele dla następujących języków: angielski, hiszpański i portugalski.

Czy pliki transkrybowane w OCI są używane w celu ulepszenia usługi (lub czegokolwiek innego)?

Nie. Wykonujemy tylko transkrypcję treści i nie przechowujemy żadnych informacji z pliku.

Co jeszcze należy wiedzieć o usłudze?

Jak w każdej innej usłudze transkrypcji, jakość wyjściowa zależy od jakości wejściowego pliku audio. Na jakość transkrypcji mogą wpływać akcenty wypowiadających się osób, hałas w tle, przełączanie się między językami, mieszanie języków (np. łączenie angielskiego z hiszpańskim) i jednoczesne wypowiedzi kilku osób. Stale pracujemy nad poprawą jakości usługi, aby zapewnić dokładniejsze transkrypcje dla wszystkich danych wejściowych i osób wypowiadających się.

Czy OCI Speech może automatycznie wykryć język w pliku?

Obecnie nie (ale będzie to możliwe wkrótce).

Które formaty plików wejściowych są obsługiwane?

Obsługujemy jednokanałowe, 16-bitowe pliki audio PCM WAV z częstotliwością próbkowania 16 kHz. Do transkodowania dźwięku polecamy Audacity (GUI) lub ffmpeg (linia poleceń). Wkrótce obsługiwane będą dodatkowe formaty audio.

Które formaty danych wyjściowych są obsługiwane?

Obsługujemy JSON (jako domyślny) i SRT (jako opcję bez żadnych dodatkowych kosztów).

Fakturowanie i ceny

Jak będą naliczane opłaty?

Używamy precyzyjnego fakturowania, co oznacza, że naliczamy 0,50 USD za każdą godzinę transkrypcji, ale używamy sekund do pomiaru zagregowanego korzystania. Na przykład, jeśli zostaną wysłane trzy pliki o następującym czasie trwania: 3600 sekund, 4575 sekund i 1421 sekund, to miesięczna opłata wyniesie sumę sekund (9596) podzieloną przez 3600 (liczbę sekund w godzinie) i pomnożoną przez 0,50 USD. Naliczymy 1332 USD, bo 9596 : 3600 x 0,50 USD = 1332 USD.

Jaka miara jest używana przy fakturowaniu usługi OCI Speech?

Naszą miarą do fakturowania jest godzina transkrypcji. Godzina transkrypcji służy do mierzenia liczby godzin transkrypcji audio w danym miesiącu.

Czy są jakieś opłaty konfiguracyjne lub minimalne zobowiązania dotyczące korzystania z usługi Speech?

Nie. W OCI Speech nie ma żadnych opłat konfiguracyjnych ani minimalnych zobowiązań dotyczących korzystania z usługi. Nie jest wymagany żaden konkretny sprzęt.

Czy dostępne są bezpłatne godziny na wypróbowanie usługi?

Tak. Oferujemy pięć godzin bezpłatnej transkrypcji co miesiąc na dzierżawę.

Czy pobierane są dodatkowe opłaty za interpunkcję lub format SRT?

Interpunkcja jest bezpłatna, tak samo jak format SRT. Przechowywanie plików SRT może zwiększyć opłatę za przechowywanie.

Pozostałe pytania techniczne

Które urządzenia będą obsługiwać OCI Speech?

Funkcja Speech współpracuje z dowolnym urządzeniem rejestrującym i nie jest specyficzna dla danego urządzenia.

Mój plik nie jest plikiem WAV. Jak przekonwertować plik na WAV?

Zalecamy używanie narzędzia ffmpeg z następującym poleceniem: ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Otrzymuję następujący komunikat o błędzie: Either the bucket named “undefined” does not exist in the namespace <namespace> or you are not authorized to access it (Koszyk o nazwie „undefined” nie istnieje w przestrzeni nazw <namespace> albo nie masz do niego dostępu). Jak to naprawić?

Zobacz dokument Konfiguracja zasad mowy.