OCI Speech to usługa wykorzystująca automatyczne rozpoznawanie mowy (ASR) do przetwarzania mowy na tekst. Usługa ta umożliwia transkrypcję plików audio programistom, firmom, dostawcom treści, amatorom i innym użytkownikom. Dzięki OCI Speech użytkownicy mogą transkrybować spotkania lub rozmowy w telefonicznym centrum obsługi klienta, generować napisy do filmów oraz indeksować i wyszukiwać treści audio i wideo.
OCI Speech sprawdza się, gdy potrzebna jest szybka, dokładna usługa transkrypcji z sygnaturą czasową. Używanie OCI do przechowywania plików audio może także zmniejszyć opóźnienia i pozwala uniknąć kosztów sieciowych związanych z transkrypcją.
Zacznij tutaj, aby utworzyć pierwszą transkrypcję, lub przeczytaj więcej o usłudze tutaj.
Obecnie obsługujemy asynchroniczną transkrypcję opartą na plikach. Obecnie nie oferujemy transkrypcji w czasie rzeczywistym.
Usługa transkrypcji zawiera wstępnie przeszkolone modele dla następujących języków: angielski, hiszpański i portugalski.
Nie. Wykonujemy tylko transkrypcję treści i nie przechowujemy żadnych informacji z pliku.
Jak w każdej innej usłudze transkrypcji, jakość wyjściowa zależy od jakości wejściowego pliku audio. Na jakość transkrypcji mogą wpływać akcenty wypowiadających się osób, hałas w tle, przełączanie się między językami, mieszanie języków (np. łączenie angielskiego z hiszpańskim) i jednoczesne wypowiedzi kilku osób. Stale pracujemy nad poprawą jakości usługi, aby zapewnić dokładniejsze transkrypcje dla wszystkich danych wejściowych i osób wypowiadających się.
Obecnie nie (ale będzie to możliwe wkrótce).
Obsługujemy jednokanałowe, 16-bitowe pliki audio PCM WAV z częstotliwością próbkowania 16 kHz. Do transkodowania dźwięku polecamy Audacity (GUI) lub ffmpeg (linia poleceń). Wkrótce obsługiwane będą dodatkowe formaty audio.
Obsługujemy JSON (jako domyślny) i SRT (jako opcję bez żadnych dodatkowych kosztów).
Używamy precyzyjnego fakturowania, co oznacza, że naliczamy 0,50 USD za każdą godzinę transkrypcji, ale używamy sekund do pomiaru zagregowanego korzystania. Na przykład, jeśli zostaną wysłane trzy pliki o następującym czasie trwania: 3600 sekund, 4575 sekund i 1421 sekund, to miesięczna opłata wyniesie sumę sekund (9596) podzieloną przez 3600 (liczbę sekund w godzinie) i pomnożoną przez 0,50 USD. Naliczymy 1332 USD, bo 9596 : 3600 x 0,50 USD = 1332 USD.
Naszą miarą do fakturowania jest godzina transkrypcji. Godzina transkrypcji służy do mierzenia liczby godzin transkrypcji audio w danym miesiącu.
Nie. W OCI Speech nie ma żadnych opłat konfiguracyjnych ani minimalnych zobowiązań dotyczących korzystania z usługi. Nie jest wymagany żaden konkretny sprzęt.
Tak. Oferujemy pięć godzin bezpłatnej transkrypcji co miesiąc na dzierżawę.
Interpunkcja jest bezpłatna, tak samo jak format SRT. Przechowywanie plików SRT może zwiększyć opłatę za przechowywanie.
Funkcja Speech współpracuje z dowolnym urządzeniem rejestrującym i nie jest specyficzna dla danego urządzenia.
Zalecamy używanie narzędzia ffmpeg z następującym poleceniem: ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.
Zobacz dokument Konfiguracja zasad mowy.