Yapay Zeka Konuşmadan Metne SSS

Genel

Oracle Cloud Infrastructure Speech nedir?

OCI Speech konuşmayı metne dönüştürmek için otomatik konuşma tanıma (ASR) kullanan bir hizmettir. Bu hizmet, geliştiricilerin iş birimlerinin, içerik sağlayıcıların, bağlantı elemanlarının ve diğer kullanıcıların ses dosyalarını yazıya dökmesine olanak tanır. OCI Speech ile kullanıcılar çağrı merkezi aramalarını veya toplantılarını yazıya dökebilir, altyazı oluşturabilir, ses ve video içeriklerini dizine ekleyip arayabilir.

Neden OCI Speech'i kullanmalıyım?

Hızlı, doğru ve zaman damgalı bir transkripsiyon hizmetine ihtiyacınız varsa OCI Speech'i kullanmalısınız. Ses dosyalarınızı depolamak için OCI kullanıyorsanız, ayrıca daha düşük gecikme sürelerinin keyfini çıkaracak ve transkripsiyonla ilişkili ağ maliyeti olmayacak.

OCI Speech kullanmaya nasıl başlarım?

İlk transkripsiyonunuzu oluşturmak için buraya başlayın veya buradan hizmet hakkında daha fazla bilgi edinin.

Özellikler

Hangi transkripsiyon hizmetlerini destekliyorsunuz?

Şu anda dosya tabanlı asenkron transkripsiyonu destekliyoruz. Şu anda gerçek zamanlı transkripsiyon sunmuyoruz.

Şu anda hangi diller destekleniyor?

Transkripsiyon şu diller için önceden eğitilmiş modellerle birlikte gelir: İngilizce, İspanyolca ve Portekizce.

Deşifre ettiğim dosyalar OCI tarafından hizmeti iyileştirmek için (veya başka bir şey için) kullanılıyor mu?

Hayır. Sadece içeriğinizi yazıya dökeriz ve dosyadaki hiçbir bilgiyi saklamayız.

Hizmet hakkında başka ne bilmeliyim?

Diğer tüm transkripsiyon hizmetlerinde olduğu gibi, çıktının kalitesi giriş ses dosyasının kalitesine bağlıdır. Konuşmacıların aksanları, arka plandaki sesler, diller arasında geçiş yapmak, füzyon dilleri kullanmak (Spanglish gibi) ve aynı anda konuşan birden fazla kişi transkripsiyon kalitesini etkileyebilir. Tüm girdiler ve konuşmacılar için daha doğru transkripsiyonlar sağlamak amacıyla hizmetin performansını iyileştirmek için sürekli çalışıyoruz.

OCI Speech dosyadaki dili otomatik olarak algılayabilir mi?

Şu anda değil (ama yakında).

Hangi giriş dosyası formatlarını destekliyorsunuz?

16kHz örnekleme hızına sahip tek kanallı, 16 bit PCM WAV ses dosyalarını destekliyoruz. Ses kod dönüştürme için Audacity (GUI) veya ffmpeg (komut satırı) öneririz. Ek ses formatları yakında geliyor.

Hangi çıktı formatlarını destekliyorsunuz?

JSON'u (varsayılan olarak) ve SRT'yi (daha fazla maliyet gerektirmeyen seçenek olarak) destekliyoruz.

Faturalandırma ve fiyatlandırma

Benden nasıl ücret alınacak?

Hassas faturalandırma kullanıyoruz. Yani her bir saatlik transkripsiyon için sizden 0,50 ABD doları ücret alıyoruz ancak toplu kullanımı ölçmek için saniyeleri kullanıyoruz. Örneğin, 3.600 saniye, 4.575 saniye ve 1.421 saniye süren üç dosya yüklediğinizde aylık faturanız saniyelerinizin toplamının (9.596) 3.600'e (bir saatteki saniye sayısı) bölünmesi ve 0,50 $ ile çarpılmasıyla hesaplanacaktır. Yani sizden 1,332 $ veya 9.596/3.600 x 0,50 $ = 1,332 $ tahsil edilecektir.

OCI Speech için faturalanabilir ölçüm nedir?

Faturalandırılabilir metriğimize "transkripsiyon saati" adını verdik. Transcription hour measures the number of audio hours transcribed during a given month of the service.

Speech ile herhangi bir kurulum ücreti veya minimum hizmet taahhüdü var mı?

Hayır. OCI Speech'te herhangi bir kurulum ücreti veya minimum hizmet taahhüdü yoktur. Ayrıca donanım da gerekmez.

Hizmeti denemek için herhangi bir ücretsiz saat sunuyor musunuz?

Evet. Her ay geçici kullanıcı hesabı başına beş saatlik ücretsiz transkripsiyon sunuyoruz.

Noktalama işaretleri için mi yoksa SRT için mi daha fazla ücret alıyorsunuz?

Noktalama işaretleri de SRT gibi ücretsiz bir hizmettir. SRT dosyalarını saklamak depolama ücretinizi artırabilir.

Diğer teknik sorular

OCI Speech hangi cihazları destekleyecek?

Konuşma, herhangi bir kayıt cihazıyla çalışır ve cihaza özgü değildir.

Dosyam WAV dosyası değil. Dosyamı WAV'a nasıl dönüştürmeliyim?

ffmpeg hizmet programını şu komutla kullanmanızı öneririz: ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Şu hata mesajını alıyorum: "Tanımlanmamış" adlı bellek alanı, namespace <namespace> ad alanında mevcut değil veya erişim yetkiniz yok. Bunu nasıl düzeltebilirim?

See the Konuşma İlkesi Kurulumu.