OCI Speech hem konuşmayı metne aktaran hem de konuşmayı metinden sentezleyen bir yapay zeka hizmetidir. Ses tabanlı içeriği gerçek zamanlı veya asenkron olarak metne dönüştürmek için otomatik konuşma tanıma teknolojisini uygular. Nöral ağ tabanlı metinden konuşmaya özelliği, giriş metninize dayalı doğal sesli bir ses oluşturur. OCI Speech'in önceden eğitilmiş modellerini uygulamalarına entegre etmek için kolayca API çağrıları yapabilirsiniz. OCI Speech, konsol ve REST API'lerinin yanı sıra CLI'lar veya SDK'lar aracılığıyla doğru, metin normalize edilmiş, zaman damgalı transkripsiyon veya sentetik ses için kullanılabilir. OCI Speech'i bir OCI Data Science not defteri oturumunda da kullanabilirsiniz. OCI Speech ile küfürleri filtreleyebilir, hem tek kelimeler hem de transkripsiyonların tamamı için güvenilirlik puanlarını alabilir ve daha fazlasını yapabilirsiniz.
Hızlı, doğru ve zaman damgalı bir transkripsiyon hizmetine ihtiyacınız varsa OCI Speech'i kullanmalısınız. Ses dosyalarınızı depolamak için OCI kullanıyorsanız, ayrıca daha düşük gecikmelerin tadını çıkarabilir ve transkripsiyonla ilişkili ağ maliyeti yoktur. Artık kullanılabilirliği sınırlı olan en yeni metinden konuşmaya ve gerçek zamanlı konuşmadan metne özellikleri, uygulamanızla entegrasyon için ek özellikler sağlar.
Başlamak için ilk transkripsiyonunuzu oluşturmak üzere oturum açın veya hizmet hakkında daha fazla bilgi edinin.
Şu anda dosya tabanlı asenkron transkripsiyonu destekliyoruz. Gerçek zamanlı transkripsiyon şu anda sınırlı erişilebilirlikte sunulmaktadır.
Transkripsiyon şu diller için önceden eğitilmiş modellerle birlikte gelir: İngilizce, İspanyolca, Portekizce, Almanca, Fransızca, İtalyanca ve Hintçe. Ayrıca, kutunun dışında desteklenen 57+ dil ile eşzamansız dosya tabanlı transkripsiyon için OpenAI Whisper modelini destekliyoruz.
Hayır. Sadece içeriğinizi yazıya dökeriz ve dosyadaki hiçbir bilgiyi saklamayız.
Diğer tüm transkripsiyon hizmetlerinde olduğu gibi, çıktının kalitesi giriş ses dosyasının kalitesine bağlıdır. Konuşmacıların aksanları, arka plandaki sesler, diller arasında geçiş yapmak, füzyon dilleri kullanmak (Spanglish gibi) ve aynı anda konuşan birden fazla kişi transkripsiyon kalitesini etkileyebilir. Ayrıca, tüm girişler ve konuşmacılar için daha doğru transkripsiyonlar sağlamak amacıyla hizmetin performansını iyileştirmek için sürekli çalışıyoruz.
Şu anda değil ancak bu özellik yakında geliyor.
16 kHz örnekleme hızına sahip tek kanallı, 16 bit PCM WAV ses dosyalarını destekliyoruz. Ayrıca aşağıdaki medya formatlarını destekleriz ve bunları transkripsiyon yapmadan önce PCM WAV'a dönüştürürüz:
Gecikmeyi azaltmak için iş göndermeden önce dosyalarınızı da dönüştürebilirsiniz. Ses kod dönüştürme için Audacity (GUI) veya FFmpeg ( komut satırı) öneriyoruz.
Varsayılan olarak JSON'u ve ek maliyet olmaksızın bir seçenek olarak SRT'yi destekliyoruz.
Hassas faturalandırma kullanıyoruz, yani her bir saatlik transkripsiyon veya ses sentezi için sizden 0,50 $ ücret alıyoruz, ancak toplu kullanımı ölçmek için saniye kullanıyoruz. Örneğin, 10.860 saniye, 8.575 saniye ve 9.421 saniye sürelerinde üç dosya yüklerseniz, aylık faturanız saniyelerinizin toplamının (28.856) 3.600'e (bir saatteki saniye sayısı) bölünmesi ve 5'in (aylık ücretsiz saat sayısı) 0,50 $ ile çarpılmasıyla hesaplanacaktır. Yani sizden 1,508 $ veya (28.856/3.600 - 5) x 0,50 $ = 1,508 $ tahsil edilecektir.
Faturalanabilir metriğimiz, transkripsiyon saatidir. Transkripsiyon saati, hizmetin belirli bir ayında transkripsiyon yapılan veya senkronize edilen ses saati sayısını ölçer.
Hayır. OCI Speech'te herhangi bir kurulum ücreti veya minimum hizmet taahhüdü yoktur.
Evet. Her ay geçici kullanıcı hesabı başına beş saatlik ücretsiz transkripsiyon sunuyoruz.
Noktalama işaretleri de SRT gibi ücretsiz bir hizmettir. SRT dosyalarını saklamak depolama ücretinizi artırabilir.
OCI Speech herhangi bir kayıt cihazıyla çalışır ve cihaza özgü değildir.
FFmpeg yardımcı programını şu komutla kullanmanızı öneririz: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.