Yapay Zeka Konuşmadan Metne SSS


Genel

Oracle Cloud Infrastructure Speech nedir?

OCI Speech hem konuşmayı metne aktaran hem de konuşmayı metinden sentezleyen bir yapay zeka hizmetidir. Ses tabanlı içeriği gerçek zamanlı veya asenkron olarak metne dönüştürmek için otomatik konuşma tanıma teknolojisini uygular. Nöral ağ tabanlı metinden konuşmaya özelliği, giriş metninize dayalı doğal sesli bir ses oluşturur. OCI Speech'in önceden eğitilmiş modellerini uygulamalarına entegre etmek için kolayca API çağrıları yapabilirsiniz. OCI Speech, konsol ve REST API'lerinin yanı sıra CLI'lar veya SDK'lar aracılığıyla doğru, metin normalize edilmiş, zaman damgalı transkripsiyon veya sentetik ses için kullanılabilir. OCI Speech'i bir OCI Data Science not defteri oturumunda da kullanabilirsiniz. OCI Speech ile küfürleri filtreleyebilir, hem tek kelimeler hem de transkripsiyonların tamamı için güvenilirlik puanlarını alabilir ve daha fazlasını yapabilirsiniz.

Neden OCI Speech'i kullanmalıyım?

Hızlı, doğru ve zaman damgalı bir transkripsiyon hizmetine ihtiyacınız varsa OCI Speech'i kullanmalısınız. Ses dosyalarınızı depolamak için OCI kullanıyorsanız, ayrıca daha düşük gecikmelerin tadını çıkarabilir ve transkripsiyonla ilişkili ağ maliyeti yoktur. Artık kullanılabilirliği sınırlı olan en yeni metinden konuşmaya ve gerçek zamanlı konuşmadan metne özellikleri, uygulamanızla entegrasyon için ek özellikler sağlar.

OCI Speech kullanmaya nasıl başlarım?

Başlamak için ilk transkripsiyonunuzu oluşturmak üzere oturum açın veya hizmet hakkında daha fazla bilgi edinin.

Özellikler

Hangi transkripsiyon hizmetlerini destekliyorsunuz?

Şu anda dosya tabanlı asenkron transkripsiyonu destekliyoruz. Gerçek zamanlı transkripsiyon şu anda sınırlı erişilebilirlikte sunulmaktadır.

Şu anda hangi diller destekleniyor?

Transkripsiyon şu diller için önceden eğitilmiş modellerle birlikte gelir: İngilizce, İspanyolca, Portekizce, Almanca, Fransızca, İtalyanca ve Hintçe. Ayrıca, kutunun dışında desteklenen 57+ dil ile eşzamansız dosya tabanlı transkripsiyon için OpenAI Whisper modelini destekliyoruz.

Deşifre ettiğim dosyalar OCI tarafından hizmeti iyileştirmek için (veya başka bir şey için) kullanılıyor mu?

Hayır. Sadece içeriğinizi yazıya dökeriz ve dosyadaki hiçbir bilgiyi saklamayız.

Hizmet hakkında başka ne bilmeliyim?

Diğer tüm transkripsiyon hizmetlerinde olduğu gibi, çıktının kalitesi giriş ses dosyasının kalitesine bağlıdır. Konuşmacıların aksanları, arka plandaki sesler, diller arasında geçiş yapmak, füzyon dilleri kullanmak (Spanglish gibi) ve aynı anda konuşan birden fazla kişi transkripsiyon kalitesini etkileyebilir. Ayrıca, tüm girişler ve konuşmacılar için daha doğru transkripsiyonlar sağlamak amacıyla hizmetin performansını iyileştirmek için sürekli çalışıyoruz.

OCI Speech dosyadaki dili otomatik olarak algılayabilir mi?

Şu anda değil ancak bu özellik yakında geliyor.

Hangi giriş dosyası formatlarını destekliyorsunuz?

16 kHz örnekleme hızına sahip tek kanallı, 16 bit PCM WAV ses dosyalarını destekliyoruz. Ayrıca aşağıdaki medya formatlarını destekleriz ve bunları transkripsiyon yapmadan önce PCM WAV'a dönüştürürüz:

  • AAC
  • AC3
  • AMR
  • AU
  • FLAC
  • M4A
  • MKV
  • MP3
  • MP4
  • OGA
  • OGG
  • WAV
  • WEBM

Gecikmeyi azaltmak için iş göndermeden önce dosyalarınızı da dönüştürebilirsiniz. Ses kod dönüştürme için Audacity (GUI) veya FFmpeg ( komut satırı) öneriyoruz.

Hangi çıktı formatlarını destekliyorsunuz?

Varsayılan olarak JSON'u ve ek maliyet olmaksızın bir seçenek olarak SRT'yi destekliyoruz.

Faturalandırma ve fiyatlandırma

Benden nasıl ücret alınacak?

Hassas faturalandırma kullanıyoruz, yani her bir saatlik transkripsiyon veya ses sentezi için sizden 0,50 $ ücret alıyoruz, ancak toplu kullanımı ölçmek için saniye kullanıyoruz. Örneğin, 10.860 saniye, 8.575 saniye ve 9.421 saniye sürelerinde üç dosya yüklerseniz, aylık faturanız saniyelerinizin toplamının (28.856) 3.600'e (bir saatteki saniye sayısı) bölünmesi ve 5'in (aylık ücretsiz saat sayısı) 0,50 $ ile çarpılmasıyla hesaplanacaktır. Yani sizden 1,508 $ veya (28.856/3.600 - 5) x 0,50 $ = 1,508 $ tahsil edilecektir.

OCI Speech için faturalanabilir ölçüm nedir?

Faturalanabilir metriğimiz, transkripsiyon saatidir. Transkripsiyon saati, hizmetin belirli bir ayında transkripsiyon yapılan veya senkronize edilen ses saati sayısını ölçer.

OCI Speech ile herhangi bir kurulum ücreti veya minimum hizmet taahhüdü var mı?

Hayır. OCI Speech'te herhangi bir kurulum ücreti veya minimum hizmet taahhüdü yoktur.

Hizmeti denemek için herhangi bir ücretsiz saat sunuyor musunuz?

Evet. Her ay geçici kullanıcı hesabı başına beş saatlik ücretsiz transkripsiyon sunuyoruz.

Noktalama işaretleri için mi yoksa SRT için mi daha fazla ücret alıyorsunuz?

Noktalama işaretleri de SRT gibi ücretsiz bir hizmettir. SRT dosyalarını saklamak depolama ücretinizi artırabilir.

Diğer teknik sorular

OCI Speech hangi cihazları destekleyecek?

OCI Speech herhangi bir kayıt cihazıyla çalışır ve cihaza özgü değildir.

Dosyam WAV dosyası değil. Dosyamı WAV'a nasıl dönüştürmeliyim?

FFmpeg yardımcı programını şu komutla kullanmanızı öneririz: $ ffmpeg -i <input.ext> -fflags +bitexact -acodec pcm_s16le -ac 1 -ar 16000 <output.wav>.

Şu hata mesajını alıyorum: "Tanımlanmamış" adlı bellek alanı, namespace <namespace> ad alanında mevcut değil veya erişim yetkiniz yok. Bunu nasıl düzeltebilirim?

Konuşma ilkesi kurulumu dokümantasyonuna bakın.