OpenAI, yapay zeka alanındaki yeniliklerini sürdürüyor ve bu kez üç yeni ses modeli olan gpt-4o-transcribe, gpt-4o-mini-transcribe ve gpt-4o-mini-tts’yi tanıttı. Bu modeller, OpenAI’ın API’si üzerinden geliştiricilere sunularak, üçüncü taraf uygulamaların geliştirilmesine olanak tanıyor. Ayrıca bireysel kullanıcılar, OpenAI.fm platformu üzerinden bu modelleri sınırlı bir şekilde test edebiliyor.
Özelleştirilebilir Ses Deneyimi
Özellikle gpt-4o-mini-tts modeli, metin istemleriyle ses özelleştirme imkânı sunuyor. Kullanıcılar, aksan, perde, ton ve diğer ses niteliklerini değiştirerek AI’nın konuşma tarzını istedikleri duyguları yansıtacak şekilde ayarlayabiliyor. OpenAI teknik ekibinden Jeff Harris’in VentureBeat’e verdiği bir demoda, aynı sesin “çıldırmış bir bilim insanı” veya “huzurlu bir yoga öğretmeni” gibi farklı tonlarda nasıl üretilebildiği gösterildi. Bu esneklik, sesli asistanlardan içerik üretimine kadar geniş bir kullanım alanı vadediyor.
GPT-4o’nun Evrimi
Bu modeller, Mayıs 2024’te piyasaya sürülen GPT-4o’nun varyantları olarak geliştirildi. OpenAI, temel modeli ek verilerle yeniden eğiterek transkripsiyon ve konuşma yeteneklerini optimize etti. Ancak bu yeniliklerin ChatGPT’ye ne zaman entegre edileceği henüz netlik kazanmadı.
Whisper’ın Yerini Alan Transkripsiyon Gücü
gpt-4o-transcribe ve gpt-4o-mini-transcribe, OpenAI’ın açık kaynaklı Whisper modelinin yerini almayı hedefliyor. Endüstri benchmark’larında Whisper’a kıyasla daha düşük kelime hata oranları sunan bu modeller, İngilizce’de %2,46’lık bir hata oranıyla öne çıkıyor. Gürültülü ortamlar, farklı aksanlar ve 100’den fazla dilde değişen konuşma hızlarında üstün performans sergileyen modeller, transkripsiyon kalitesinde çıtayı yükseltiyor. Ancak Harris’in belirttiğine göre, bu modeller “diarizasyon” (farklı konuşmacıları ayırt etme) yeteneğine sahip değil; tek bir ses çıkışı ile tüm girdilere yanıt verecek şekilde tasarlandı.
Fiyatlandırma ve Erişim
Modeller, OpenAI API üzerinden şu fiyatlarla kullanıma sunuluyor:
- gpt-4o-transcribe: 1 milyon ses girdi token’ı için 6,00 dolar (~dakikada 0,006 dolar)
- gpt-4o-mini-transcribe: 1 milyon ses girdi token’ı için 3,00 dolar (~dakikada 0,003 dolar)
- gpt-4o-mini-tts: 1 milyon metin girdi token’ı için 0,60 dolar, 1 milyon ses çıktı token’ı için 12,00 dolar (~dakikada 0,015 dolar)
Geliştiriciler için Yeni Olanaklar
Bu modeller, müşteri hizmetlerinden toplantı notu almaya kadar geniş bir yelpazede kullanım potansiyeline sahip. OpenAI.fm üzerindeki demo sitesi ise bireysel kullanıcıların modelleri deneyimlemesine olanak tanıyor. OpenAI, bu adımla ses teknolojilerinde liderliğini pekiştirirken, geliştiricilere daha doğal ve etkili ses tabanlı uygulamalar yaratma fırsatı sunuyor. Rekabetin hız kazandığı AI ses pazarında, OpenAI’ın bu hamlesi dikkatle izlenecek.