OpenAI, Çok Modlu Dijital Yapay Zeka Asistanını Tanıtabilir

OpenAI, bazı müşterilere kullanıcılarla etkileşim kurabilen ve nesneleri tanıyabilen yeni çoklu modlu yapay zeka modellerini tanıtmaya başladı.

OpenAI, bazı müşterilerine kullanıcılarla konuşabilen ve nesneleri tanıyabilen yeni çoklu modlu yapay zeka modellerini tanıtmaya başladı. The Information’ın haberine göre, bu yeni model, şirketin bugün tanıtmayı planladığı ürünün bir parçası olabilir.

Paylaşılan bilgilere göre, OpenAI’ın yeni modeli, mevcut transkripsiyon ve metinden sese modellerine kıyasla daha hızlı, daha doğru görüntü ve ses yorumlaması sunuyor. Bu model, müşteri hizmetleri temsilcileri tarafından arayanların ses tonlamalarını veya alaycılığını daha iyi anlamalarına yardımcı olabilir. Ayrıca teorik olarak, modelin öğrencilere matematik konusunda yardımcı olabileceği de belirtiliyor. Aynı şekilde, model gerçek dünyadaki işaretleri tercüme edebilir.

Hatta model, bazı soru türlerini yanıtlama konusunda GPT-4 Turbo’yu bile geride bırakabilir. Ancak her yapay zeka modelinde olduğu gibi, modelin yanlış yanıtlar üretmesi de mümkündür.

Geliştirici Ananay Arora’nın X’te paylaştığı gönderiye göre; ChatGPT, telefon görüşmeleri yapmak için içinde çalışıyor. Arora ayrıca OpenAI’ın gerçek zamanlı ses ve video iletişimi için sunucular hazırladığına dair ipuçları da tespit etti.

Tüm bu ipuçlarına rağmen, bahsi geçen özelliklerin yeni bir GPT-5 modeline ait olması pek mümkün değil. OpenAI CEO’su, yaklaşan duyurunun GPT-4’ten daha iyi olması beklenen bir modelle ilgili olmadığını açıkladı. Bununla birlikte, paylaşılan bilgilere göre; GPT-5, yıl sonuna kadar kamuoyuna açıklanabilir.

OpenAI’ın yapay zeka arama motorunu Google I/O etkinliğinden önce tanıtacağını sizlere aktarmıştık. Bu durum, şirketin Google ile rekabetine yeni bir yön verebilir. Bu esnada Google’ın telefon görüşmeleri yapmak için yapay zeka kullanmayı test ettiğini belirtelim. Paylaşılan bilgilere göre; şirket, Pixie isimli çok modlu bir Google Asistan alternatifi üzerinde çalışıyor. Pixie, bir cihazın kamerası aracılığıyla nesnelere bakabilir ve kullanıcıları bu nesneleri satın alabilecekleri yerlere yönlendirir.