Fotoğrafları Dile Getiren Yapay Zeka Aracı: EMO

Alibaba Group’un yeni yapay zeka aracı EMO, fotoğrafları seslendirilebilir videolara dönüştürüyor. Yapay zeka, konuşma hızını otomatik ayarlıyor ve daha doğal videolar oluşturuyor.

Alibaba Group, yeni yapay zeka aracını sundu. Emote Portrait Alive (EMO) olarak adlandırlan yapay zeka aracı, herhangi bir fotoğrafı videoya dönüştürürken ayrıca bu videoları seslendirebiliyor. Sadece seslendirmekle kalmayan yapay zeka aracı, fotoğraflardaki insanları istenilen sese uygun ağız hareketleriyle birlikte konuşturabilme yeteneğine sahip.

EMO’nun özelliklerinden biri kullanılacak ses kaynağına göre konuşmanın hızını otomatik olarak özelliğidir. Bu özellik sayesinde, jestler ve mimikler videoda daha gerçeğe yakın bir şekilde yer alır.

Uzmanlar, bu özelliklere sahip yapay zeka aracının iki bileşenden oluştuğunu vurguluyor. Birinci bileşen, görseli tanımlayarak bir referans görselden hareketli kareler oluştururken, diğeri ses dosyasını analiz ederek önemli noktaları belirlemede rol alıyor. Ardından, bu önemli noktalar ile görseller eşleştirilerek bir video oluşturuluyor.

Araştırmacılar, EMO’nun eğitimini gerçekleştirmek için geniş bir veri seti kullandılar. Bu veri seti, çeşitli kaynaklardan derlenen 250 saatten fazla konuşma videosunu içeriyordu, bunlar arasında konuşmalar, filmler, televizyon şovları ve şarkı performansları yer alıyordu.

Yapılan deneyler, EMO’nun video kalitesi ve ifade zenginliği gibi ölçütlerde diğer yöntemlere kıyasla belirgin bir şekilde daha iyi performans gösterdiğini ortaya koydu. Ayrıca, kullanıcı çalışmaları da EMO’nun ürettiği videoların diğer sistemler tarafından üretilenlere göre daha doğal ve duygusal olduğunu gösterdi.