Videolar için yeni AI tabanlı ses oluşturma aracı
DeepMind'in video-ses teknolojisi, geleneksel seslendirme yöntemlerinden farklı olarak ham pikselleri ve metin girdilerini kullanarak benzersiz sesler yaratabiliyor. Bu yenilik, sessiz filmler ve diğer sesi olmayan videolar için de kullanılabilir.
Google'ın DeepMind yapay zeka laboratuvarı, videolarla eşleştirilebilecek ses efektleri ve diyaloglar üretebilen yeni bir teknoloji üzerinde çalışıyor. DeepMind ekibi, video ile ses (V2A) teknolojisi projesi hakkında kaydettiği ilerlemeyi paylaştı. Bu teknoloji, Google Veo ve OpenAI'nin Sora gibi diğer video oluşturma araçlarıyla uyumlu çalışabiliyor. Blog yazısında, sistemin ham pikselleri anlayabildiği ve bu bilgileri metin girdileriyle birleştirerek ekrandaki olaylara uygun ses efektleri oluşturabildiği belirtiliyor. Bu araç, sessiz filmler ve diğer sesi olmayan videolar için de ses efektleri ve müzik oluşturmak için kullanılabiliyor.
DeepMind araştırmacıları, teknolojiyi videolar, sesler ve AI tarafından oluşturulmuş detaylı ses tanımlamaları ve diyalog transkriptleri ile eğitti. Böylece teknoloji, belirli sesleri görsel sahnelerle ilişkilendirmeyi öğrendi. TechCrunch'a göre, DeepMind ekibi, ses efektleri üretebilen bir AI aracını piyasaya süren ilk ekip değil; yakın zamanda ElevenLabs de benzer bir araç çıkarmıştı. Ancak DeepMind ekibi, mevcut video-ses çözümlerinden farklı olarak, sistemlerinin ham pikselleri anlayabildiğini ve metin girdisinin isteğe bağlı olduğunu vurguluyor.
Metin girişi isteğe bağlı olmasına rağmen, nihai ürünü şekillendirmek ve gerçekçi hale getirmek için kullanılabiliyor. Olumlu girdiler girerek istediğiniz seslerin oluşturulmasını sağlayabilir veya olumsuz girdiler kullanarak istemediğiniz seslerden kaçınabilirsiniz. Örnek olarak, ekip "Sinema, gerilim, korku filmi, müzik, gerginlik, beton üzerinde adımlar" gibi bir metin girdisi kullandı.
Araştırmacılar, V2A teknolojisinin mevcut sınırlamalarını gidermeye çalıştıklarını kabul ediyorlar. Kaynak videodaki bozulmalar nedeniyle çıkış ses kalitesinde düşüş yaşanabileceğini belirtiyorlar. Ayrıca, üretilen diyalogların dudak senkronizasyonunu geliştirmek için çalışıyorlar. Teknolojiyi piyasaya sürmeden önce "yoğun güvenlik değerlendirmeleri ve testler" yapacaklarını da belirtiyorlar.
Bu yeni teknoloji, video içerik üreticileri için büyük bir adım olabilir. Görsel-işitsel deneyimleri zenginleştirmek ve ses tasarımını daha erişilebilir hale getirmek için önemli bir potansiyele sahip. DeepMind'in bu çalışması, yapay zekanın yaratıcı endüstrilerdeki rolünü genişletme yolunda bir başka önemli gelişmeyi temsil ediyor.