Google'ın Lumiere'ı yapay zeka videolarını gerçeğe yakınlaştırıyor
Google'ın yeni yapay zeka projesi Lumiere, videoların gerçeklikle sınırını zorluyor. Bu gelişme, yapay zekanın video prodüksiyonundaki potansiyelini ortaya koyarak, görsel içeriklerin nasıl üretildiği ve algılandığı konusunda yeni bir sayfa açıyor.
Google'ın yeni yapay zeka video üretim modeli Lumiere, Space-Time-U-Net ya da kısaca STUNet adı verilen yeni bir difüzyon modeli kullanıyor. Bu model, videolarda nesnelerin nerede olduğunu (uzay) ve nasıl aynı anda hareket ettiğini ve değiştiğini (zaman) çözümlüyor. Ars Technica'nın raporuna göre, bu yöntem sayesinde Lumiere, daha küçük sabit kareleri bir araya getirerek değil, tek bir süreçte video oluşturabiliyor.
Lumiere, bir komutla temel bir çerçeve oluşturarak başlıyor. Daha sonra, STUNet çerçevesini kullanarak, bu çerçevedeki nesnelerin hareket edeceği yeri tahmin ederek, birbirine akıcı bir şekilde geçen daha fazla çerçeve oluşturuyor ve böylece kesintisiz bir hareket görünümü yaratıyor. Lumiere ayrıca, Stable Video Diffusion'un sunduğu 25 kareye kıyasla 80 kare üretiyor.
Kabul etmeliyim ki, ben daha çok bir metin muhabiriyim, ancak Google'ın yayınladığı tanıtım videosu ve bilimsel bir ön baskı makalesi, AI video üretim ve düzenleme araçlarının sadece birkaç yıl içinde korkutucu vadiden neredeyse gerçekçiye geçiş yaptığını gösteriyor. Ayrıca, Google'ın teknolojisini Runway, Stable Video Diffusion veya Meta'nın Emu'su gibi rakiplerin zaten yer aldığı alanda konumlandırıyor. Runway, ilk kitlesel pazar metin-den-video platformlarından biri olarak, geçen yıl Mart ayında Runway Gen-2'yi piyasaya sürdü ve daha gerçekçi görünen videolar sunmaya başladı. Runway videoları hareketi tasvir etmekte zorlanıyor.
Google, Lumiere sitesine klipler ve komutlar koyarak, aynı komutları Runway üzerinden denememi sağladı. İşte sonuçlar:
Google'ın Lumiere'ı yapay zeka videolarını gerçeğe yakınlaştırıyor
Evet, sunulan bazı kliplerde, özellikle cilt dokusuna yakından bakıldığında veya sahne daha atmosferik olduğunda yapay bir dokunuş var. Ama o kaplumbağaya bakın! Su içinde gerçek bir kaplumbağa gibi hareket ediyor! Gerçek bir kaplumbağa gibi görünüyor! Lumiere giriş videosunu profesyonel bir video editörü olan bir arkadaşıma gönderdim. O da “açıkça tamamen gerçek olmadığı belli” olsa da, bana AI olduğunu söylemeseydim CGI sanacağını düşündüğünü belirtti. (Ayrıca, “İşimi elimden alacak, değil mi?” diye de ekledi.) Diğer modeller, hareketin zaten gerçekleştiği üretilmiş anahtar karelerden videoları bir araya getirirken, STUNet, Lumiere'ın video içinde belirli bir zamanda üretilen içeriğin nerede olması gerektiğine dayalı olarak harekete odaklanmasını sağlıyor.
Google, metin-den-video kategorisinde büyük bir oyuncu olmamıştı, ancak yavaş yavaş daha gelişmiş AI modelleri yayınladı ve daha çok modallı bir odaklanmaya yöneldi. Gemini büyük dil modeli, sonunda Bard'a görüntü üretimi getirecek. Lumiere henüz test için kullanılabilir değil, ancak Google'ın Runway ve Pika gibi genel olarak kullanılabilir AI video üreteçlerine kıyasla benzer, hatta biraz daha iyi bir AI video platformu geliştirme yeteneğini gösteriyor. Ve unutmayın, bu Google'ın AI video ile iki yıl önceki durumuydu.
Metin-den-video üretimine ek olarak, Lumiere, görüntü-den-video üretimi, stilize üretim (kullanıcıların belirli bir stil ile video yapmasını sağlar), sadece bir video bölümünü canlandıran sinemagraflar ve bir video alanını maskelemek için inpainting'i (renk veya deseni değiştirmek) de sağlayacak.
Ancak Google'ın Lumiere makalesi, “teknolojimizin sahte veya zararlı içerik oluşturmak için kötüye kullanılma riski olduğunu ve güvenli ve adil kullanımı sağlamak için önyargıları ve kötü niyetli kullanım durumlarını tespit etmek için araçlar geliştirmenin ve uygulamanın kritik olduğuna inanıyoruz” diyor. Makalenin yazarları, bunun nasıl başarılacağını açıklamadı.