OpenAI'nin yeni Sora modeli metin talimatlarından bir dakikalık videolar üretebiliyor

OpenAI'nin geliştirdiği yeni Sora modeli, kullanıcıların metin talimatları ile bir dakikalık videolar üretebilmesine olanak tanıyor.

Bu yenilik, yapay zeka teknolojisindeki ilerlemenin bir göstergesi olarak kabul ediliyor. Sora modeli, metin tabanlı talimatları alıp, bu talimatları dinamik ve görsel olarak zengin videolara dönüştürebiliyor. Bu, kullanıcıların yaratıcı fikirlerini kolaylıkla görselleştirmelerine ve etkileyici içerikler üretmelerine imkan sağlıyor. Teknoloji dünyasında büyük bir yenilik olarak değerlendirilen bu gelişme, hem eğlence sektöründe hem de eğitim ve pazarlama gibi birçok alanda yeni kapılar açıyor.

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS
— OpenAI (@OpenAI) February 15, 2024

OpenAI’nin yeni geliştirdiği Sora modeli, metin talimatlarından yola çıkarak bir dakikalık yüksek kaliteli videolar üretebiliyor. Japonca’da “gökyüzü” anlamına gelen Sora, şimdilik genel kullanıma açılmayacak. Bunun yerine, OpenAI bu modeli, potansiyel kötüye kullanımı ve zararları değerlendirecek küçük bir akademisyen ve araştırmacı grubuna sunuyor.

Sora, birden fazla karakteri, belirli hareket türlerini ve konu ile arka planın doğru detaylarını içeren karmaşık sahneler üretebiliyor. OpenAI’nin paylaştığı örnek videolardan biri, Tokyo’nun karlı bir şehrinde yürüyen bir çifti, etraflarında kiraz çiçeği yaprakları ve kar taneleri uçuşurken gösteriyor. Bir diğer video ise, karla kaplı dağ sıralarının arka planında karlı bir çayırda yürüyen gerçekçi görünümlü yünlü mamutları gösteriyor. Model, metin talimatlarını doğru bir şekilde yorumlayabilmesi sayesinde bu işlevselliği sergiliyor. Ancak, tıpkı gördüğümüz diğer AI görüntü ve video üreticileri gibi, Sora da mükemmel değil. Örneğin, bir Dalmatyalı’nın pencereden bakan ve insanların “kanal sokakları boyunca yürüyüp bisiklet sürdüğü” bir video talep eden bir talimat, videoda insanları ve sokakları tamamen göz ardı ediyor.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

Sora, metinlerden video oluşturma konusunda ilk model değil. Meta, Google ve Runway gibi diğer şirketler de metin-temelli video araçları üzerinde çalıştılar veya bunları halka açtılar. Ancak, şu an için 60 saniyeye kadar video üretebilen başka bir araç mevcut değil. Ayrıca Sora, diğer modellerin aksine videoları kare kare birleştirmek yerine, tamamını bir seferde oluşturuyor. Bu da videonun konularının, geçici olarak görüş alanından çıksalar bile, video boyunca aynı kalmasını sağlıyor.

Metin-temelli video araçlarının yükselişi, gerçekçi görünümlü sahte görüntülerin daha kolay oluşturulabilmesine yönelik endişelere yol açtı. Washington Üniversitesi’nde yapay zeka profesörü olan ve siyasi kampanyalardaki yanlış bilgileri belirlemek için çalışan True Media’nın kurucusu Oren Etzioni, “Bu tür bir şeyin kıl payı bir seçimi etkileyeceğinden kesinlikle korkuyorum,” dedi. Genel olarak yaratıcı yapay zeka, teknolojinin işleri değiştirmek için kullanılması konusunda sanatçılar ve yaratıcı profesyonellerden tepki alıyor.

OpenAI, aracı halka sunmadan önce yanlış bilgi, nefret içerikli konuşma ve önyargı gibi alanlarda uzmanlarla çalışarak aracı test ettiğini söyledi. Şirket, Sora tarafından üretilen videoları tespit edebilecek araçlar geliştiriyor ve üretilen videolara daha kolay tespit edilebilmesi için metadata ekliyor. Şirket, Sora’nın nasıl eğitildiği konusunda The New York Times’a, “kamuya açık videolar” ve telif hakkı sahiplerinden lisanslı videolar kullanıldığını belirtmek dışında bilgi vermekten kaçındı.