Table of contents
ChatGPT’yi geliştiren yapay zeka şirketi OpenAI, bu videonun yayına girmesinden 1 gün önce -15 Şubat’ta- yeni bir model yayınladı. “Sora” adlı bu model yazı değil, görsel de değil, yazıdan video üretiyor. Hem de 1 dakikaya varabilen uzunlukta videolar!
Az önce izlediğiniz görüntülerin tamamı yapay zekayla oluşturulmuş. İnsanların gerçek dünya etkileşimi gerektiren sorunları çözmelerine yardımcı olan modelleri eğitmek amacıyla, yapay zekaya hareket halindeki fiziksel dünyayı anlamayı ve simüle etmeyi öğretmişler.
Yandaki videonun uzunluğu tam 40 saniye. Sora, görsel kaliteyi ve kullanıcının isteğine bağlılığı koruyarak buna benzeyen bir dakikaya kadar uzunlukta videolar oluşturabiliyor. Bu videoyu oluşturabilmek için şunu yazmak yeterli oluyor: “Victoria taçlı güvercinin bir yakın çekimini istiyorum, onun çarpıcı mavi tüylerini ve kırmızı göğsünü sergilesin. Arması narin, dantelli tüylerden oluşurken, gözü çarpıcı bir kırmızı renkte olsun. Kuşun kafası hafifçe yana doğru eğilerek muhteşem ve görkemli göründüğü izlenimini versin. Arka planı da biraz bulanık yap ki kuşun çarpıcı görünümüne daha fazla dikkat çekilsin.”
Sadece kelimelerle böyle hareketli görüntüler oluşturma fikri yeni değil. Başka yapay zeka modelleri de bu konuda çalışmalar yapıyordu, ancak şimdiye kadar çıkan en gelişmiş modelin bu olduğunu söyleyebilirim.
Şimdi size vereceğim örneklere dikkatle bakın lütfen.
ÖRNEKLER
Bu dron görüntüsü öylesine bir sahili göstermiyor. “Prompt”a bakarsanız spesifik bir bölgede California’nın “Big Sur” bölgesindeki bir sahilde yer alan bir deniz fenerini hayal etmesi istenmiş yapay zekadan. O bölge gerçekten de buna benziyor ama gerçekte böyle bir deniz feneri yok!
“Burada da Amalfi Sahili’ndeki kayalık bir çıkıntının üzerine inşa edilmiş güzel bir tarihi kilisenin etrafında bir drone kamerası dolaşıyor.”
Söylerken bile çuvallıyorum. Gerçekte dolaşmıyor. Gerçekte Amalfi sahili var ama bunların hiçbiri yok. Bunlar hayal edip yazıya döktüğümüz şeylerin yapay zeka tarafından oluşturulan görüntüleri!
Şimdi daha yaratıcı bir şey hayal edelim. Normalde bir araya gelmeyecek iki şeyi bir videoda buluşturalım. Bir fincan kahve ve korsan gemileri. Sora’ya soruyoruz: “Bir fincan kahvenin içinde yüzerken birbirleriyle savaşan iki korsan gemisinin fotogerçekçi yakın çekim videosunu yapar mısın?”
Bu görüntüye bir kez daha bakın. Çünkü sadece fantastik bir şeye bakmıyorsunuz. Bu resmen veriyle beslenmiş bir fizik motoru tarafından üretilmiş gibi. Böyle bir görüntüyü elde etmek için makineyi nasıl eğittiler bilmiyorum. Open AI’ın sayfasında artık bu tür ayrıntılar pek verilmiyor. Ama simülasyon yöntemiyle öğrenmiş olabileceğini zannediyorum. Mesela Unreal Engine gibi bir 3D yazılımın yeteneklerini kullanmış olmalı. Spekülasyon yapıyorum. O kadar fotorealistik gözüküyor ki neredeyse bilgisayar oyunlarında da kullanılan “raytracing” ile render edilmiş gibi. Fincanın içindeki kahveyi görüyoruz ama okyanus dalgaları gibi davranıyor. Korsan gemileri birbirine karışmadan bu keşmekeşin içinde yüzüyor.
Bunları izledikçe kaygılanmalı mıyız yoksa mutlu mu olmalıyız bilemiyorum. Bana mutluluğun resmini çizebildiğini biliyorum Dall-e. Peki sorarım sana Sora: “gökyüzündeki bir bulut parçasının üzerinde oturmuş kitap okuyan 20’li yaşlarında genç bir adam gösterebilir misin?”
Tekrar ediyorum, ne o adam ve ne de üzerinde oturduğu bu bulut gerçek değil. Yani biz yönetmenlik yapıyoruz, Sora da çekimleri gerçekleştiriyor.
Bitmedi! Animasyon da yapabiliyor. Kendisinden eriyen kırmızı bir mumun yanında diz çökmüş kısa tüylü bir canavar çizmesini isteyebiliyorsunuz. Stil transferi için spesifik arzularınıza da ekleyebiliyorsunuz. Gerçekçi 3D bir sahne olsun, ışığa ve dokulara odaklan. Merak duygusunu ver. Bir yandan masumiyet bir yandan da oyunculuk duygusunu hissedelim.
Başka bir animasyon örneğinde abartılı gözlere sahip bir yaratık yapması istenmiş. Dikkat ederseniz bu yaratık tavşana da benziyor, sincaba da… Çünkü ona verilen tarifte tam da böyle bir yaratık olması istenmiş.
Çok daha acayip bir animasyon için de şöyle bir “prompt” kullanılmış: “Rengarenk balıklar ve deniz canlılarıyla dolu bir mercan kayalığının muhteşem bir şekilde işlenmiş kağıt sanatı dünyası.”
Ben mamutlarla ilgili videomu hazırlarken yapay zekayla sadece hareketsiz görseller üretebilmiştim. Oysa şimdi aynı videoyu yapıyor olsaydım, böyle görüntüleri de geliştirip kullanabilirdim.
KUSURLAR
Şimdi biraz kusur bulalım. Her örnek aynı kalitede değil. Etrafta minik kırmızı pandaların koştuğu, içinde bir bambu ormanının olduğu petri kabını gösteren bu görüntüde kırmızı pandaların ortaya çıktığı noktada problemler var.
Ya da 2056 yılında Nijerya’nın Lagos halkını gösteren ve özellikle cep telefonu kamerası estetiğiyle oluşturulan şu videoya bakın. Burada da ölçeklendirme sorunları var. İnsanların boyutları ve perspektifte hatalar mevcut.
Hayır zaten bunlar da olmasa konu kapandı, bitti diyeceğiz. Elbette geliştirmeye açık noktalar var. Ama bazı görüntüler neredeyse kusursuz.
Ayrıca bile isteye kusurlu görüntü oluşturabilmek de mümkün. Mesela “*Altına hücum sırasında Kaliforniya’nın tarihi görüntüleri”*ni istediğinizde bunu veriyor. Arşivden çıkarılmış gibi dursa da tabiki gerçekte böyle bir olay hiç yaşanmadı. Ama görünen o ki istersek yapay zekayla tarihi bile yeniden yazabilmek mümkün olacak.
Open AI’nın sadece hareketsiz, sabit görüntüler üretebilen Dall-e adlı yapay zeka modelinin ilk versiyonlarında en çok insan vücuduna ait parçalarda kusurlar oluyordu. Örneğin 6-7 parmaklı insanlar filan yapıyordu. Bir de gözler çok kusurluydu.
Sora adlı bu video modeli gözler konusunda bazen başarılı, bazen de arada bir yerlerde kalmış gibi.
Bir bilim kurgu filminin trailer videosu gibi hazırlanan görüntülerdeki adamın sentetik olduğunu gözleri ele veriyor. Sanki bir bilgisayar oyunundan alınmış gibi.
Ama 24 yaşındaki bir kadının gözünü kırpıştırmasının bu aşırı yakın çekimi ondan çok daha kaliteli olmuş. Hala bir donukluk var gibi. Ancak dokulardaki, ışıklandırmadaki ayrıntılar size bunu unutturabiliyor. Gözdeki yansımaya bakar mısınız?
Yapaylığı gözlerden ve vücut parçalarından yakalayabileceğimiz bir başka klip de bu. Kedi ve sahibi arasındaki etkileşim. Klibin başında sahibinin gözlerinde içinize sinmeyen bir şey var. Kedinin uzattığı patiyle büzüşen yüz hatları biraz gerçekçi ama o da ne? Kedinin önde iki patisi varken hiç çaktırmadan üçüncü bir pati daha devreye giriyor.
Bu doğumgünü partisinde de dikkatimiz neredeyse tümüyle büyükanneye gitmiş durumda. Çok gerçekçi bir gülümseme ifadesi görüntüyü daha bir otantik kılıyor ve bizim inanmamızı kolaylaştırıyor. Ama arkadakilere bir bakar mısınız? Özellikle şu kadına! Kadının eline!
Iıııh! Yedek parmağını çıkardı 🙂
Bu örnekte Sora, sandalyeyi katı bir nesne olarak modellemeyi başaramıyor ve bu da hatalı fiziksel etkileşimlere yol açıyor. Hoop, uçtu gitti.
Özellikle birçok varlığın bulunduğu sahnelerde hayvanlar veya insanlar kendiliğinden böyle ortaya çıkabiliyor.
Dediğim gibi daha ilk sürümü yayınlanan bir model olduğu için bu tür kusurların olması normal. Hatta Dall-e’nin ilk sürümüyle kıyasladığımızda ondan çok daha olgun olduğunu söyleyebiliriz.
Sora, birden fazla karakterin, belirli hareket türlerinin ve konu ile arka planın doğru ayrıntılarının yer aldığı karmaşık sahneler de oluşturabiliyor. Model, yalnızca kullanıcının ne istediğini değil, aynı zamanda bu şeylerin fiziksel dünyada nasıl var olabileceğini de kestiriyor.
Mesela balta girmemiş bir ormanda uçan göçmen kuşları analiz ettiği için, “kuşların yerine kağıttan uçaklar koy” dediğinizde bunu yapabiliyor.
Beni en çok etkileyen kliplerden biri de şu oldu. “Tokyo banliyölerinde seyahat eden bir trenin penceresindeki yansımalar.” Tren gölgeli bir sütunun ardından geçerken, onun içindeki yolcuların görüntüsü bir anlığına beliriveriyor. Gerçek dünyadaki ışık ve yansıma oyunlarını bu kadar başarılı gösterebilmek gerçekten çok şaşırtıcı.
GÜVENLİK
Peki bu teknoloji kötü niyetli insanların eline geçerse ne olur? Open AI her zaman olduğu gibi güvenlik önlemleri aldığını söylüyor. Dezenformasyon, yanlış bilgi, nefret içeriği ve önyargı gibi alanlarda uzman kişilerden oluşan “kırmızı takım”larla çalıştıklarını duyurdular.
Sora ile üretilen her videoya C2PA standardında metadata eklenecek. Bu herkese açık bir teknik standart ve özellikle de yayıncılar tarafından kullanılıyor. Böylece üretilmiş görsellerin ya da artık videoların yapay zekayla mı yoksa insan tarafından mı üretildiği bu meta veriyle bir anlamda imzalanıyor.
Fakat tüm bu önlemler ne kadar yeterli olacak bunu bilemiyoruz. Çünkü bu konuda çalışmalar yapan şirketler artık hiç hız kesmeden yeni ürünler çıkarmaya başladı. Bir züccaciye dükkanına giren fil gibi hareket ettikçe bir şeyleri kırıp döküyorlar ama bunu eskisi kadar umursamıyorlar.
ETİK KAYGILAR
Mesela umursamadıkları bir şey. Hangi verisetlerini kullanarak makinelerini eğitiyorlar acaba? Bu modellerin eğitim aldıkları içerikle, o içeriğin arkasındaki insan üreticilerin rekabet etmediğini/etmeyeceğini iddia edebilir miyiz? Video stok kütüphaneleri ve o kütüphanelere video çeken bir sürü insan var. Türkiye’den de çok yetenekli videografların olduğunu gayet iyi biliyorum. Onlar çektikleri görüntüleri bu kütüphanelere satarak hem geçiniyorlar hem de yurda döviz sokmuş oluyorlar. Şimdi onların yerini yapay zeka alırsa ne olacak? Sora ne üzerinde eğitildi acaba? Bu bahsettiğim stok kütüphaneleri olabilir mi? Eğer öyleyse oradaki insanlar kendi çalışmalarının kullanılmasına izin verdi mi? Dediğim gibi OpenAI eskisi kadar “open” değil. Bu konulardaki bilgi eksikliği pek güven uyandırmıyor. Zaten tam da bu sebeple New York Times gazetesi onlara dava açtı.
Bizim haberlerimiz kullanarak makineni eğittin diye. Gerçekten öyle mi tam bilemiyoruz. Ama yapay zeka endüstrisinde, insanların çalışmaları, bu çalışmalarla rekabet edebilecek ürünler oluşturmak için çoğunun rızası alınmadan kullanılıyor. Bunun yasa koyucular tarafından mutlaka kontrol edilmesi gerekir. Tabi önce yasa koyucuların bu konuları anlayabilmesi de gerekir ama nerede… İşte onlar anlayana kadar iş işten geçsin ve standartları biz belirleyelim telaşıyla böyle filler züccaciye dükkanına girecekler ve ortalığı yıka döke tepişecekler.
Çünkü hedef çok büyük. Çünkü inanılmaz bir ekonomik sıçrama bizi bekliyor. Bildiğimiz bir çok şey değişecek. Bu konuda teknoloji geliştiren şirketlerin arasında kıyasıya bir rekabet var. Bunu çok net görebiliriz. Size çok somut bir örnekle göstereyim.
Videonun başında da söylediğim gibi Sora, dün yani 15 Şubat 2024’te anons edildi. Yerel saatle öğleden sonra 1’i 14 geçe. Neden bu kadar ayrıntıya giriyorum biliyor musunuz? Çünkü ondan 3 saat önce başka bir teknoloji şirketi başka bir teknolojik gelişmeyi anons etti. Google, kendi yapay zeka modeli olan Gemini’ın yeni 1.5 sürümünü duyurdu. Sabah 10:07’de.
Sabah Google’ın paylaşımından 3 saat sonra OpenAI’dan böyle bir açıklamanın gelmiş olması aradaki yarışın ne derece kızgın olduğunun çok açık bir göstergesi. Resmen web sayfasını hazırlayıp cepte tutmuşlar. Google açıklayınca hemen cevabı yapıştırdılar. Çünkü Google bu konuda biraz daha yavaş hareket ediyor ve bunun bedelini ödüyor. Bildiğiniz gibi ABD’nin ve dünyanın en büyük şirketlerinden biri. Ama artık iki gün önce onu geçerek daha büyük hale gelen başka bir şirket var. Nvidia. Evet 14 Şubat Çarşamba sevgililer gününde Nvidia’nın piyasa değeri sadece Google’ı değil onun ve YouTube gibi diğer kardeş şirketlerinin hepsinin bağlı olduğu ana şirket Alphabet’i geçti. Nvidia yani oyun bilgisayarlarına grafik kart üreten şirket. Artık Google’dan daha büyük. Peki neden? Çünkü oyun bilgisayarlarında kullanılan o kartlar tüm bu yapay zeka modellerinin eğitilmesi için de kullanılıyor. Yarış böylesine kızışmış durumda. OpenAI, Nvidia’ya bağımlı olmaktan kurtulabilmek ve kendi donanım altyapısını da geliştirebilmek için kolları sıvamış gözüküyor. Geçenlerde şirketin önce kovulup sonra tekrar çağrılan CEO’su Sam Altman 7 trilyon dolar yatırım almak istediğini söyledi. 7 trilyon dolarcık. Yani Türkiye’nin yıllık gayrısafi milli hasılasının 10 katını istiyor. Düşünün Türkiye’nin 10 katı büyüklüğünde bir parayı verecek olanların o paradan nasıl bir geri dönüş bekleyeceklerini?
İşte böyle bir gelecek bizi bekliyor.
kaynak: Barış Özcan