Bilgisayar BilimleriTeknoloji

Yeni Yapay Zekâ, Sentezlenmiş Ses Efektlerinin Gerçekliğine İnandırıyor

Çeviren: Mert Günçiner                               Düzenleyen: Nergiz Kaşka & Esranur Maral

Özet: Makine öğrenimini kullanan AutoFoley programı, bir videonun içerisindeki eylemleri algılayarak onlara uygun gerçekçi ses efektleri üretiyor.

Bir korku filmi izlediğinizi hayal edin. Bodrum katının karanlığında diken üstünde yürürken arka planda gerilim dolu bir müzik çalar. O sırada görünmez, dehşet dolu bir yaratık gölgeler arasından çıkar ve… BAM! Bir cisim yere devrilir.

Bu tarz sahneler, sizi o ana bağlayıp korku içinde sağa sola kaçmanıza sebep olan gürültülü patlamalar gibi başarıyla zamanlanmış arka plandaki ses efektleri olmadan aynı etkiyi veremezdi. Genelde bu gibi ses kayıtları stüdyolardaki Foley sanatçıları tarafından birçok nesneden çeşitli sesler üretilerek yapılır. Örneğin bu sanatçılar bir cam kırılması sesini gerçekten seri şekilde darbeler vurulmuş camlardan üretir ve çıkan bu sesin videoyla eşleşmesi amaçlanır.

Yakın zamanlarda araştırmacıların bulduğu ilginç bir yöntem sayesinde videonun her bir karesi kendiliğinden çalışan bir program tarafından inceleniyor. Ayrıca sahne içerisindeki hareketlere özgü ses efektleri oluşturuluyor. Yapılan bir oylamada, çoğu insanın bu sahte ses efektlerinin gerçek olduğuna inandığı ortaya çıktı. AutoFoley programı ilk olarak 25 Haziran’da IEEE Transactions on Multimedia’da yayımlandı.

AutoFoley programının yaratıcılarından olan ve San Antonio şehrindeki Teksas Üniversitesinde Profesör JeffPrevost şöyle diyor: “Foley sanatıyla ses efektlerinin üretim sonrası (post prodüksiyon) aşamasında eklenmesi 1930’lardan beri sinema ve televizyon sektörünü uğraştıran işlerden biriydi. Foley ile üretilen gerçekçi film müzikleri olmadan tüm filmler içi boş ve samimiyetsiz olurdu. Fakat Foley ile ses sentezi yapmak filmin yapılma süresini hem uzatıyor hem de bütçeye ek bir masraf ekliyor.”

Prevost ve doktora öğrencisi Sanchita Ghose, kendiliğinden çalışan Foley sistemi fikrinin ilgilerini çekmesi üzerine çok katmanlı bir makine öğrenimi programını oluşturmaya koyuldu. İlk aşamada kullanılabilecek iki farklı model oluşturdular. Bu modeller hem videodaki eylemlerin tespit edilmesinden hem de bu eylemlere uygun seslerin belirlenmesinden sorumluydu.

İlk makine öğrenimi modeli, uygun ses efektlerini belirlemek adına hızlı ilerleyen aksiyon sahnelerinden alınmış karelerde göze çarpan çeşitli görüntü özelliklerini (resim ya da belli bir hareket gibi) ortaya çıkarıyordu.

İkinci modelse söz konusu bir cismin dâhil olduğu her bir kareyle olan ilişkisini analiz ediyordu. Buradan çıkarılan mantıksal ilişkiyle her geçen zamanla birlikte ilerleyen kareler birbirleriyle karşılaştırılıyor ayrıca videonun bu kısmında hangi eylemin yer aldığı belirleniyordu.

Son aşamadaysa modeller sayesinde belirlenen eyleme özgü bir ses efekti sentezleniyordu. Prevost ve Ghose, AutoFoley programını kullanarak filmlerden alınan bin tane kısa sahnede tespit edilen günlük olaylara özgü sesleri (yağmur, dörtnala koşan at ve saatin ‘‘tık’’ sesi gibi) üretmek için kullandı.

Analizden elde edilen ve sürpriz olmayan sonuçlara göre ses zamanlamasının videoyla mükemmel şekilde uyuşmasının gerekmediği anlarda (yağmur sesi, şöminedeki ateş sesi gibi) AutoFoley programı en iyi çıktıyı veriyordu. Fakat görsel sahnelerin rastgele olaylar içerdiği anlarda (klavyede yazma, gök gürültülü fırtınalar gibi) programın uyuşması bozulabiliyordu.

Sonrasında Prevost ve Ghose, bölgeden buldukları 57 üniversite öğrencisine hangi film sahnelerinin orijinal film müzikleri, hangilerinin programla üretilmiş sesler içerdiğini sordu. İlk modelle üretilen sesler sunulduğunda öğrencilerin %73’ü AutoFoley ile üretilmiş sesleri filmin orijinal müzikleri sandı. İkinci modelden elde edilen sesler sunulduğundaysa öğrencilerin %66’sı AutoFoley ile üretilmiş sesleri filmin esas hâline ait sesler olduğunu zannetti.

Prevost şöyle diyor: “Yaklaşımımızı sınırlandıran bir noktaysa bütün video kare dizileri boyunca sınıflandırılma yapılmasının zorunlu olması.” Aynı zamanda AutoFoley programının, kısıtlı sayıda mevcut olan Foley kategorilerinin veri kümesine dayandığını belirtiyor. AutoFoley için patent alınması henüz erken olduğundan Prevost’a göre bu tür engeller ileriki araştırmalar ile aşılabilir.

Haber Metni
https://spectrum.ieee.org/tech-talk/artificial-intelligence/machine-learning/new-ai-dupes-humans-into-believing-synthesized-sound-effects-are-real

Mert Günçiner

İzmir Yüksek Teknoloji Enstitüsü, Elektrik Elektronik Mühendisliği öğrencisi, bilimsever.

İlgili Makaleler

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu