Meta, metin, ses, görsel datalar, sıcaklık ve hareketokumaları dahil olmak üzere birden fazla bilgi akışını birbirine bağlayan yeni açık kaynaklı AI modeli ImageBind’ı duyurdu. Model, bu noktada sırf bir araştırma projesi olsa da sunulan örnekler, yapay zekada gelinen noktayı gösteriyor ve ağızları açık bırakıyor. ImageBind, bir kuş fotoğrafından kuş sesi, bir tiren sesinden tren fotoğrafı, yahut bir araç motor sesi ve deniz fotoğrafından deniz kenarına park etmiş bir otomobil fotoğrafı oluşturabiliyor. Bu yapabildikleri ise Meta’nın hedeflediği şeyin yalnızca görünen kısmı.
Çok modlu ImageBind, “çok” farklı
Meta, insanların bir ortamı nasıl algıladığına yahut hayal ettiğine misal biçimde bilgiler ortasındaki irtibatları iddia eden ImageBind isimli bir yapay zeka aracını açık kaynak olarak sundu. Midjourney, Stable Diffusion ve DALL-E 2 üzere manzara oluşturucular sözleri imajlarla eşleştirerek sırf bir metin açıklamasına dayalı görsel sahneler oluşturmanıza imkan tanırken, ImageBind daha geniş bir ağ oluşturuyor. Metin, manzara / görüntü, ses, 3D ölçümler (derinlik), sıcaklık dataları (termal) ve hareket datalarını (atalet ölçüm birimlerinden) birbiriyle birleştiren ImageBind, bunu her mümkünlük üzerinde eğitim almak zorunda kalmadan yapıyor.
İnsan algısı taklit ediliyor
ImageBind‘ı makine tahsilini insan öğrenmesine yaklaştıran bir araç olarak görebilirsiniz. Örneğin, ağır bir kent caddesi üzere uyarıcı bir ortamda duruyorsanız, beyniniz (büyük ölçüde bilinçsizce) geçen otomobiller ve yayalar, yüksek binalar, hava durumu ve çok daha fazlası hakkında bilgi çıkarmak için görüntüleri, sesleri ve öbür duyusal tecrübeleri emer. Beşerler ve öteki hayvanlar, genetik avantajımız olan hayatta kalmak ve DNA’mızı aktarmak için bu dataları işlemek üzere şekillenmiştir. Bilgisayarlar hayvanların çoklu duyusal ilişkilerini taklit etmeye yaklaştıkça, bu temasları sırf sonlu bilgi modüllerine dayalı olarak büsbütün gerçekmiş üzere üretilmiş sahneler oluşturmak için kullanabilirler.
Fotoğrafı çekmiyor, doğruda o anı oluşturmayı hedefliyor
Yani Midjourney‘i kullanarak “bir plaj topunun üzerinde istikrarda dururken Gandalf kıyafeti giyen bir av köpeği” sorusunu sorabilir ve bu tuhaf sahnenin nispeten gerçekçi bir fotoğrafını elde edebilirsiniz, fakat ImageBind gibi çok modlu bir yapay zeka aracı sonunda köpeğin bir görüntüsünü, detaylı bir banliyö oturma odası, odanın sıcaklığı ve köpeğin ve sahnedeki başka herkesin kesin pozisyonları da dahil olmak üzere ilgili seslerle birlikte oluşturabilir. Kısaca, ImageBind bir anın fotoğrafını çekmiyor, doğruda o anı oluşturmayı hedefliyor.
Hedef VR ve meteverse mi?
Meta, bu yeni oyuncakla nelerin yapılacağına örnekler vermekten kaçınmıyor. Doğrusu Meta açıkça temel amacını muhakkak etmekten de çekinmiyor: VR, karma gerçeklik ve metaverse. Örneğin, gelecekte büsbütün gerçek 3D sahneleri (ses, hareket vb. ile) anında oluşturabilen bir başlık hayal edin. Ya da sanal oyun geliştiricileri, tasarım süreçlerindeki ayak işlerinin birçoklarını ortadan kaldırmak için bunu kullanabilirler.
Misal biçimde, içerik oluşturucular sadece metin, manzara yahut ses girdisine dayalı olarak gerçekçi ses görüntüleri ve hareket içeren sürükleyici görüntüler hazırlayabilirler. ImageBind üzere bir aracın erişilebilirlik alanında yeni kapılar açacağını, görme yahut işitme engelli bireylerin yakın etraflarını daha yeterli algılamalarına yardımcı olmak için gerçek vakitli multimedya açıklamaları oluşturacağını hayal etmek de sıkıntı değil.
Meta blog yazısında, “Tipik yapay zeka sistemlerinde, her bir modalite için makul bir gömme (yani, bilgileri ve makine tahsilindeki bağlantılarını temsil edebilen sayı vektörleri) vardır. ImageBind, her farklı modalite kombinasyonuna sahip datalar üzerinde eğitim yapmaya gerek kalmadan birden fazla modalite genelinde ortak bir gömme alanı oluşturmanın mümkün olduğunu gösteriyor.” diyor.
Meta, ImageBind’ı bu noktada durdurmak da istemiyor. Evet, model 6 farklı duyuyu yahut modu birleştiriyor lakin Meta ilerleyen devirlerde altı modalitenin yanında dokunma, konuşma, koku ve beyin fMRI sinyalleri üzere mümkün olduğunca çok sayıda duyuyu birbirine bağlayan yeni modaliteler sunmayı da hedefliyor.
Daha gelişmişi yok! Meta’nın ImageBind yapay zekası insan algısını taklit ediyor
Tamamen Ücretsiz Olarak Bültenimize Abone Olabilirsin
Yeni haberlerden haberdar olmak için fırsatı kaçırma ve ücretsiz e-posta aboneliğini hemen başlat.