Bilgisayarla görme (computer vision), robotların nesneleri veya görselleri “görmelerini” ve bu sayede istenen aksiyonu gerçekleştirmelerini sağlıyor. Bu konuda şimdiye kadar önemli ilerlemeler kaydedildi ve robotların nesneler arasında temel ayrımlar yapmasını sağladı. Ancak yine de nesnelerin şekillerini gerçekten anlamıyorlar, bu yüzden nesneleri tutmaktan başka yapabilecekleri çok az şey var.

MIT’nin Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı’ndan (CSAIL) araştırmacılar, bu alanda önemli bir gelişme kaydettiklerini söylüyor. Ekibin geliştirdiği yeni bir sistem, robotların daha önce hiç görmedikleri rastgele nesneleri gerçekten anlayıp analiz edebilmelerini ve belirli görevleri gerçekleştirmelerini sağlıyor.

“Derin Nesne Ağları” (Dense Object Nets – DON) olarak adlandırılan sistem, nesneleri noktaların birleşimi olarak görüyor. Bu da onlara üç boyutlu “görsel yol haritaları” çıkarmalarını sağlıyor.

Bu yaklaşım, robotların öğeleri daha iyi anlamalarına ve manipüle etmelerine izin veriyor. En önemlisi, benzer nesnelerden oluşan bir grup arasından belirli bir nesneyi anlayıp seçmelerini sağlıyor. Amazon ve Walmart gibi şirketlerin depolarında kullandığı makineler için gerçekten değerli bir beceri.

Örneğin, araştırmacıların gerçekleştirdiği testte olduğu gibi, istendiği takdirde DON daha önce hiç görmediği bir ayakkabının dilini başarılı bir şekilde yakalayabilir. (Araştırmacılar DON’a bir ayakkabı gösterdiler ve dilinden kavramasını öğrettiler. Ardından DON daha önce görmediği ve orijinal ayakkabından farklı bir pozisyondaki ayakabının dilini tutmayı başardı.)

Ekip, sistemin potansiyel kullanımının üretim bantlarıyla sınırlı olmadığını söylüyor. Örneğin düzenli bir evin görüntüsünü gördükten sonra dağınık evinizi temizleyebilecek veya bulaşık görüntüsünü kullanarak siz evde yokken bulaşıklarınızı yıkayacak potansiyele sahip olduğunu belirtiyorlar.

Paylaş

Cevapla