技術發展至今,機器人能夠自主檢查核電廠,處理海洋中的石油洩漏事件,協助戰鬥機進行空戰,或是探索火星表面,但對它們來說,有些能力還是無法與人類比擬。其中一項人所特有的,就是辨識 3D 物體的能力,儘管機器人能輕易透過相機、感測器來「查看」物體,但它們還是難以像人類一樣,能從短暫一瞥中解讀出看到的東西。
即使是世界上最複雜的機器人,也都無法做到這項多數孩子都能自動做到的事,但杜克大學的研究生 Ben Burchfiel 和他的論文顧問 George Konidaris,已經快要找到這個問題的解決方案。
R&D Magazine 報導,為了使機器用更人性化的方式解讀 3D 物體,Burchfiel 兩人開發了一項新技術,讓機器人成功達成在混亂的桌面上分辨不同尺寸、形狀碗盤的任務。
或許你不曾注意過自己的這項能力,但人類辨識 3D 物體的能力十分出色,不論從何種角度,物體顛倒與否,看見全貌或部分被遮蔽,人們都可以從短暫一瞥中大致分辨出看到的新物體,大腦會在想像中自動填補看不到的地方。
研究團隊也希望賦予機器人這項能力,透過設計的感知算法讓機器人也能不用從多角度看見新物體,而學會猜測新物體的面貌和用途,「想像」出任何不在視野中的部分。一旦機器人具備這項技術,就不需要從每個角度觀察茶壺,也可以知道這個物體可能有把手、蓋子和出水口,也可以分辨它是否適用於何種爐子。
Burchfiel 指出,比起實驗室或工廠車間,現實世界並非可控制的環境,事物也並非總是有序或可預測,對於要在日常與人類一起運作的機器人來說,這是相當重要的一步。
12日在劍橋舉辦的機器人科學與系統大會上,研究團隊表示,他們目前已經讓機器人在有限數量的訓練下,成功辨識新看見的3D物體,速度較以往最好的情況還要再快上三倍。據了解,研究人員先用近 4,000 筆普通家庭物品的完整 3D 掃描數據訓練機器人的演算法,包含床、桌椅、梳妝台、監視器等,每個掃描再轉換為成千上萬的小立方塊,像樂高一樣堆疊在一起,讓系統更好處理。
之所以這麼做,Burchfiel 解釋,是因為團隊認為,替每個可能的特定物體設定詳細的3D模型非常不切實際。透過分析這些掃描數據的範例,演算法開始學會使用稱為「機率主成分分析」(Probabilistic PCA)的技術,了解範例數據中的變與不變。運用這個演算法,機器人發現新物品時不再需要觀察全貌,就能基於從前的知識,像人們一樣概括分辨出兩個物體的不同,同時又能理解其中相同的部分,讓這兩個物體都同樣屬於特定類型的家具。
為了測試這個方法的實用性,研究人員挑選了 10 種新的家庭用品,提供機器近千張從頂部拍攝的 3D 範例,讓機器從單一角度猜測對象是什麼,完整 3D 形狀又該是如何。結果發現包含隱藏部分,機器大概可以猜中物體 3D 形狀的 75%,較過去最好情況下猜中 50% 的比率大幅提升,不僅如此,它也能辨識各種方式旋轉的物體,這是過去其他演算法無法做到的。
但在目前的情況中,演算法仍舊容易被物體在特定角度的形狀所迷惑,像是從上方看到一張桌子,而將其誤認為一個梳妝台,但研究團隊認為整體來說,這還是很大的進步,只是還不到能在實際生活運用的程度。
儘管如此,研究團隊已成功讓機器人辨識一些 3D 物體,並透過「想像」填補視野中的盲點、重建未知的部分,Burchfiel 表示,「這在許多機器人應用中可能是無價的。」
- Helping Robots Learn to See in 3D
- Bayesian Eigenobjects: A Unified Framework for 3D Robot Perception
(本文經科技新報授權轉載《杜克大學團隊要讓機器人學會「見微知著」,看見部分就想像出物品的全貌》)