機器視覺再突破，機器人也能腦補立體影像

技術發展至今，機器人能夠自主檢查核電廠，處理海洋中的石油洩漏事件，協助戰鬥機進行空戰，或是探索火星表面，但對它們來說，有些能力還是無法與人類比擬。其中一項人所特有的，就是辨識 3D 物體的能力，儘管機器人能輕易透過相機、感測器來「查看」物體，但它們還是難以像人類一樣，能從短暫一瞥中解讀出看到的東西。

即使是世界上最複雜的機器人，也都無法做到這項多數孩子都能自動做到的事，但杜克大學的研究生 Ben Burchfiel 和他的論文顧問 George Konidaris，已經快要找到這個問題的解決方案。

R&D Magazine 報導，為了使機器用更人性化的方式解讀 3D 物體，Burchfiel 兩人開發了一項新技術，讓機器人成功達成在混亂的桌面上分辨不同尺寸、形狀碗盤的任務。

或許你不曾注意過自己的這項能力，但人類辨識 3D 物體的能力十分出色，不論從何種角度，物體顛倒與否，看見全貌或部分被遮蔽，人們都可以從短暫一瞥中大致分辨出看到的新物體，大腦會在想像中自動填補看不到的地方。

研究團隊也希望賦予機器人這項能力，透過設計的感知算法讓機器人也能不用從多角度看見新物體，而學會猜測新物體的面貌和用途，「想像」出任何不在視野中的部分。一旦機器人具備這項技術，就不需要從每個角度觀察茶壺，也可以知道這個物體可能有把手、蓋子和出水口，也可以分辨它是否適用於何種爐子。

Burchfiel 指出，比起實驗室或工廠車間，現實世界並非可控制的環境，事物也並非總是有序或可預測，對於要在日常與人類一起運作的機器人來說，這是相當重要的一步。

12日在劍橋舉辦的機器人科學與系統大會上，研究團隊表示，他們目前已經讓機器人在有限數量的訓練下，成功辨識新看見的3D物體，速度較以往最好的情況還要再快上三倍。據了解，研究人員先用近 4,000 筆普通家庭物品的完整 3D 掃描數據訓練機器人的演算法，包含床、桌椅、梳妝台、監視器等，每個掃描再轉換為成千上萬的小立方塊，像樂高一樣堆疊在一起，讓系統更好處理。

之所以這麼做，Burchfiel 解釋，是因為團隊認為，替每個可能的特定物體設定詳細的3D模型非常不切實際。透過分析這些掃描數據的範例，演算法開始學會使用稱為「機率主成分分析」（Probabilistic PCA）的技術，了解範例數據中的變與不變。運用這個演算法，機器人發現新物品時不再需要觀察全貌，就能基於從前的知識，像人們一樣概括分辨出兩個物體的不同，同時又能理解其中相同的部分，讓這兩個物體都同樣屬於特定類型的家具。

為了測試這個方法的實用性，研究人員挑選了 10 種新的家庭用品，提供機器近千張從頂部拍攝的 3D 範例，讓機器從單一角度猜測對象是什麼，完整 3D 形狀又該是如何。結果發現包含隱藏部分，機器大概可以猜中物體 3D 形狀的 75%，較過去最好情況下猜中 50% 的比率大幅提升，不僅如此，它也能辨識各種方式旋轉的物體，這是過去其他演算法無法做到的。

但在目前的情況中，演算法仍舊容易被物體在特定角度的形狀所迷惑，像是從上方看到一張桌子，而將其誤認為一個梳妝台，但研究團隊認為整體來說，這還是很大的進步，只是還不到能在實際生活運用的程度。

儘管如此，研究團隊已成功讓機器人辨識一些 3D 物體，並透過「想像」填補視野中的盲點、重建未知的部分，Burchfiel 表示，「這在許多機器人應用中可能是無價的。」

（本文經科技新報授權轉載《杜克大學團隊要讓機器人學會「見微知著」，看見部分就想像出物品的全貌》)