作者:Shingo Shimoda等
翻譯:阿康
編者按:
隨著社會(huì)發(fā)展和技術(shù)進(jìn)步,機(jī)器人將逐漸成為我們工作、生活中的重要伙伴。認(rèn)知機(jī)器人結(jié)合了機(jī)器人和人工智能前沿技術(shù),讓機(jī)器人像人類一樣觀察、思考、感知世界。本文原載于《Advanced Robotics》Volume 36(2022),有助于我們?nèi)媪私庹J(rèn)知機(jī)器人的發(fā)展。
1. 引言
認(rèn)知機(jī)器人的角色作用是什么?今天,自動(dòng)機(jī)械和人們通常稱之為機(jī)器人的界限變得越來(lái)越模糊。然而,機(jī)器人最初被設(shè)想為以更生物或類似動(dòng)物的方式移動(dòng)的人工制品。因此,許多機(jī)器人研究人員正在尋求開(kāi)發(fā)能夠與我們一起生活并相互幫助的機(jī)器人。
最近,社會(huì)對(duì)機(jī)器人成為我們合作伙伴的需求迅速增加。為此,機(jī)器人需要感知環(huán)境,了解周圍環(huán)境,與人交流,并與人類共享相同的環(huán)境。盡管“高水平的認(rèn)知功能對(duì)這些機(jī)器人至關(guān)重要”的抽象論點(diǎn)沒(méi)有爭(zhēng)議,但所需的認(rèn)知功能的種類仍然是一個(gè)懸而未決的問(wèn)題。
在心理學(xué)中,認(rèn)知是指通過(guò)感官、思想和經(jīng)驗(yàn)獲得知識(shí)和理解的過(guò)程,這意味著認(rèn)知主要是從感知到理解環(huán)境的單向過(guò)程。在行為生物學(xué)和人工智能領(lǐng)域,更多地關(guān)注動(dòng)態(tài)問(wèn)題,認(rèn)知的含義已經(jīng)擴(kuò)大到不僅包括理解給定情況的單向過(guò)程,還包括以學(xué)習(xí),記憶和運(yùn)動(dòng)控制功能作為信號(hào)循環(huán)創(chuàng)建運(yùn)動(dòng)的過(guò)程。我們非常好奇機(jī)器人技術(shù)將如何為改善認(rèn)知概念做出貢獻(xiàn)。
2014年,在IEEE機(jī)器人與自動(dòng)化學(xué)會(huì)成立了認(rèn)知機(jī)器人技術(shù)委員會(huì)(TC-CoRo),以鼓勵(lì)對(duì)認(rèn)知機(jī)器人研究的討論。TC-CoRo的創(chuàng)始首席主席Giulio Sandini教授在TC-CoRo啟動(dòng)時(shí)表示,各個(gè)科學(xué)領(lǐng)域之間的合作對(duì)于實(shí)現(xiàn)真正有用的認(rèn)知系統(tǒng)至關(guān)重要,機(jī)器人技術(shù)需要成為整合這些科學(xué)的“大熔爐”。
這一信息源于機(jī)器人技術(shù)的重要特征,即控制器中實(shí)現(xiàn)的所有功能都體現(xiàn)為現(xiàn)實(shí)世界中的機(jī)器人行為。我們可以觀察和分析行為中實(shí)現(xiàn)功能的細(xì)節(jié),超越理論和抽象的討論。機(jī)器人技術(shù)的這一特性可以防止對(duì)概念功能的討論變得過(guò)于多樣化和過(guò)于籠統(tǒng)。從機(jī)器人技術(shù)對(duì)提高認(rèn)知概念的貢獻(xiàn)來(lái)看這一特征,機(jī)器人可以提供一個(gè)領(lǐng)域,將計(jì)算和行為與環(huán)境的物理接觸和與他人的交流聯(lián)系起來(lái),在這里我們可以討論深入的認(rèn)知功能,包括認(rèn)知在過(guò)程中的存在和認(rèn)知的作用。
為了闡明機(jī)器人技術(shù)的這一作用,我們舉辦了一場(chǎng)名為“下一代認(rèn)知機(jī)器人的作用是什么?”的在線圓桌會(huì)議。在圓桌會(huì)議上,我們討論了從認(rèn)知功能的基本技能到現(xiàn)實(shí)世界中實(shí)現(xiàn)的主題。
在本文中,我們總結(jié)了圓桌會(huì)議的討論,以闡明適合機(jī)器人控制的認(rèn)知系統(tǒng)和未來(lái)認(rèn)知機(jī)器人研究的正確方向。為了總結(jié)圓桌會(huì)議的討論,我們首先需要從機(jī)器人學(xué)的角度澄清為什么認(rèn)知系統(tǒng)是必要的。在經(jīng)典機(jī)器人技術(shù)中,機(jī)器人使用如圖1(a)所示的系統(tǒng)進(jìn)行控制。在該框架中,對(duì)機(jī)器人主體、環(huán)境、行為目標(biāo)和約束條件等重要控制信息進(jìn)行建模,并設(shè)計(jì)與模型匹配的控制器。這種基于模型的方法的關(guān)鍵問(wèn)題之一是模型的錯(cuò)誤。即使在工廠等穩(wěn)定環(huán)境中,只要機(jī)器人移動(dòng)并且該運(yùn)動(dòng)由傳感器測(cè)量,不確定的建模錯(cuò)誤和傳感器噪聲是不可避免的。處理這些不確定性的常用方法是在控制器中設(shè)計(jì)魯棒性。通過(guò)對(duì)建模方法和魯棒控制器設(shè)計(jì)的許多討論,基于模型的方法在創(chuàng)造機(jī)器人方面取得了巨大成功,這些機(jī)器人在穩(wěn)定環(huán)境中快速準(zhǔn)確的重復(fù)性任務(wù)中具有優(yōu)于人類的能力,例如工業(yè)機(jī)器人。
然而,隨著機(jī)器人的應(yīng)用變得更加多樣化,僅通過(guò)控制器的魯棒性來(lái)處理不確定性變得越來(lái)越困難。特別是在日常生活中,機(jī)器人面臨的不確定性與工廠中的不確定性有質(zhì)的不同,例如環(huán)境總是在變化或行為目標(biāo)只能在上下文中設(shè)置的情況。與人類的互動(dòng),包括使用模棱兩可的表達(dá)進(jìn)行交流,也是日常生活中重要的不確定性。這些類型的不確定性無(wú)法通過(guò)控制器的傳統(tǒng)魯棒性來(lái)處理。在這個(gè)階段,我們清楚地認(rèn)識(shí)到,機(jī)器人需要的認(rèn)知功能超出了傳統(tǒng)的魯棒性。
在圓桌討論中,除了高度的不確定性外,我們還認(rèn)為連續(xù)控制是機(jī)器人認(rèn)知系統(tǒng)的另一個(gè)重要特征。為了使機(jī)器人成為日常生活中的伙伴,它必須在不停止控制的情況下以適當(dāng)?shù)姆绞焦芾聿淮_定性,即使這種不確定性是一個(gè)全新的不確定性。
圖1(b)中描述的這兩點(diǎn)可能是認(rèn)知機(jī)器人的關(guān)鍵問(wèn)題。換句話說(shuō),通過(guò)機(jī)器人身體-環(huán)境相互作用在線克服新不確定性的能力將認(rèn)知機(jī)器人與其他領(lǐng)域的認(rèn)知系統(tǒng)區(qū)分開(kāi)來(lái)。
在不確定的情況下進(jìn)行持續(xù)控制的關(guān)鍵問(wèn)題是什么?在圓桌會(huì)議上,提出了關(guān)鍵問(wèn)題的幾個(gè)重要因素,即概括、主動(dòng)感知、預(yù)測(cè)和語(yǔ)言交流。在這篇綜述論文中,我們討論了這些主題,重點(diǎn)是具有不確定性的連續(xù)控制。如上所述,在現(xiàn)實(shí)世界中建立這些功能而不停止機(jī)器人控制的方法,是認(rèn)知機(jī)器人的關(guān)鍵問(wèn)題。
本文的討論從這個(gè)角度回顧了認(rèn)知機(jī)器人的各種系統(tǒng),并推導(dǎo)出了認(rèn)知機(jī)器人研究的未來(lái)方向。基于機(jī)器學(xué)習(xí)的人工智能也是認(rèn)知機(jī)器人的重要工具。如何在連續(xù)控制中使用各種類型的工具也是討論的重要目標(biāo)。
在第2章節(jié)中,我們首先討論了環(huán)境信息泛化的重要性和與之相關(guān)的問(wèn)題,并推導(dǎo)出了使用泛化信息的重要方法。我們還討論了主動(dòng)感知在信息泛化中的作用。在第3章節(jié)中,我們展示了在與人類生活在同一環(huán)境中時(shí),預(yù)測(cè)對(duì)機(jī)器人的重要性,超越了傳統(tǒng)的基于動(dòng)力學(xué)的預(yù)測(cè)。在第4章節(jié)中,我們加深了對(duì)人類和機(jī)器人之間語(yǔ)言交流創(chuàng)造的可能性的討論。在第5章節(jié)中,我們通過(guò)展示為認(rèn)知機(jī)器人問(wèn)題建立共同目標(biāo)的重要性來(lái)結(jié)束本文。
2. 對(duì)環(huán)境的理解
2.1信息泛化對(duì)認(rèn)知機(jī)器人的重要性
當(dāng)環(huán)境變得復(fù)雜時(shí),機(jī)器人應(yīng)該如何處理環(huán)境信息?“環(huán)境的復(fù)雜性創(chuàng)造了行為的復(fù)雜性”的概念,正如包容架構(gòu)所代表的那樣,其中各種反應(yīng)行為是先驗(yàn)設(shè)計(jì)的,具有許多含義。然而,作為另一種重要的方法,許多認(rèn)知機(jī)器人研究人員會(huì)同意這樣一種觀點(diǎn),即環(huán)境信息的泛化是機(jī)器人了解環(huán)境并在復(fù)雜環(huán)境中移動(dòng)的重要解決方案。此外,當(dāng)環(huán)境的復(fù)雜性包括行為目標(biāo)和與人類溝通的模糊性時(shí),環(huán)境信息的泛化對(duì)于機(jī)器人是必要的。因此,在本節(jié)中,我們將總結(jié)幾種信息泛化方法,以了解環(huán)境并討論復(fù)雜環(huán)境中機(jī)器人控制的適當(dāng)功能。
2.2環(huán)境理解標(biāo)簽
周圍環(huán)境的分類標(biāo)記是了解環(huán)境的重要的第一步。已經(jīng)討論了幾種用機(jī)器人標(biāo)記環(huán)境的方法。Nishihara等人通過(guò)機(jī)器人與人之間的交互,成功地將圖2所示的500多個(gè)物體與約100個(gè)單詞分類對(duì)應(yīng)。本研究基于這樣一種觀點(diǎn),即對(duì)象類別可以通過(guò)對(duì)象多模態(tài)特征的共現(xiàn)關(guān)系在無(wú)監(jiān)督的情況下學(xué)習(xí)。換句話說(shuō),通過(guò)聚類多模態(tài)特征,可以提取可以表示類別的主要特征,并丟棄不相關(guān)的特征。
圖2.實(shí)驗(yàn)中使用的物體和機(jī)器人。左圖顯示了 500 個(gè)對(duì)象。機(jī)器人顯示在右上角。右下角顯示了實(shí)驗(yàn)中使用的人工標(biāo)記類別。
這個(gè)結(jié)果可以說(shuō)是實(shí)現(xiàn)了泛化。此外,人類給出的語(yǔ)言信息也是形成范疇的重要線索。但是,由于機(jī)器人事先不具備詞典等語(yǔ)言知識(shí),因此無(wú)法立即使用該語(yǔ)言知識(shí)。機(jī)器人需要對(duì)人類的話語(yǔ)進(jìn)行分割,并學(xué)習(xí)存在哪些語(yǔ)音模式來(lái)獲取單詞。作者解決了在學(xué)習(xí)這個(gè)詞的同時(shí)找到它們之間的聯(lián)系的問(wèn)題,同時(shí)從對(duì)象中獲得的多模態(tài)特征。這模仿了一個(gè)完全無(wú)法理解單詞含義的嬰兒通過(guò)與父母的互動(dòng)逐漸從統(tǒng)計(jì)學(xué)上學(xué)習(xí)物體名稱的過(guò)程。此外,Miyazawa等人將這一想法擴(kuò)展到機(jī)器人動(dòng)作學(xué)習(xí)。這表明機(jī)器人可以概括物體,它們的名稱和動(dòng)作,并同時(shí)將它們相互聯(lián)系。
2.3認(rèn)知機(jī)器人對(duì)環(huán)境的敏感性和不敏感性
在環(huán)境信息泛化的過(guò)程中,計(jì)算需要對(duì)小的環(huán)境變化“不敏感”。例如,圖2中的泰迪熊需要標(biāo)記為“泰迪熊”,即使發(fā)生微小的變化,例如變得輕微破碎或變臟。對(duì)微小變化不敏感的能力對(duì)于穩(wěn)定地理解環(huán)境至關(guān)重要。
然而,以穩(wěn)定的方式了解環(huán)境并不總是一個(gè)優(yōu)勢(shì)。穩(wěn)定的理解可能會(huì)減少機(jī)器人行為的多樣性,以應(yīng)對(duì)環(huán)境的復(fù)雜性。這一事實(shí)意味著,如果機(jī)器人只使用廣義信息,機(jī)器人的行為將變得統(tǒng)一,缺乏適應(yīng)環(huán)境變化的能力。因此,控制器需要對(duì)環(huán)境具有高靈敏度和低靈敏度。
人們已經(jīng)提出了幾種平衡穩(wěn)定理解和反應(yīng)行為控制的方法。Solak等人提出了一種強(qiáng)大的兼容控制器,通過(guò)將用于廣義運(yùn)動(dòng)的動(dòng)態(tài)運(yùn)動(dòng)基元與虛擬Spring框架相結(jié)合,用于機(jī)器人指尖上測(cè)量的接觸力的實(shí)時(shí)反饋,從而實(shí)現(xiàn)靈巧的手部操作。他們?cè)趯?shí)驗(yàn)上成功地完成了未知物體的手部平移和旋轉(zhuǎn),如圖3所示。Choi等人通過(guò)組合反應(yīng)運(yùn)動(dòng)控制器和目標(biāo)姿勢(shì)設(shè)置控制器來(lái)討論對(duì)象處理問(wèn)題。這種方法考慮了現(xiàn)實(shí)的傳感器模態(tài),每個(gè)控制器在日常生活中具有合理的延遲,以創(chuàng)建適當(dāng)?shù)男袨?,從而?chuàng)建靈巧的處理運(yùn)動(dòng)。
圖3.人類用戶正在教授對(duì)特定對(duì)象的手動(dòng)操作操作。然后,機(jī)器人可以將學(xué)習(xí)到的動(dòng)作推廣到不同的物體上,例如更小或更大的物體。
最近,深度強(qiáng)化學(xué)習(xí)已被用于學(xué)習(xí)使用靈巧的機(jī)器人手操作魔方。雖然令人印象深刻的是,看到有趣的策略(例如手指步態(tài),多指協(xié)調(diào),受控使用重力)如何自然地出現(xiàn)在機(jī)器人行為中以解決任務(wù),但這種方法需要收集大量標(biāo)注數(shù)據(jù),并且機(jī)器人不需要在操縱物體時(shí)用手指握住物體以對(duì)抗重力(即魔方的立方體放在機(jī)器人手掌的頂部)。有趣的是,強(qiáng)化學(xué)習(xí)過(guò)程與基于觸覺(jué)反饋的低級(jí)反應(yīng)控制器相結(jié)合,允許學(xué)習(xí)更復(fù)雜的手操作任務(wù),同時(shí)最大限度地減少學(xué)習(xí)過(guò)程中的失敗量。然而,這些工作都沒(méi)有表現(xiàn)出對(duì)操縱不同對(duì)象的泛化。有的研究工作通過(guò)使用連接到指尖的虛擬參考框架來(lái)表示對(duì)象運(yùn)動(dòng),從而實(shí)現(xiàn)對(duì)新對(duì)象的泛化,該框架基于虛擬Spring框架。通過(guò)使用此描述,從使用動(dòng)態(tài)運(yùn)動(dòng)基元的人類演示中學(xué)習(xí)手部操作操作,然后使用兼容的反應(yīng)式控制器執(zhí)行,該控制器使用機(jī)器人指尖上測(cè)量的接觸力的反饋。報(bào)告的實(shí)驗(yàn)表明,機(jī)器人可以在不同的物體上執(zhí)行學(xué)習(xí)的手部運(yùn)動(dòng)(例如任意平移和旋轉(zhuǎn)),如圖3所示。
廣義信息和反應(yīng)控制的組合不僅在手部操作中有用,而且在移動(dòng)控制中也很有用。Okajima等人提出了雙足行走控制,使用廣義行為目標(biāo)和通過(guò)隱性學(xué)習(xí)進(jìn)行反應(yīng)行為調(diào)整,這是一種基于行為的適應(yīng)架構(gòu)。他們通過(guò)改變代表運(yùn)動(dòng)意圖的簡(jiǎn)單信號(hào),成功地改變了行走方向。單個(gè)控制系統(tǒng)中不同頻率的控制回路有助于平衡穩(wěn)定性和對(duì)環(huán)境信息的反應(yīng)性。Miyazaki等人展示了雙足行走控制的穩(wěn)定性,將其分為兩種模式進(jìn)行奇異擾動(dòng)分析。他們討論了慢速模式子系統(tǒng)中重心的運(yùn)動(dòng)作為全局運(yùn)動(dòng)因子,而每個(gè)關(guān)節(jié)運(yùn)動(dòng)都在快速模式子系統(tǒng)中處理。Taniguchi和Nagai等人證明,移動(dòng)機(jī)器人可以為了購(gòu)物而四處移動(dòng),同時(shí)對(duì)商店中的物體進(jìn)行符號(hào)化。
這些研究結(jié)果表明,通過(guò)概括環(huán)境信息來(lái)穩(wěn)定理解的一個(gè)重要優(yōu)勢(shì)是,在連續(xù)控制回路中自主設(shè)定行為目標(biāo),同時(shí)利用反應(yīng)運(yùn)動(dòng)來(lái)適應(yīng)復(fù)雜的環(huán)境變化。同時(shí)使用對(duì)環(huán)境變化敏感和不敏感的這兩種功能,對(duì)于適應(yīng)環(huán)境變化和利用廣義信息了解環(huán)境,可能會(huì)變得更加主流。
2.4有效認(rèn)知的主動(dòng)感知
要實(shí)現(xiàn)信息的泛化、信息的選擇,即使用哪些信息,丟棄哪些信息,也是一個(gè)重要問(wèn)題。當(dāng)我們考慮人類的感官時(shí),我們不僅對(duì)環(huán)境變化不敏感,而且為了泛化的目的,我們也無(wú)意識(shí)地忽略了一些環(huán)境信息。在圓桌討論中,我們提出了“何時(shí)停止感知并開(kāi)始行動(dòng)?”的問(wèn)題,并討論了在復(fù)雜環(huán)境中需要傳感和行動(dòng)啟動(dòng)的結(jié)合才能產(chǎn)生適當(dāng)?shù)膫鞲小T诖吮尘跋?,Dimitri Ognibene教授提到了主動(dòng)傳感的重要性。他指出了對(duì)任何非平凡環(huán)境的直接和完全感知的局限性,因?yàn)榧词刮覀兂晒Φ貏?chuàng)建了組織良好的信息泛化系統(tǒng),傳感器中從環(huán)境中流動(dòng)的數(shù)據(jù)量也很大。同時(shí),感官限制,如遮擋、分辨率有限、信噪比等,即使使用最先進(jìn)的傳感器和算法,也阻礙了對(duì)環(huán)境的感知。
通過(guò)將控制擴(kuò)展到機(jī)器人自己的傳感器,主動(dòng)視覺(jué)代表了一種受生物啟發(fā)的策略,用于應(yīng)對(duì)感官限制。引導(dǎo)傳感器使機(jī)器人對(duì)環(huán)境的相關(guān)部分變得敏感,這些部分可能在那一刻之前一直無(wú)法進(jìn)入,同時(shí)對(duì)在改變感官配置后變得無(wú)法進(jìn)入的不相關(guān)部分變得不敏感,例如離開(kāi)視野。
然后,主動(dòng)視覺(jué)可以被看作是前面討論的敏感性和不敏感性之間相互作用的物理體現(xiàn)。通過(guò)將這種復(fù)雜相互作用的部分計(jì)算實(shí)現(xiàn)轉(zhuǎn)移到物理層面,主動(dòng)視覺(jué)可以具有這樣的優(yōu)勢(shì),以至于進(jìn)化似乎已經(jīng)將其蝕刻到人眼的解剖結(jié)構(gòu)中。事實(shí)上,眼睛具有高分辨率區(qū)域(中央凹),可最大限度地提高對(duì)相關(guān)信息的敏感性,而低分辨率外圍區(qū)域有助于引導(dǎo)中央凹。人類的眼控也反映了敏感性和不敏感性的情境優(yōu)化:事實(shí)上,人類在執(zhí)行不同的任務(wù)時(shí)遵循不同的感知策略,并“按需”訪問(wèn)與任務(wù)當(dāng)前狀態(tài)最相關(guān)的信息。
然而,這種計(jì)算簡(jiǎn)化只是主動(dòng)感知系統(tǒng)的補(bǔ)充優(yōu)勢(shì),它解決了在不可避免的感官限制下最小化不確定性的必要性。雖然在一些相對(duì)簡(jiǎn)單的環(huán)境中,有用的主動(dòng)感知策略甚至可以通過(guò)反應(yīng)式控制器來(lái)實(shí)現(xiàn),即直接的傳感器-動(dòng)作映射,但在一般情況下,主動(dòng)感知可能需要表示和計(jì)算,比典型機(jī)器人控制任務(wù)中通常發(fā)現(xiàn)的那些更復(fù)雜。這是由于需要積累在下一個(gè)時(shí)間步長(zhǎng)可能無(wú)法訪問(wèn)的有用信息,并預(yù)測(cè)下一個(gè)信息量最大的操作,所有這些都可能很難計(jì)算。考慮到其計(jì)算和表征需求以及它在非平凡環(huán)境中使用機(jī)器人的關(guān)鍵作用,主動(dòng)感知可能是開(kāi)發(fā)“認(rèn)知”機(jī)器人的主要原因之一。
“決定何時(shí)停止感知并開(kāi)始行動(dòng)",或者換句話說(shuō),在收集更多信息或積極地執(zhí)行當(dāng)前最佳行動(dòng)之間的權(quán)衡,著名的探索-開(kāi)發(fā)困境的表述,是主動(dòng)感知的一個(gè)重要方面。在考慮社交互動(dòng)和學(xué)習(xí)時(shí),這一方面變得更加重要,這是認(rèn)知機(jī)器人應(yīng)用的兩個(gè)核心要求。
另一個(gè)挑戰(zhàn)來(lái)自在主動(dòng)感知條件下的學(xué)習(xí)。最近,已經(jīng)提出了幾種在具有逼真刺激的模擬環(huán)境中學(xué)習(xí)主動(dòng)感知技能的方法。然而,這些方法通常允許幾種類型的簡(jiǎn)化,使得如何在現(xiàn)實(shí)環(huán)境中學(xué)習(xí)新的主動(dòng)感知技能仍然是一個(gè)懸而未決的問(wèn)題。事實(shí)上,學(xué)習(xí)克服感官限制已被證明會(huì)帶來(lái)幾個(gè)理論問(wèn)題。然而,一些實(shí)驗(yàn)結(jié)果表明,注意力和主動(dòng)感知都可以利用它們對(duì)不相關(guān)的刺激不敏感的能力,在很大程度上加快學(xué)習(xí)并改善泛化。
2.5認(rèn)知機(jī)器人信息處理的未來(lái)方向
正如Doyle教授所指出的,生物控制系統(tǒng)可以用蝴蝶結(jié)結(jié)構(gòu)來(lái)表示,其中環(huán)境輸入信號(hào)的維數(shù)先降低,然后使用低維信號(hào)進(jìn)行幾個(gè)信號(hào)處理,然后再次將信號(hào)帶回更高的維度,以實(shí)現(xiàn)復(fù)雜環(huán)境中的自適應(yīng)電機(jī)控制。在生物控制系統(tǒng)中,似乎不同水平的廣義信號(hào)被用于不同的目的,從較高的大腦功能(如行為目標(biāo)設(shè)定,決策制定)到低級(jí)行為控制(如力量控制,運(yùn)動(dòng)技能調(diào)整和傳感器集成)。生物系統(tǒng)可以使用這些功能克服連續(xù)控制中的新不確定性。雖然生物學(xué)方法不是唯一的解決方案,但它絕對(duì)是我們應(yīng)該學(xué)習(xí)的方法。我們需要加快討論如何觀察和分析信號(hào),以便在了解復(fù)雜環(huán)境的情況下進(jìn)行更具適應(yīng)性和穩(wěn)定性的行為控制。
3. 行為預(yù)測(cè)
3.1認(rèn)知機(jī)器人的適當(dāng)預(yù)測(cè)
機(jī)器人能夠很好地使用廣義信息的最重要好處之一可能是對(duì)未來(lái)事件的預(yù)測(cè)。TC-CoRo的創(chuàng)始首席主席Sandini教授為認(rèn)知機(jī)器人提出了“超越實(shí)時(shí)”的概念,這表明超越實(shí)時(shí)響應(yīng)對(duì)未來(lái)事件的預(yù)測(cè)的能力對(duì)于未來(lái)的認(rèn)知機(jī)器人技術(shù)至關(guān)重要。他表示,這種能力有望導(dǎo)致認(rèn)知安全的概念,如果機(jī)器人能夠預(yù)測(cè)人類將要做什么或想要做什么,那么人類和機(jī)器人就可以高度安全地生活在同一空間中。
機(jī)器人如何在了解環(huán)境的同時(shí),在連續(xù)控制回路中做出預(yù)測(cè)?與數(shù)據(jù)科學(xué)中的預(yù)測(cè)有什么關(guān)鍵區(qū)別?機(jī)器人預(yù)測(cè)的最重要特征是環(huán)境和場(chǎng)景被視為動(dòng)態(tài)。這與具身認(rèn)知的概念密切相關(guān),其中機(jī)器人的身體,運(yùn)動(dòng)和與環(huán)境的相互作用在認(rèn)知中起著重要作用。然而,如果機(jī)器人作為我們的伙伴變得更加活躍,“動(dòng)態(tài)”需要具有更像人類的含義,而不是簡(jiǎn)單地說(shuō)它們有身體或運(yùn)動(dòng)。
3.2認(rèn)知機(jī)器人預(yù)測(cè)的重要?jiǎng)恿W(xué)
對(duì)于類似人類的認(rèn)知來(lái)說(shuō),外部環(huán)境的重要?jiǎng)恿χ皇俏矬w含義的變化??捎眯缘母拍睿喘h(huán)境賦予我們物體的意義的概念,是這個(gè)范圍內(nèi)環(huán)境動(dòng)力學(xué)的關(guān)鍵概念。就機(jī)器人控制中可用性的重要性而言,Lorenzo Jamone教授的論文激發(fā)了機(jī)器人學(xué)領(lǐng)域的幾項(xiàng)工作。因此,即使我們?cè)谶@里沒(méi)有深入研究,我們也希望機(jī)器人可以做出預(yù)測(cè),例如,當(dāng)機(jī)器人控制器中很好地實(shí)現(xiàn)可用性時(shí),“他將坐在這張桌子上”。
另一個(gè)重要類型的認(rèn)知?jiǎng)恿赡苁菣C(jī)器人根據(jù)情況的內(nèi)部狀態(tài)以及對(duì)外部環(huán)境的解釋。在圓桌會(huì)議上,Alessandra Sciutti博士提出了關(guān)于“具身傳播”重要性的問(wèn)題。人類在其他代理中無(wú)意識(shí)地執(zhí)行和處理各種運(yùn)動(dòng)。例如,當(dāng)人們環(huán)顧四周時(shí),他們的眼睛會(huì)立即揭示他們視覺(jué)注意力的焦點(diǎn)在哪里,并且很容易預(yù)測(cè)他們最有可能從凝視分析中獲取哪個(gè)物體。人類理解內(nèi)隱信號(hào)能力的其他例子包括:從面部表情、聲音甚至身體動(dòng)作的細(xì)微變化中識(shí)別出某人的情緒狀態(tài)的可能性,或者從瞳孔大小的變化中推斷出他們的注意力激發(fā)。這些類型的預(yù)測(cè)是由所有人類共享的運(yùn)動(dòng)規(guī)律促成的。隱式信號(hào)對(duì)于交互非常重要,因?yàn)樗鼈兇砹恕熬o急協(xié)調(diào)”的骨干:相互適應(yīng)、同步和預(yù)期,這些信號(hào)在沒(méi)有意識(shí)的情況下發(fā)生,并大大減少了認(rèn)知負(fù)荷和交互延遲。
這些具體通信的重要性最近在認(rèn)知科學(xué)和神經(jīng)科學(xué)中得到了認(rèn)可,而且在機(jī)器人和人工智能中也得到了認(rèn)可。機(jī)器人認(rèn)知需要允許理解人類伙伴的運(yùn)動(dòng),以便能夠預(yù)測(cè)他們的意圖。此外,機(jī)器人需要能夠計(jì)劃傳輸類似信號(hào)的運(yùn)動(dòng),以使機(jī)器人的動(dòng)作直觀可解釋和清晰,以促進(jìn)與人類的有效協(xié)作(圖4)。
眾所周知,這些行為不僅與情緒密切相關(guān),而且與大腦的高級(jí)功能密切相關(guān),例如主導(dǎo)感(SoA)和時(shí)間感知(TP),近年來(lái)這些功能因理解人類的行為而受到關(guān)注,這些內(nèi)部狀態(tài)也是只能在連續(xù)控制系統(tǒng)中討論的概念。
圖4.人機(jī)相互理解需要利用各種具體信號(hào)的交換和理解。它們通常在人與人之間的互動(dòng)過(guò)程中由大腦下意識(shí)地處理,從而實(shí)現(xiàn)快速有效的協(xié)作。
雖然目前還不知道人類究竟扮演什么角色,但可以肯定的是,它們強(qiáng)化了導(dǎo)致意識(shí)的知和決策的更高級(jí)大腦功能。機(jī)器人的認(rèn)知系統(tǒng)有必要具有這樣的功能嗎?雖然SoA在機(jī)器人行為中的重要性尚未得到充分討論,但量化機(jī)器人SoA的優(yōu)點(diǎn)可以發(fā)展為人機(jī)協(xié)作的討論。例如,Ueda等人研究了手術(shù)過(guò)程中受試者的協(xié)助量與SoA之間的關(guān)系,以量化自動(dòng)駕駛系統(tǒng)的適當(dāng)協(xié)助水平。研究表明,在SoA的感知中也出現(xiàn)了類似于所謂的“神秘谷”的現(xiàn)象。在他們的實(shí)驗(yàn)中,隨著協(xié)助量的增加,SoA增加到一定程度,因?yàn)槟繕?biāo)對(duì)象更按照受試者的意圖移動(dòng)。然而,當(dāng)協(xié)助超過(guò)一定水平時(shí),受試者開(kāi)始感到一種失去SoA的不適感。
正如某論文中所描述的,很明顯,人類對(duì)機(jī)器人的過(guò)度支持感到不舒服,盡管機(jī)器人對(duì)人類的適當(dāng)支持水平尚未得到澄清。最近,SoA的數(shù)學(xué)模型被提出,我們可以說(shuō),討論機(jī)器人SoA的基礎(chǔ)已經(jīng)奠定。幫助在人類和機(jī)器人之間共享適當(dāng)?shù)腟oA可能是未來(lái)的理想愿景之一。
3.3. 超越現(xiàn)實(shí)的預(yù)測(cè)
Sciutti博士在圓桌會(huì)議上介紹了吸引人的短語(yǔ)“超越現(xiàn)實(shí)”,建議機(jī)器人不應(yīng)該感知世界的本來(lái)面目,而應(yīng)該對(duì)與人類合作有感知和認(rèn)知偏見(jiàn)。眾所周知,人類大腦將“真實(shí)”的感覺(jué)信號(hào)轉(zhuǎn)化為我們想要感知的信息,這有時(shí)被稱為“擬人化鏡頭”。因此,對(duì)行動(dòng)或環(huán)境的時(shí)間和空間屬性的感知可能是不準(zhǔn)確的,例如視覺(jué)錯(cuò)覺(jué)所證明的那樣。但是,這些流程為協(xié)作帶來(lái)了幾個(gè)優(yōu)勢(shì)。例如,當(dāng)觀察一個(gè)通過(guò)的動(dòng)作時(shí),人類不會(huì)檢測(cè)到動(dòng)作的細(xì)節(jié),而是自然地理解動(dòng)作的特征,例如動(dòng)作目標(biāo),這比良好協(xié)作的細(xì)節(jié)更重要。因此,超越現(xiàn)實(shí)的概念可以成為上一節(jié)所討論的信息概括的一個(gè)重要指標(biāo)。
4. 語(yǔ)言交流
4.1認(rèn)知機(jī)器人的語(yǔ)言
語(yǔ)言交流是最重要的高階認(rèn)知功能之一,正如圓桌會(huì)議所強(qiáng)調(diào)的那樣。沒(méi)有語(yǔ)言交流,我們的社會(huì)活動(dòng)是不可能的,這使我們能夠在沒(méi)有詳細(xì)定義的情況下使用抽象的表達(dá)。這種能力是通過(guò)與人的交流來(lái)學(xué)習(xí)的,從嬰兒的反射性語(yǔ)音反應(yīng)和兩個(gè)單詞的句子開(kāi)始,然后自然地發(fā)展語(yǔ)法規(guī)則。令人驚訝的是,根據(jù)我們?cè)趮雰浩谌绾我约芭c誰(shuí)交流,我們可以將任何語(yǔ)言作為我們的母語(yǔ)。因此,機(jī)器人必須學(xué)習(xí)和使用語(yǔ)言才能融入人類社會(huì)。
Oseki教授指出,為了構(gòu)建像人一樣處理和學(xué)習(xí)自然語(yǔ)言的認(rèn)知機(jī)器人,我們應(yīng)該像計(jì)算認(rèn)知科學(xué)文獻(xiàn)中倡導(dǎo)的那樣,對(duì)人類語(yǔ)言處理和學(xué)習(xí)進(jìn)行“逆向工程”。具體而言,在語(yǔ)言的計(jì)算認(rèn)知科學(xué)中,語(yǔ)言處理和學(xué)習(xí)的計(jì)算模型是由最初在自然語(yǔ)言處理(NLP)中開(kāi)發(fā)的符號(hào)生成模型和人工神經(jīng)網(wǎng)絡(luò)構(gòu)建而成的,然后根據(jù)在認(rèn)知和腦科學(xué)中實(shí)驗(yàn)測(cè)量的人類行為和神經(jīng)成像數(shù)據(jù)進(jìn)行評(píng)估。這里的關(guān)鍵思想是,以科學(xué)為導(dǎo)向的“象征主義”方法與以工程為導(dǎo)向的“連接主義”語(yǔ)言處理和學(xué)習(xí)方法之間的融合對(duì)于下一代認(rèn)知機(jī)器人技術(shù)非常重要。
Oseki教授還介紹了最近的研究結(jié)果,這些結(jié)果表明,盡管通過(guò)工程評(píng)估指標(biāo)取得了令人印象深刻的表現(xiàn),但與在較少的訓(xùn)練數(shù)據(jù)上訓(xùn)練的較小模型相比,稱為Transformers的較大最先進(jìn)的模型并不總是“像人”,以及稱為遞歸神經(jīng)網(wǎng)絡(luò)語(yǔ)法(RNNGs)的符號(hào)神經(jīng)架構(gòu)優(yōu)于長(zhǎng)短期記憶(LSTM)基線,最重要的是,更好地推廣到看不見(jiàn)的語(yǔ)言環(huán)境。對(duì)于未來(lái)的研究,鑒于語(yǔ)言處理是信息處理的一個(gè)實(shí)例,最終在人腦中實(shí)現(xiàn)信息處理的實(shí)例,Marr描述的三個(gè)層次中的“硬件實(shí)現(xiàn)”水平必須與語(yǔ)言處理和學(xué)習(xí)的計(jì)算認(rèn)知科學(xué)相結(jié)合,以實(shí)現(xiàn)計(jì)算認(rèn)知神經(jīng)科學(xué),以便認(rèn)知機(jī)器人在不確定的環(huán)境中與人類進(jìn)行交流。
圖5.SpCoNavi可以使用空間概念,詞匯表,以無(wú)監(jiān)督方式學(xué)習(xí)的地圖來(lái)執(zhí)行路徑規(guī)劃。該理論與基于CaI(作為概率推理的控制)概念的基于模型的強(qiáng)化學(xué)習(xí)一致。
4.2. 通過(guò)語(yǔ)言學(xué)習(xí)和理解進(jìn)行認(rèn)知
語(yǔ)言學(xué)習(xí)和理解也是機(jī)器人應(yīng)該具備的重要認(rèn)知能力。Taniguchi教授指出了人類語(yǔ)言的作用的重要特征,它區(qū)分了人類的語(yǔ)言交流與其他動(dòng)物的語(yǔ)言交流。人類的認(rèn)知不僅適應(yīng)物理環(huán)境,而且適應(yīng)符號(hào)學(xué)環(huán)境。在認(rèn)知機(jī)器人的許多傳統(tǒng)討論中,術(shù)語(yǔ)“符號(hào)”和“符號(hào)化”被天真地用于指代與單詞相關(guān)的內(nèi)部表征。該討論受到物理符號(hào)系統(tǒng)假說(shuō)的影響,該假說(shuō)將符號(hào)表征為離散標(biāo)記。符號(hào)學(xué)中的特征概念被忽視了。特征統(tǒng)應(yīng)被視為涉及涌現(xiàn)屬性的動(dòng)態(tài)系統(tǒng),即符號(hào)涌現(xiàn)系統(tǒng)。機(jī)器人需要具備適應(yīng)符號(hào)出現(xiàn)系統(tǒng)的認(rèn)知能力,才能與人進(jìn)行長(zhǎng)期交流。這意味著機(jī)器人至少需要具備語(yǔ)言學(xué)習(xí)和理解能力。因此,Taniguchi教授強(qiáng)調(diào)了認(rèn)知機(jī)器人學(xué)符號(hào)學(xué)交流中適應(yīng)性的重要性。
語(yǔ)言基于多模態(tài)信息,集成傳感器-運(yùn)動(dòng)信息的認(rèn)知系統(tǒng)將是語(yǔ)言交流的關(guān)鍵。學(xué)習(xí)一門語(yǔ)言不僅僅是處理文本數(shù)據(jù)的問(wèn)題。我們?nèi)祟惱斫庹Z(yǔ)言的含義與現(xiàn)實(shí)世界的傳感器運(yùn)動(dòng)信息以及我們基于具體的身體體驗(yàn)和符號(hào)學(xué)交流形成的廣義概念的關(guān)系。例如,當(dāng)我們?cè)噲D理解一個(gè)句子,“請(qǐng)去廚房給我?guī)б黄克辈⑦M(jìn)行所要求的行為時(shí),我們需要將單詞與特定的對(duì)象,地點(diǎn)和行為聯(lián)系起來(lái)。這意味著廣泛的語(yǔ)言理解實(shí)際上是基于現(xiàn)實(shí)世界的多模態(tài)傳感器-電機(jī)信息。
因此,開(kāi)發(fā)綜合認(rèn)知系統(tǒng)是在認(rèn)知機(jī)器人中實(shí)現(xiàn)語(yǔ)言交流的關(guān)鍵一步。Taniguchi教授認(rèn)為,基于概率生成模型的方法很有希望。Taniguchi等人提出了一種名為SpCoSLAM的多模態(tài)空間概念形成方法,該方法將定位和映射、圖像和語(yǔ)音識(shí)別、空間分類和詞匯獲取集成到單個(gè)概率生成模型中(圖5)。眾所周知,概率建模和推理是機(jī)器學(xué)習(xí)的一般概念。例如,作為概率推理(CaI)的控制理論表明,強(qiáng)化學(xué)習(xí)可以被視為概率生成模型上的推理。SpCoNavi是一種基于SpCoSLAM和CaI的導(dǎo)航方法。SpCoNavi表明,在室內(nèi)導(dǎo)航任務(wù)中學(xué)習(xí)口語(yǔ)和理解句子可以完全基于機(jī)器人的傳感器-電機(jī)多模態(tài)信息進(jìn)行。
4.3語(yǔ)言對(duì)認(rèn)知機(jī)器人技術(shù)的進(jìn)一步發(fā)展的重要性
為了取得進(jìn)一步進(jìn)展,開(kāi)發(fā)一個(gè)完全適應(yīng)性的綜合認(rèn)知架構(gòu)不僅在泛化、感知和預(yù)測(cè)中至關(guān)重要,而且在語(yǔ)言交流中也非常重要。Taniguchi教授認(rèn)為,SERKET作為一種可以組成和分解大規(guī)模概率生成模型的框架,對(duì)于發(fā)展機(jī)器人的未來(lái)認(rèn)知是有用的。開(kāi)發(fā)全腦概率生成模型是未來(lái)的挑戰(zhàn)(圖6)。
圖6.信號(hào)系統(tǒng)概況。
5. 認(rèn)知機(jī)器人問(wèn)題的結(jié)論
本文根據(jù)2020年12月舉行的圓桌會(huì)議的討論,回顧了認(rèn)知機(jī)器人面臨的問(wèn)題。圓桌會(huì)議指出,跨學(xué)科討論對(duì)于認(rèn)知系統(tǒng)的進(jìn)一步發(fā)展是必要的,機(jī)器人技術(shù)可以在具有不確定性的連續(xù)控制回路中發(fā)揮體現(xiàn)認(rèn)知功能的作用。在本文中,我們繼續(xù)討論了基于“具有廣義信息的環(huán)境理解”,“主動(dòng)感知”,“未來(lái)事件預(yù)測(cè)”和“語(yǔ)言交流”的關(guān)鍵功能的認(rèn)知機(jī)器人的必要系統(tǒng)。
對(duì)于環(huán)境理解,我們提到了對(duì)環(huán)境投入的高靈敏度和低敏感性對(duì)于實(shí)現(xiàn)穩(wěn)定理解和對(duì)不確定性的適應(yīng)性的重要性。信息泛化是穩(wěn)定理解的重要方法,它將引導(dǎo)指定的功能,如自主行為目標(biāo)設(shè)定。
在復(fù)雜的環(huán)境中,信息泛化可能不足以感知所有信息。機(jī)器人應(yīng)通過(guò)主動(dòng)感應(yīng)來(lái)選擇重要和有用的信息。除了信息選擇之外,我們還闡明了主動(dòng)感知對(duì)于超越感知的新型學(xué)習(xí)架構(gòu)非常有用。
預(yù)測(cè)未來(lái)事件是基于對(duì)環(huán)境的理解可以實(shí)現(xiàn)的重要功能。盡管眾所周知,基于機(jī)體動(dòng)力學(xué)的預(yù)測(cè)是機(jī)器人控制的重要因素,但更多的類似人類的預(yù)測(cè),有時(shí)甚至超越了現(xiàn)實(shí),對(duì)于與人類的順利合作是必要的。這些類型的預(yù)測(cè)強(qiáng)調(diào)機(jī)器人的體現(xiàn),而不是數(shù)據(jù)科學(xué)的預(yù)測(cè),數(shù)據(jù)科學(xué)的預(yù)測(cè)顯示事件最有可能發(fā)生。
語(yǔ)言交流是未來(lái)認(rèn)知機(jī)器人的另一項(xiàng)關(guān)鍵技能。除了信息交換之外,人與機(jī)器人之間的語(yǔ)言還需要適應(yīng)符號(hào)學(xué)交流。我們需要進(jìn)一步討論語(yǔ)言的計(jì)算模型。
雖然身體和環(huán)境之間的物理相互作用總是代表實(shí)時(shí)事件,但眾所周知,隨著信息逐漸普及,信息處理對(duì)不確定性變得更加靈活。這意味著,當(dāng)控制回路中使用廣義信息時(shí),我們可以在連續(xù)控制期間保持剩余的不確定性。不確定性有時(shí)包括時(shí)間不確定性,這表明未來(lái)事件可能成為超越現(xiàn)實(shí)的控制目標(biāo)。因此,在一個(gè)控制回路中使用各種層次的廣義信息,是控制機(jī)器人從詳細(xì)的運(yùn)動(dòng)控制到正常生活活動(dòng)的必要條件,如圖7所示,我們相信這種類型的控制回路可以成為跨學(xué)科討論的大熔爐。
圖7.使用廣義信息的控制回路可以允許時(shí)間和語(yǔ)義的不確定性,并且可以處理語(yǔ)言、預(yù)測(cè)和可用性,而使用具體信息的控制回路專注于實(shí)際運(yùn)動(dòng)和動(dòng)力學(xué)。
通過(guò)討論,下一代認(rèn)知機(jī)器人的作用越來(lái)越清晰。我們?nèi)祟惪梢酝ㄟ^(guò)有時(shí)條件反射性地做出反應(yīng),有時(shí)使用廣義信息來(lái)應(yīng)對(duì)不確定性。我們通過(guò)使用各種有吸引力的功能來(lái)實(shí)現(xiàn)這一目標(biāo),例如可用性,SoA和語(yǔ)言通信。認(rèn)知機(jī)器人必須體現(xiàn)自己的方法,因?yàn)闄C(jī)器人具有不同的身體、不同的計(jì)算機(jī)制和與人類不同的存儲(chǔ)設(shè)備,而不是針對(duì)這些功能本身。
為了實(shí)現(xiàn)認(rèn)知機(jī)器人的作用,我們認(rèn)為為認(rèn)知機(jī)器人研究設(shè)定原始但具體的目標(biāo)是很重要的。正如引言中提到的,基于現(xiàn)實(shí)世界中行為的討論是機(jī)器人技術(shù)的一個(gè)重要特征。為了鼓勵(lì)認(rèn)知機(jī)器人技術(shù)的進(jìn)一步發(fā)展,我們需要根據(jù)需要設(shè)定具體的行為目標(biāo),以解決重要的認(rèn)知機(jī)器人問(wèn)題。我們將繼續(xù)討論這些目標(biāo)的設(shè)定,作為認(rèn)知機(jī)器人的一個(gè)重大挑戰(zhàn)。
原文鏈接:
https://www.tandfonline.com/doi/full/10.1080/01691864.2021.2011780