人工智能正驅(qū)動(dòng)機(jī)器人發(fā)展
文:中國(guó)傳動(dòng)網(wǎng)2018年第二期
本文整理自IEEEFellow優(yōu)必選悉尼大學(xué)人工智能研究院陶大程教授名為《人工智能正驅(qū)動(dòng)機(jī)器人發(fā)展》稿件。
上一代機(jī)器人依賴(lài)的是計(jì)算智能,這個(gè)時(shí)代的機(jī)器人通過(guò)各種傳感器在一定程度上實(shí)現(xiàn)了感知智能,未來(lái)的機(jī)器人將進(jìn)一步實(shí)現(xiàn)高性能的感知智能并且實(shí)現(xiàn)認(rèn)知智能的效果。人工智能驅(qū)動(dòng)機(jī)器人發(fā)展主要是基于人工智能的四個(gè)元素:Perceiving(感知)、Learning(學(xué)習(xí))、Reasoning(推理)和Behaving(行為)。
機(jī)器人感知與交互能力
感知是利用各種各樣的傳感器來(lái)獲取環(huán)境信息,使得機(jī)器人理解外部環(huán)境。我們目前關(guān)注的是攝像機(jī)獲取的環(huán)境信息,因?yàn)槔脭z像機(jī)獲取的環(huán)境信息可以做很多東西,比如物體的檢測(cè)和跟蹤、場(chǎng)景分析等,這樣機(jī)器人就有機(jī)會(huì)在我們的環(huán)境中完成人所需要它完成的任務(wù),達(dá)到機(jī)器人擴(kuò)展“人”的智能的目標(biāo)。
物體檢測(cè)對(duì)人來(lái)說(shuō)輕而易舉,我們可以很輕松地從場(chǎng)景中檢測(cè)到這里有一只杯子,那里有一個(gè)人。對(duì)于機(jī)器人來(lái)說(shuō),目標(biāo)是一致的,但是實(shí)現(xiàn)高性能的檢測(cè)卻不容易。傳統(tǒng)的物體檢測(cè)是通過(guò)窗掃描來(lái)實(shí)現(xiàn)的。掃描窗從左上角的第一個(gè)像素開(kāi)始,逐像素掃描到右下角的最后一個(gè)像素,并且掃描若干次不斷調(diào)整掃描窗的尺寸。這種方式只適合檢測(cè)某一種固定的物體,即便如此效率也非常低下。我們知道掃描的過(guò)程中產(chǎn)生的各種掃描窗有大量的冗余,且很多掃描窗也不能是物體,這就驅(qū)動(dòng)我們?nèi)タ紤]采用一個(gè)體量很小的神經(jīng)網(wǎng)絡(luò)來(lái)快速找到那些有可能包含我們所關(guān)心的物體的圖像區(qū)域。這個(gè)網(wǎng)絡(luò)就是proposalnetwork,目前已經(jīng)被廣泛地采用了。獲得這些可能包含物體的圖像區(qū)域后,我們就可以使用一個(gè)高精度的分類(lèi)網(wǎng)絡(luò),對(duì)圖像區(qū)域進(jìn)行分類(lèi),這樣就能夠快速地檢測(cè)場(chǎng)景中的物體。
有了高效的檢測(cè)框架,我們能干什么事呢?舉個(gè)例子,一張照片里面有很多人,如果讓人來(lái)數(shù),時(shí)間代價(jià)很大。但是用機(jī)器數(shù)一下就知道了,人臉檢測(cè)器能夠檢測(cè)出來(lái)大約850張人臉。實(shí)際上拍這個(gè)照片的時(shí)候統(tǒng)計(jì)為1000人。因?yàn)橐恍┤穗x攝像頭太遠(yuǎn)了,分辨率很低;另外,有些站在后面的人可能被前面的人擋住了。這些人臉要檢測(cè)出來(lái)還是有很多挑戰(zhàn)的。除了檢測(cè)人臉,還可以檢測(cè)車(chē)輛,不分晝夜。
機(jī)器人所處的環(huán)境是動(dòng)態(tài)的,人和物體都在動(dòng),機(jī)器人的本體也在運(yùn)動(dòng)。機(jī)器人需要理解物體和人的行為。要理解實(shí)現(xiàn)行為理解,跟蹤所有的物體是必不可少的。首先說(shuō)一下單目標(biāo)跟蹤,這個(gè)任務(wù)的挑戰(zhàn)性來(lái)源于多種因素的影響,比如說(shuō)光線變化、物體的變形等。要想長(zhǎng)時(shí)間穩(wěn)定的跟蹤運(yùn)動(dòng)物體,僅僅靠跟蹤是不夠的。通常,我們會(huì)把跟蹤和檢測(cè)放到一起。
跟蹤完單個(gè)目標(biāo)之后,往往還需要跟蹤多個(gè)目標(biāo)。比如在這個(gè)監(jiān)控場(chǎng)景里面包含了很多人,很顯然,這是一個(gè)多目標(biāo)跟蹤的問(wèn)題。除了單目標(biāo)跟蹤遇到的各種挑戰(zhàn),在多目標(biāo)跟蹤里面,還有運(yùn)動(dòng)物體的互相遮擋這一挑戰(zhàn)。多目標(biāo)跟蹤有很多應(yīng)用,比如無(wú)人駕駛中,我們需要理解目標(biāo)區(qū)域里面所有人的行為。再問(wèn)一個(gè)問(wèn)題,我們?yōu)槭裁葱枰彝シ?wù)機(jī)器人,或者社交機(jī)器人?我們除了期望這些機(jī)器人幫我們完成一些簡(jiǎn)單的家務(wù)之外,我們更加希望這樣的機(jī)器人能夠和我們做一些情感上的交流。
我們看一下這個(gè)視頻。在這個(gè)setup里面,我們首先需要解決多攝像的機(jī)拼接問(wèn)題。這個(gè)足球比賽視頻用了四臺(tái)攝像機(jī)。這個(gè)籃球比賽視頻用了兩臺(tái)攝像機(jī)。通過(guò)攝像機(jī)標(biāo)定,我們可以實(shí)現(xiàn)準(zhǔn)確的視頻拼接。有了這樣一個(gè)拼接好的視頻之后,我們可以理解這些運(yùn)動(dòng)員在球場(chǎng)的跑位。配合行人重驗(yàn)證和人臉識(shí)別,我們甚至可以知道每個(gè)球員是誰(shuí)。再配合人體姿態(tài)估計(jì),我們也能夠精細(xì)的理解每一位球員的每一個(gè)動(dòng)作。有了這些信息輸入之后,機(jī)器人就能理解兩個(gè)隊(duì)伍的比賽狀態(tài),這樣的人機(jī)交流將是非常有趣的。
機(jī)器人要充分理解一個(gè)場(chǎng)景,還非常依賴(lài)于場(chǎng)景分割。場(chǎng)景分割可以幫助機(jī)器人知道場(chǎng)景中有哪些物體、物體在什么位置,包括物體的大小、體量甚至一些詳細(xì)的屬性標(biāo)簽等。目前深度神經(jīng)網(wǎng)絡(luò)已經(jīng)可以做到對(duì)靜態(tài)場(chǎng)景比較精確的標(biāo)注。在運(yùn)動(dòng)場(chǎng)景中,機(jī)器也已經(jīng)能夠做到相對(duì)比較精準(zhǔn)的分割,協(xié)助完成,比如自動(dòng)駕駛。實(shí)現(xiàn)高性能的場(chǎng)景分割,我們需要實(shí)現(xiàn)高效的多特征、多尺度信息融合。
我們?cè)诳匆粋€(gè)場(chǎng)景的時(shí)候,可以知道哪個(gè)物體離我們比較近、哪個(gè)離得比較遠(yuǎn)。場(chǎng)景分割告訴我們有什么物體,這些物體在哪里,我們還需知道場(chǎng)景的深度信息,這樣我們就能夠知道物體的遠(yuǎn)近。距離信息對(duì)于機(jī)器人在場(chǎng)景中的導(dǎo)航定位、物體抓取等都非常重要。我們知道目前大部分機(jī)器人只安裝了一臺(tái)攝像機(jī)。那么我們需要從單張照片中獲取深度信息。我們知道這個(gè)問(wèn)題是非常困難的,但我們可以利用很多歷史數(shù)據(jù)對(duì)來(lái)訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)。我們把彩色圖像輸入到一個(gè)深度卷及網(wǎng)絡(luò),輸出是深度圖。如果我們有大量的數(shù)據(jù)對(duì),似乎感覺(jué)就能夠?qū)崿F(xiàn)這樣的目標(biāo)。但即便如此,要想達(dá)到很好的效果也很困難。我們?cè)谧鲞@個(gè)問(wèn)題時(shí),有兩個(gè)發(fā)現(xiàn):(1)在高分辨率彩色圖像上直接回歸這個(gè)深度信息是非常不準(zhǔn)的,但如果我們把深度信息進(jìn)行量化,分成若干塊,變成一個(gè)分類(lèi)問(wèn)題,我們卻可以達(dá)到非常好的效果;(2)我們依然需要連續(xù)的深度信息,這時(shí)候我們把彩色圖像的分辨率降低,在低分辨率的彩色圖像上回歸連續(xù)的深度信息,我們也能夠得到非常好的效果。剩下的問(wèn)題就是如何把兩個(gè)發(fā)現(xiàn)有效的結(jié)合起來(lái),實(shí)現(xiàn)高精度的單張圖像的深度回歸。
我們并不期望這樣的系統(tǒng)能夠替代16線、64線的激光雷達(dá)。畢竟回歸的精度和激光雷達(dá)的測(cè)量精度還是有很大差距的。但是,這樣的系統(tǒng)對(duì)于一些不需要?jiǎng)偩壬疃刃畔⒌膽?yīng)用卻是非常有效的。另外,也可以和激光雷達(dá)進(jìn)行信息融合,得到空間高分辨率的場(chǎng)景深度信息。
現(xiàn)在的機(jī)器人識(shí)別,比如一個(gè)家庭里面的五六個(gè)人已經(jīng)沒(méi)什么問(wèn)題了。甚至稍微增加模型的復(fù)雜度,除了可以識(shí)別家庭成員,還可以識(shí)別家庭成員的朋友,大的場(chǎng)景在一定程度上也能夠?qū)崿F(xiàn),這主要?dú)w功于深度神經(jīng)網(wǎng)絡(luò)。
人臉識(shí)別是身份認(rèn)證非常直接的手段。當(dāng)然,還可以通過(guò)人的行走的方式,甚至穿著信息。布局多攝像機(jī)網(wǎng)絡(luò)的智慧城市系統(tǒng)中有這樣一個(gè)問(wèn)題,一個(gè)人穿過(guò)若干攝像機(jī),那么如何把這個(gè)人的行動(dòng)軌跡恢復(fù)出來(lái)?這個(gè)問(wèn)題就可以通過(guò)行人重驗(yàn)證來(lái)解決,甚至我們可以利用穿著信息去找特定的人。比如找一個(gè)上身是藍(lán)色衣服,下身是黑色褲子。我們就可以知道這個(gè)人在一定區(qū)域內(nèi)的行動(dòng)軌跡。在Market1501的數(shù)據(jù)庫(kù)上,我們r(jià)ank-one的識(shí)別率已經(jīng)超過(guò)了95%。
人機(jī)交互是非常復(fù)雜的,因?yàn)槿绾卫斫馊说囊鈭D是非常困難。那么把這個(gè)問(wèn)題簡(jiǎn)化一下,我們首先考慮檢測(cè)人的關(guān)節(jié)點(diǎn)、跟蹤人的姿態(tài)??偟膩?lái)說(shuō),在光線不算糟糕的情況下,基本上可以做到有效跟蹤。比如最近CMU的框架,甚至可以識(shí)別到手的關(guān)節(jié),這樣就可以幫我們分析手的動(dòng)作、甚至做手語(yǔ)識(shí)別。有了這樣的人體姿態(tài)跟蹤的框架,我們可以做機(jī)器人的控制,還可以分析球場(chǎng)上每個(gè)運(yùn)動(dòng)員的動(dòng)作,知道他是射門(mén)還是投球。除此之外,還可以做fine-grainedclassification,比如說(shuō)識(shí)別世界上的鳥(niǎo),利用關(guān)鍵點(diǎn)檢測(cè)技術(shù),或者說(shuō)基于我們的pose-net,我們可以檢測(cè)到鳥(niǎo)的嘴、頭和腳等。然后在每個(gè)區(qū)域上提取精細(xì)的特征,這樣我們就可以比較準(zhǔn)確地識(shí)別出鳥(niǎo)的類(lèi)別。
這些都只是機(jī)器視覺(jué)感知的一部分。除了視覺(jué)感知,還有自然語(yǔ)言理解、語(yǔ)音識(shí)別等。在這些例子中,我們對(duì)輸入的數(shù)據(jù)是有質(zhì)量要求的。如果現(xiàn)實(shí)中輸入圖像或者視頻數(shù)據(jù)的質(zhì)量比較差,比如有噪聲、霧霾等,都會(huì)給后續(xù)的識(shí)別造成困擾。所以,我們需要做圖像質(zhì)量評(píng)價(jià)。
圖像分辨率也是一個(gè)問(wèn)題?,F(xiàn)在的攝像機(jī)已經(jīng)很好了,一般都可以獲取到非常高分辨率的圖像和視頻,但不都是這樣,比如說(shuō)攝像機(jī)離物體比較遠(yuǎn)。當(dāng)數(shù)據(jù)的分辨率低的時(shí)候,檢測(cè)、跟蹤、識(shí)別都會(huì)很難,所以對(duì)分辨率的提升就非常關(guān)鍵。
機(jī)器人自我學(xué)習(xí)能力
機(jī)器人在感知環(huán)境之后,它所獲取的信息對(duì)于系統(tǒng)性能的提升是有一定幫助的。要進(jìn)一步提升機(jī)器人的性能,就需要機(jī)器人自我學(xué)習(xí),把不同類(lèi)型的信息進(jìn)行有效的整合,這些都和機(jī)器學(xué)習(xí)有很多的關(guān)系。
人是一個(gè)多任務(wù)學(xué)習(xí)的實(shí)體,我們希望機(jī)器人也是多任務(wù)學(xué)習(xí)的實(shí)體。目前大部分網(wǎng)絡(luò)都是單一任務(wù)驅(qū)動(dòng)的,人臉識(shí)別就是人臉識(shí)別、表情識(shí)別就是表情識(shí)別。但是我給你一張照片你能得到很多信息,比如這個(gè)人是男的還是女的、戴眼鏡沒(méi)、甚至這個(gè)人的屬性,這就激發(fā)我們要訓(xùn)練支持多任務(wù)學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)。
除了多任務(wù)學(xué)習(xí),還有多標(biāo)簽學(xué)習(xí),給你一個(gè)圖像或者視頻,所涵蓋的標(biāo)簽信息非常廣泛。這些標(biāo)簽之間也是有關(guān)系的,而這個(gè)關(guān)系就是非對(duì)稱(chēng)的因果關(guān)系。利用這樣的非對(duì)稱(chēng)因果關(guān)系,我們可以更為有效的進(jìn)行圖像識(shí)別和理解。
再就是遷移學(xué)習(xí)。舉個(gè)例子,比如我手里有一個(gè)東西,它是圓的、紅色的,脆的,我問(wèn)大家這是什么?大家想一想可能不知道是什么。再比如反過(guò)來(lái),我手里有一個(gè)蘋(píng)果,大家描述一下這個(gè)蘋(píng)果有什么特征?這個(gè)非常直接,你們會(huì)告訴我,這是圓的、紅的、脆的、非常好吃。傳統(tǒng)的遷移學(xué)習(xí),都是基于特征包含標(biāo)簽的假設(shè)。
當(dāng)我們的標(biāo)簽數(shù)據(jù)是沒(méi)有噪聲的時(shí)候,我們能夠有效的訓(xùn)練模型。如果標(biāo)簽有噪聲怎么辦?現(xiàn)在是大數(shù)據(jù)時(shí)代,數(shù)據(jù)的標(biāo)簽都是通過(guò)眾包獲取的,所以有標(biāo)簽噪聲很正常。
深度學(xué)習(xí)提升了系統(tǒng)的性能,但是模型也變得越來(lái)越大,存儲(chǔ)和計(jì)算都變成了問(wèn)題。有什么辦法讓深度模型變得很???我們就要對(duì)深度模型進(jìn)行壓縮。通過(guò)傳統(tǒng)的DCT變換,我們可以對(duì)模型進(jìn)行非常有效的壓縮,同時(shí)在一定程度上提升了原始模型的泛化能力。
最后是推理和行為。比如人的行為分析:要正確理解視頻的內(nèi)容,比如這個(gè)視頻是打拳擊、洗臉還是玩游戲。
再比如人機(jī)交互,我們?cè)趺唇虣C(jī)器人來(lái)做一些事情?傳統(tǒng)的方式,我們通過(guò)程序設(shè)計(jì),未來(lái)的機(jī)器人都是試教學(xué)習(xí)或者是模仿學(xué)習(xí),讓機(jī)器人看一下,它就知道怎么做了。
Image或者Videocaptioning(看圖說(shuō)話(huà))。給機(jī)器一個(gè)小視頻讓它來(lái)識(shí)別,這樣的問(wèn)題難度已經(jīng)不大了。但如何對(duì)內(nèi)容進(jìn)行精細(xì)地理解、描述,還是很困難的。
除了看圖說(shuō)話(huà),還有看圖回答問(wèn)題。這對(duì)計(jì)算機(jī)來(lái)說(shuō)不容易,你要理解圖像,理解問(wèn)題,知道如何把問(wèn)題跟圖像關(guān)聯(lián)起來(lái)。
通過(guò)深度學(xué)習(xí),結(jié)合視頻和激光雷達(dá),我們可以檢測(cè)到所有的人和車(chē),可以估計(jì)他們的速度,檢測(cè)到路線,對(duì)場(chǎng)景進(jìn)行分割,分析安全區(qū)域,讓無(wú)人車(chē)完整的感知環(huán)境。甚至還可以分析人、車(chē)未來(lái)要做的動(dòng)作。無(wú)人車(chē)、機(jī)器人,都給人工智能提供了非常好的展示平臺(tái)。
總之,人工智能、機(jī)器人,給未來(lái)帶來(lái)了無(wú)限可能。
中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:
凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.surachana.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

關(guān)注中國(guó)傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

掃碼關(guān)注小程序
時(shí)刻關(guān)注行業(yè)動(dòng)態(tài)


- 8新聞資訊

填寫(xiě)郵件地址,訂閱更多資訊:
撥打電話(huà)咨詢(xún):13751143319 余女士
郵箱:chuandong@chuandong.cn
- 運(yùn)動(dòng)控制
- 伺服系統(tǒng)
- 機(jī)器視覺(jué)
- 機(jī)械傳動(dòng)
- 編碼器
- 直驅(qū)系統(tǒng)
- 工業(yè)電源
- 電力電子
- 工業(yè)互聯(lián)
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機(jī)界面
- PLC
- 電氣聯(lián)接
- 工業(yè)機(jī)器人
- 低壓電器
- 機(jī)柜