人類(lèi)與機(jī)器都依賴(lài)于神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行目標(biāo)與面部識(shí)別。最新的證據(jù)顯示,這兩類(lèi)視覺(jué)系統(tǒng)也具有相同的缺陷。
深度卷積神經(jīng)網(wǎng)絡(luò)以排山倒海之勢(shì)席卷了人工智能領(lǐng)域。確實(shí),現(xiàn)在這些機(jī)器視覺(jué)已經(jīng)在面部識(shí)別、物體識(shí)別甚至是下圍棋等眾多領(lǐng)域頻頻完勝人類(lèi)對(duì)手。
當(dāng)然,頗為諷刺的一點(diǎn)是,神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)框架很大程度上模擬了人類(lèi)的大腦結(jié)構(gòu)。因此,機(jī)器視覺(jué)的深度神經(jīng)網(wǎng)絡(luò)宏觀結(jié)構(gòu)與人類(lèi)大腦負(fù)責(zé)視覺(jué)的部分十分類(lèi)似。盡管人類(lèi)大腦經(jīng)歷了數(shù)百萬(wàn)年的進(jìn)化,而另一者才剛剛問(wèn)世數(shù)十年,但是這兩者的內(nèi)在的機(jī)理卻十分相似。
這種高度相似性就引發(fā)了一個(gè)有趣的問(wèn)題:如果機(jī)器視覺(jué)與人類(lèi)視覺(jué)工作機(jī)理相似,那么它們是否也受到相似的制約?面對(duì)相似的視覺(jué)挑戰(zhàn)時(shí),機(jī)器視覺(jué)與人類(lèi)視覺(jué)的表現(xiàn)是否一致?
近日,伊朗德黑蘭大學(xué)的薩義德·克萊德皮舍(SaeedRezaKheradpisheh)和其合作者們?yōu)槲覀兘议_(kāi)了這一問(wèn)題的答案。他們使用了同樣的圖片,對(duì)于人類(lèi)和機(jī)器分別進(jìn)行了測(cè)試。研究發(fā)現(xiàn),人類(lèi)和機(jī)器確實(shí)會(huì)受到相同問(wèn)題的困擾。
首先容小編介紹一點(diǎn)背景。在人類(lèi)大腦中,負(fù)責(zé)視覺(jué)的通路包含了數(shù)層神經(jīng)元,每一層神經(jīng)元的作用,是逐步地從一張圖片中發(fā)掘出更多的信息,比如移動(dòng),形狀,顏色等等。這些神經(jīng)元之間相互聯(lián)接,形成了巨大的網(wǎng)絡(luò)。
深度卷積神經(jīng)網(wǎng)絡(luò)也擁有類(lèi)似的結(jié)構(gòu)。它們也包含了許多層,每一層都包含了模擬神經(jīng)元的網(wǎng)絡(luò)回路,因此得名神經(jīng)網(wǎng)絡(luò)。
通過(guò)不斷的研究,計(jì)算機(jī)科學(xué)家們發(fā)現(xiàn),當(dāng)神經(jīng)網(wǎng)絡(luò)中每一個(gè)神經(jīng)元層都用來(lái)從圖片中逐步發(fā)掘新信息時(shí),神經(jīng)網(wǎng)絡(luò)具有最好的計(jì)算性能??茖W(xué)家們研究單一神經(jīng)元層時(shí)發(fā)現(xiàn),這些神經(jīng)元層所具有的功能與大腦中某些特定的神經(jīng)元具有驚人的相似性。
但是,盡管人類(lèi)大腦擅于進(jìn)行目標(biāo)識(shí)別,但它并不是完美的。比如說(shuō),將一張圖片進(jìn)行某種變形,人類(lèi)可能并不能很輕易地識(shí)別圖像中的目標(biāo)。
舉個(gè)例子,想象一下一張從側(cè)面拍攝的汽車(chē)照片。人們已經(jīng)開(kāi)發(fā)出了成千上萬(wàn)種對(duì)于圖片進(jìn)行變形的方法。比如說(shuō)對(duì)圖片中的對(duì)象進(jìn)行平移,分割,或者是將其放大或者縮小。
除此之外,還有兩種旋轉(zhuǎn)方式。其一是“平面旋轉(zhuǎn)”,比如說(shuō)將照片中的汽車(chē)上下顛倒。
另一種是“深度旋轉(zhuǎn)”(或者說(shuō)立體旋轉(zhuǎn))。在這種情形下,你需要將這個(gè)汽車(chē)想象成一個(gè)3D的物體。在深度上對(duì)汽車(chē)進(jìn)行旋轉(zhuǎn),你看見(jiàn)的可能是汽車(chē)的前部,后部或者是四分之三側(cè)視像,等等。
但是,就兩張擁有著相同汽車(chē)的圖片而言,改變不同的視角對(duì)于識(shí)別汽車(chē)會(huì)造成多大的影響?顯然,有一些變形比另一些更為困難,但是具體是哪些變形?機(jī)器視覺(jué)是否也會(huì)遇到相同的困難?
為了找出答案,克萊德皮舍和其合作者們制作了多張含有四類(lèi)不同物體的圖片。隨后,這些圖片被用于測(cè)試人類(lèi)與深度神經(jīng)網(wǎng)絡(luò)物體識(shí)別能力。
在人類(lèi)受試環(huán)節(jié),電腦屏幕上會(huì)隨機(jī)出現(xiàn)一張照片,并顯示大約12.5毫秒。受試者們需要按下四個(gè)按鈕中的一個(gè),來(lái)指出剛才看到的圖片中出現(xiàn)的是一輛車(chē),一艘船,一輛摩托車(chē)或是一個(gè)小動(dòng)物。
一共有89名受試者參加了實(shí)驗(yàn),每一名受試者都瀏覽了960張圖片。研究者們根據(jù)每位受試者的反應(yīng)速度與正確率來(lái)衡量他們辨別物體能力的高低。
與此同時(shí),研究團(tuán)隊(duì)使用了兩個(gè)目前在目標(biāo)識(shí)別領(lǐng)域最為強(qiáng)大的深度卷積網(wǎng)絡(luò)模型進(jìn)行了相同的測(cè)試。這兩個(gè)神經(jīng)網(wǎng)絡(luò)模型分別來(lái)自加拿大的多倫多大學(xué)和英國(guó)的牛津大學(xué)。
研究團(tuán)隊(duì)最終得出的結(jié)論頗為有趣??巳R德皮舍說(shuō),“我們發(fā)現(xiàn),人類(lèi)視覺(jué)與深度卷積神經(jīng)網(wǎng)絡(luò)識(shí)別不同變形的水平大致相當(dāng)。目前看來(lái),對(duì)于兩者而言,深度旋轉(zhuǎn)是最具挑戰(zhàn)性的變形方式,之后是圖片的縮放,平面旋轉(zhuǎn)和平面移動(dòng)(最簡(jiǎn)單)。”
這一看似有趣的研究實(shí)際上有著極為重要的應(yīng)用。簡(jiǎn)單來(lái)說(shuō),計(jì)算機(jī)科學(xué)家們?cè)谖磥?lái)為測(cè)試機(jī)器視覺(jué)創(chuàng)建圖像數(shù)據(jù)庫(kù)時(shí),需要更加謹(jǐn)慎。將來(lái),他們需要對(duì)那些機(jī)器難以識(shí)別的因素加以控制。
同時(shí),這項(xiàng)研究也展示了利用卷積神經(jīng)網(wǎng)絡(luò)來(lái)幫助研究者們研究人類(lèi)認(rèn)知的巨大潛力。在許多應(yīng)用場(chǎng)合中,某些特殊圖像的設(shè)計(jì)是一項(xiàng)至關(guān)重要的任務(wù),比如航空管制識(shí)別,緊急出口標(biāo)志設(shè)計(jì),救生設(shè)備說(shuō)明書(shū)設(shè)計(jì)等。
使用人工對(duì)這些圖像進(jìn)行評(píng)估既耗時(shí),又昂貴。但是,或許神經(jīng)網(wǎng)絡(luò)可以替代人類(lèi)完成這些任務(wù),或者至少過(guò)濾掉那些最差勁的設(shè)計(jì)樣本,從而大大減輕人類(lèi)的工作負(fù)擔(dān)。
除此之外,基于這項(xiàng)研究,研究人員們或許還得以開(kāi)發(fā)出不會(huì)與人類(lèi)犯同樣錯(cuò)誤的機(jī)器視覺(jué)系統(tǒng)。這類(lèi)系統(tǒng)可以用來(lái)輔助人類(lèi)在某些重要場(chǎng)合下,比如駕駛時(shí)的決策。
當(dāng)然,這一切都只是一個(gè)開(kāi)始。神經(jīng)網(wǎng)絡(luò)的到來(lái),對(duì)于那些原來(lái)只能由人類(lèi)負(fù)責(zé)的任務(wù)而言,不啻于一次變革,在將來(lái),這一變革還將繼續(xù)加速。