12月3日,谷歌發(fā)布了其云視覺(jué)API,來(lái)執(zhí)行這些任務(wù),如:識(shí)別人臉、標(biāo)志和文字,探測(cè)物體并了解其環(huán)境的應(yīng)用。一些客戶都對(duì)這些功能感到非常興奮,在市場(chǎng)上其它企業(yè)也正在尋找類似的一種服務(wù),為使其適應(yīng)其業(yè)務(wù)模式。
為什么一個(gè)機(jī)器人需要去看呢?Vision(視覺(jué))在我們的生活中,是非常有意義的,而且也是主要媒介之一。為了使機(jī)器人能夠與人類進(jìn)行相處,以及提供給我們所需要的服務(wù)等。當(dāng)務(wù)之急就是它們可以觀察,并且能夠根據(jù)自己視覺(jué)所觀察到的東西,來(lái)引導(dǎo)自己的行為。這可能是一個(gè)小攝像頭的形式,可以幫助盲人去“看”和感受環(huán)繞他們周圍的世界?;蛘呤且粋€(gè)家庭監(jiān)控系統(tǒng),該系統(tǒng)能夠正確識(shí)別一群流浪貓之間的差異,或者移動(dòng)樹枝,和一個(gè)防盜的形式。
2015世界機(jī)器人大會(huì)在北京國(guó)家會(huì)議中心開幕。加拿大阿爾貝塔大學(xué)教授、加拿大工程院院士張宏,在分論壇演講時(shí)表示,現(xiàn)在形形色色的機(jī)器人還沒(méi)有產(chǎn)業(yè)化,尤其是服務(wù)機(jī)器人,而服務(wù)機(jī)器人發(fā)展空間很大。
要想發(fā)展服務(wù)機(jī)器人,就要讓機(jī)器人獲得人的能力,重點(diǎn)是解決機(jī)器人視覺(jué)系統(tǒng)。因?yàn)橐曈X(jué)對(duì)人很重要,人類獲得訊息90%以上是依靠眼睛的,那么對(duì)于機(jī)器人,獲得信息來(lái)說(shuō),也是非常重要。
在過(guò)去的一年中,圍繞著AI(人工智能)的嗡嗡聲,一直在非常強(qiáng)勁的增長(zhǎng)。我們還從來(lái)沒(méi)有如此接近的觀察到這個(gè)技術(shù)的好處。2016年,將會(huì)看到新式的AI(人工智能)的供電設(shè)備,因?yàn)槲覀儗?duì)于人工智能,所面臨的最困難的挑戰(zhàn)之一,已經(jīng)取得了進(jìn)展:讓我們的設(shè)備,能夠了解它們所看到的。
在我們的日常生活中,由于設(shè)備逐漸成為我們不可分割的一部分,我們已經(jīng)看到如果沒(méi)有足夠的視覺(jué)能力,越來(lái)越多的應(yīng)用程序?qū)⒆呦蚴。渲邪罩袩o(wú)人機(jī)碰撞和機(jī)器人吸塵器“吃”了它們本不應(yīng)該吃的東西。
機(jī)器人視覺(jué),作為AI(人工智能)一個(gè)快速增長(zhǎng)的分支,目的是能夠給機(jī)器人與我們自己相當(dāng)?shù)囊曈X(jué),在過(guò)去幾年中,由于研究人員運(yùn)用專門的神經(jīng)網(wǎng)絡(luò),以幫助機(jī)器人識(shí)別和理解來(lái)自現(xiàn)實(shí)世界的圖像,機(jī)器人視覺(jué)已經(jīng)取得了巨大的進(jìn)步。2012年是一個(gè)開始的起點(diǎn),雖然電腦現(xiàn)在能夠做一切,從在互聯(lián)網(wǎng)中識(shí)別貓,到能夠在一組照片中,識(shí)別特定的面孔,但仍然有很長(zhǎng)的路要走。今天,我們看到機(jī)器視覺(jué)能夠離開數(shù)據(jù)中心,并適用于一切從自主無(wú)人機(jī)到機(jī)器人身上,可以整理我們的食物。
為了更好的了解機(jī)器人視覺(jué),一個(gè)常見(jiàn)的類比,機(jī)器人視覺(jué)與人類自己的視覺(jué),就好比天空中飛行的鳥類與飛機(jī)。兩者最終都將依賴于基礎(chǔ)物理學(xué)(如伯努利原理),來(lái)幫助它們飛入到高空中,但是,這并不意味著飛機(jī)將要扇動(dòng)它的翅膀進(jìn)行飛翔。只是因?yàn)槿伺c機(jī)器可能會(huì)看到同樣的東西,并且對(duì)這些圖像進(jìn)行解釋的方式,甚至可能有一定的共性,最后的結(jié)果仍然可能是具有很大的不同。
雖然基本的圖像分類已經(jīng)變得更加容易,但是,當(dāng)它涉及到從抽象的場(chǎng)景中提取意義和信息時(shí),機(jī)器人就面臨著一系列新的問(wèn)題。錯(cuò)覺(jué)就是一個(gè)很好的例子,機(jī)器人視覺(jué)仍然還有很長(zhǎng)的路要走。
每個(gè)人可能都熟悉兩個(gè)剪影彼此面對(duì),所產(chǎn)生經(jīng)典的錯(cuò)覺(jué)。當(dāng)一個(gè)人看著這個(gè)圖像時(shí),他們不限于只看到抽象的形狀。他們的大腦中插入更多的背景,使他們能夠識(shí)別圖像的多個(gè)部分,看到兩副面孔或一個(gè)花瓶,其實(shí)所有的都來(lái)自相同的圖像。
當(dāng)我們通過(guò)一個(gè)分類,就能夠管理這些相同的圖像(你可以在互聯(lián)網(wǎng)上找到一些免費(fèi)的),我們很快就意識(shí)到,對(duì)于一臺(tái)機(jī)器來(lái)說(shuō),要理解這些復(fù)雜的東西,這是多么困難的。一個(gè)基本的分類,并沒(méi)有看到兩副面孔或一個(gè)花瓶,而是看到另外的一些東西,像一把斧頭、鉤子、防彈背心,甚至是一把木吉他。雖然該系統(tǒng)是公認(rèn)的不確定性,在這些圖像中,實(shí)際上任何東西都有可能產(chǎn)生,它顯示了多么大的挑戰(zhàn)性,人類尚且看不太懂,更不要說(shuō)是機(jī)器人了。
如果我們看到一些更復(fù)雜的東西,這個(gè)問(wèn)題甚至?xí)兊酶永щy,比如BeverlyDoolittle(富康杜利特爾)的一幅畫,雖然看到這個(gè)圖的每個(gè)人,可能不能夠發(fā)現(xiàn),其實(shí)每個(gè)人的臉都在這塊畫布上,他們幾乎立即看到,比映入他們眼簾更多的圖片。
為了理解為什么這是如此大的挑戰(zhàn),你需要考慮,為什么視覺(jué)是如此的復(fù)雜。就像這些圖像一樣,世界其實(shí)是一個(gè)非?;靵y的地方。瀏覽世界,并沒(méi)有像構(gòu)建一個(gè)算法,然后通過(guò)數(shù)據(jù)進(jìn)行分析這么簡(jiǎn)單,它要求我們需要根據(jù)實(shí)際的情況,我們能夠采取相應(yīng)的行動(dòng)經(jīng)驗(yàn),并且需要進(jìn)行深入的理解。
機(jī)器人和無(wú)人駕駛飛機(jī)面對(duì)這些無(wú)數(shù)的障礙,可能是超出常規(guī)的,并且找出如何克服這些挑戰(zhàn)的方法,是那些希望能夠?qū)崿F(xiàn)人工智能革命的人,需要解決的一大問(wèn)題。
隨著連續(xù)采用這些技術(shù),如神經(jīng)網(wǎng)絡(luò)和專用機(jī)器視覺(jué)硬件,我們正在迅速縮小人類和機(jī)器視覺(jué)之間的差距。在將來(lái)的某一天,我們甚至開始看到機(jī)器人的視覺(jué)能力,可能會(huì)超越我們自己,使它們能夠完成許多復(fù)雜的任務(wù),并且我們的社會(huì)將會(huì)完全自主運(yùn)作。
更多資訊請(qǐng)關(guān)注機(jī)器視覺(jué)頻道