讓簡筆畫生成逼真人臉!未來或能用于警察破案

時(shí)間:2020-06-19

來源:中國傳動(dòng)網(wǎng)

導(dǎo)語:在5G全面鋪展的新技術(shù)時(shí)代,隨著分身技術(shù)落地經(jīng)驗(yàn)的不斷積累以及產(chǎn)品技術(shù)的突破創(chuàng)新,近日,中國科學(xué)院北京分院的研究團(tuán)隊(duì)研發(fā)出一個(gè)AI人像生成模型。該模型可以依據(jù)簡筆畫生成逼真的人臉肖像。

  在5G全面鋪展的新技術(shù)時(shí)代,隨著分身技術(shù)落地經(jīng)驗(yàn)的不斷積累以及產(chǎn)品技術(shù)的突破創(chuàng)新,5月21日,在全國矚目的兩會(huì)召開之際,搜狗聯(lián)合新華社推出的全球首個(gè)3D AI合成主播“新小微”正式亮相,為全國觀眾帶來最新的兩會(huì)新聞資訊報(bào)道。近日,中國科學(xué)院北京分院的研究團(tuán)隊(duì)研發(fā)出一個(gè)AI人像生成模型。該模型可以依據(jù)簡筆畫生成逼真的人臉肖像。

  利用這一模型,沒有繪畫經(jīng)驗(yàn)的人也可以很容易地得到逼真圖像。除了用于娛樂,在未來,這個(gè)模型或能幫助執(zhí)法人員進(jìn)行嫌疑人畫像。

  這項(xiàng)研究發(fā)表在學(xué)術(shù)網(wǎng)站arXiv上,論文標(biāo)題為《深度人臉畫像:從草圖深度生成人臉圖像(Deep Face Drawing:Deep Generation of FaceImages from Sketches)》。今年七月份,這項(xiàng)技術(shù)將在計(jì)算機(jī)圖形學(xué)頂會(huì)SIGGRAPH會(huì)議上展出。

  一、給人臉“分區(qū)”,逐塊推理出逼真圖像

  現(xiàn)有的“從圖像生成圖像”的技術(shù)已經(jīng)可以實(shí)現(xiàn)快速輸出結(jié)果。但是,現(xiàn)有解決方案對(duì)輸入圖像的要求較高,只有以專業(yè)素描畫像等逼真度較高的圖像作為輸入時(shí),才能生成逼真的人臉肖像。

  在這種模型中,輸出結(jié)果的質(zhì)量直接受到輸入圖像的影響,即輸出結(jié)果受到輸入圖像的“硬約束”。

  為了解決這一問題,中國科學(xué)院北京分院的研究團(tuán)隊(duì)設(shè)計(jì)出一種“從局部到全局(local-to-global)”的“軟約束(soft constraint)”方法??偟膩碚f,這一方法基于一個(gè)深度學(xué)習(xí)框架,分為兩步進(jìn)行。

  首先,研究人員把簡筆畫輸入模型。模型依據(jù)簡筆畫,推理出人臉上各個(gè)器官的“布局”情況。這一步中,模型采用隱式建模(implicitly model)方法建立人臉圖像的形狀空間模型,并學(xué)習(xí)人臉關(guān)鍵部位的特征嵌入。

  模型將人臉分成左眼、右眼、鼻子、嘴唇、臉型這5個(gè)關(guān)鍵“組件”。

  然后,模型依據(jù)臉部的“布局”情況,從簡筆畫“倒推”出逼真的人臉圖像。這一步中,模型依據(jù)人臉組件樣本的特征向量,從輸入簡筆畫的相應(yīng)部分,推理出潛在的人臉組件流形(Manifold)。

  對(duì)于每一個(gè)關(guān)鍵部位,模型隱式定義了一個(gè)潛在流形。研究人員假設(shè)底層組件的流形是局部線性的。模型運(yùn)行經(jīng)典的局部性嵌入算法,將簡筆畫人臉特征的組件投影到其組件流形上。

  為了改善信息流,研究人員應(yīng)用另一個(gè)深層神經(jīng)網(wǎng)絡(luò),使其在上述兩步之間輸出中間結(jié)果。這個(gè)深層神經(jīng)網(wǎng)絡(luò)通過多通道特征映射,學(xué)習(xí)從嵌入組件特征到逼真圖像的映射結(jié)果。

  二、60位參與者打分1302次,證實(shí)模型輸出結(jié)果更逼真

  模型搭建好后,研究人員使模型在一臺(tái)搭載了一個(gè)英特爾i7-7700CPU和一個(gè)NVIDIAGTX 1080Ti GPU、擁有16GB內(nèi)存的電腦上運(yùn)行,用17000張簡筆畫和照片進(jìn)行訓(xùn)練。訓(xùn)練結(jié)束后,研究人員對(duì)模型進(jìn)行了評(píng)估。

  研究人員首先用線條不同的簡筆畫作為輸入。結(jié)果顯示,不同的線條會(huì)導(dǎo)致輸出圖像擁有不同的細(xì)節(jié),但輸出圖像其他部分大體上沒有變化。

  然后,研究人員選用現(xiàn)有的全局檢索(global retrieval)模型和組件級(jí)檢索(component-level retrieval)模型與本項(xiàng)研究中的“從局部到全局”模型進(jìn)行了對(duì)比。結(jié)果顯示,“從局部到全局”模型返回的樣本最接近輸入組件草圖。

  為了使評(píng)估結(jié)果更加精確,研究人員進(jìn)行了一項(xiàng)用戶調(diào)查。研究人員選用22張抽象層次不同、粗糙度不同的簡筆畫作為輸入,分別用全局檢索模型、組件級(jí)檢索模型、“從局部到全局”模型輸出結(jié)果。

  共有60名參與者(39男21女,年齡介乎18至32歲)參加了用戶調(diào)查。研究人員向每個(gè)參與者展示4張照片,其中1張為簡筆草圖、3張為模型輸出的合成圖像。

  研究人員共得到1320個(gè)主觀評(píng)價(jià)。對(duì)這些評(píng)價(jià)結(jié)果的統(tǒng)計(jì)結(jié)果顯示,參與者普遍認(rèn)為“從局部到全局”模型的輸出結(jié)果更加準(zhǔn)確、圖像質(zhì)量也更高。

  三、局限性:易出現(xiàn)不兼容問題,缺乏少數(shù)族裔樣本

  評(píng)估結(jié)果顯示,“從局部到全局”模型能根據(jù)一張人臉簡筆畫,輸出仿真度較高的人臉圖像。但是,論文指出,這一模型還有一些局限性。

  將人臉簡筆畫“分區(qū)”的方法優(yōu)勢(shì)在于靈活度較高,但也可能帶來各個(gè)組件不兼容的問題。這個(gè)問題對(duì)于眼睛來說尤其明顯。模型“分區(qū)”考慮左右眼的策略可能導(dǎo)致輸出圖像的眼睛不對(duì)稱。根據(jù)論文,引入對(duì)稱損失(symmetry loss)或明確規(guī)定輸出結(jié)果中的眼睛必須來自同一樣本可解決這一問題。

  另外,在用于訓(xùn)練的17000張簡筆畫和照片中,大部分是白種人、南美人的臉,缺乏少數(shù)族裔樣本。因此,模型對(duì)少數(shù)族裔樣本的畫像結(jié)果可能會(huì)出現(xiàn)失真等問題。

  結(jié)語:人臉合成技術(shù)的價(jià)值超出預(yù)期

  本項(xiàng)研究中,中國科學(xué)院北京分院的研究團(tuán)隊(duì)采用“從局部到全局”的方法,設(shè)計(jì)出一個(gè)AI人像生成模型。該模型可以依據(jù)一張人臉簡筆畫,輸出逼真的人臉畫像。

  根據(jù)論文,在未來,研究人員計(jì)劃引入側(cè)臉簡筆畫、在簡筆畫中增加隨機(jī)噪聲等,通過增加訓(xùn)練數(shù)據(jù)的規(guī)模,使模型輸出圖像結(jié)果更準(zhǔn)確。

  另外,“從局部到全局”模型的官網(wǎng)信息指出,研究人員將很快推出該模型的代碼。這意味著在不久的將來,我們將能看到這個(gè)模型的實(shí)際應(yīng)用。

  近些年來,基于生成對(duì)抗網(wǎng)絡(luò)(GAN)的Deepfake技術(shù)多次被曝出濫用丑聞,引起了很大爭議。學(xué)界和業(yè)界一度談Deepfake而“色變”,致力于找出能規(guī)避其風(fēng)險(xiǎn)的解決方案。比如,如臉書、亞馬遜網(wǎng)絡(luò)服務(wù)及其他機(jī)構(gòu)聯(lián)合發(fā)起了“Deepfake鑒別挑戰(zhàn)”項(xiàng)目。

  同樣用到生成對(duì)抗網(wǎng)絡(luò),這次中科院團(tuán)隊(duì)研發(fā)的模型可以利用簡筆畫生成逼真人像,這既顯示出了現(xiàn)在人臉合成技術(shù)的厲害之處,也啟示我們?nèi)四樅铣杉夹g(shù)的價(jià)值比想象的更加豐富和超出預(yù)期。

中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(www.surachana.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

關(guān)注中國傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

最新新聞
查看更多資訊

娓娓工業(yè)

廣州金升陽科技有限公司

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0