基于神經(jīng)網(wǎng)絡(luò)的空間濾波器:方向信息輔助的目標(biāo)說話人語音分離
文:顧容之 陳聯(lián)武 張世雄 徐勇 鄭脊萌 蘇丹 鄒月嫻 俞棟2019年第四期
近來,針對多說話人語音分離任務(wù),基于深度學(xué)習(xí)的有監(jiān)督學(xué)習(xí)方法取得了長足的進(jìn)展。其中,由于多通道語音中提取出的聲源空間信息可以提供更充分的語音分離線索,因此多通道語音分離方法往往能取得比單通道語音分離更好的效果。常見的多通道語音分離方法將頻域特征(對數(shù)功率譜)和通道間空域特征在神經(jīng)網(wǎng)絡(luò)輸入層拼接,然后,神經(jīng)網(wǎng)絡(luò)采用理想時(shí)頻掩膜作為監(jiān)督信息,估計(jì)目標(biāo)說話人的時(shí)頻掩膜以分離出目標(biāo)說話人語音。本文設(shè)計(jì)了兩種方向性特征,以表征來自目標(biāo)方向的聲源在各個(gè)時(shí)頻點(diǎn)上的主導(dǎo)程度。本文提出將方向性特征作為神經(jīng)網(wǎng)絡(luò)的額外輸入特征,以提供與頻域和空域特征互相補(bǔ)足的分離線索,使得語音分離模型學(xué)習(xí)到的時(shí)頻掩膜估計(jì)誤差更小。此外,為了緩解空域歧義問題,即多個(gè)說話人方向相近的情況,本文還引入了注意力機(jī)制使得模型可以動(dòng)態(tài)地調(diào)整對不同輸入特征的關(guān)注程度。本文在仿真的遠(yuǎn)場WSJ02-mix和3-mix數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn),相較于單通道和多通道的其它基線方法,所提的方法較顯著地提升了語音分離系統(tǒng)的性能。
關(guān)鍵詞:目標(biāo)說話人語音分離,方向性特征,注意力機(jī)制,置換不變訓(xùn)練
中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:
凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(www.surachana.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問題,請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動(dòng)控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動(dòng)公眾號獲取更多資訊

關(guān)注中國傳動(dòng)網(wǎng)公眾號獲取更多資訊

掃碼關(guān)注小程序
時(shí)刻關(guān)注行業(yè)動(dòng)態(tài)



填寫郵件地址,訂閱更多資訊:
撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn
- 運(yùn)動(dòng)控制
- 伺服系統(tǒng)
- 機(jī)器視覺
- 機(jī)械傳動(dòng)
- 編碼器
- 直驅(qū)系統(tǒng)
- 工業(yè)電源
- 電力電子
- 工業(yè)互聯(lián)
- 高壓變頻器
- 中低壓變頻器
- 傳感器
- 人機(jī)界面
- PLC
- 電氣聯(lián)接
- 工業(yè)機(jī)器人
- 低壓電器
- 機(jī)柜