【導(dǎo)讀】隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,安靜環(huán)境下的語(yǔ)音識(shí)別已基本達(dá)到實(shí)用的要求;但是面對(duì)真實(shí)環(huán)境下噪聲、混響、回聲的干擾,面對(duì)著更自然隨意的口語(yǔ)表達(dá),語(yǔ)音識(shí)別的性能明顯下降;尤其是遠(yuǎn)講環(huán)境下的語(yǔ)音識(shí)別,還難以達(dá)到實(shí)用的要求。
語(yǔ)音前端處理技術(shù)對(duì)于提高語(yǔ)音識(shí)別的魯棒性起到了非常重要的作用;通過(guò)前端處理模塊抑制各種干擾,使待識(shí)別的語(yǔ)音更干凈;尤其是面向智能家居和智能車(chē)載中的語(yǔ)音識(shí)別系統(tǒng),語(yǔ)音前端處理模塊扮演著重要角色。除了語(yǔ)音識(shí)別,語(yǔ)音前端處理算法在語(yǔ)音通信和語(yǔ)音修復(fù)中也有著廣泛的應(yīng)用。
在面向語(yǔ)音識(shí)別的語(yǔ)音前端處理算法,通過(guò)回聲消除、噪聲抑制、去混響提高語(yǔ)音識(shí)別的魯棒性;真實(shí)環(huán)境中包含著背景噪聲、人聲、混響、回聲等多種干擾源,上述因素組合到一起,使得這一問(wèn)題更具挑戰(zhàn)性。
遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的幾個(gè)典型的應(yīng)用場(chǎng)景,包括:智能機(jī)器人、智能家居等,此外智能車(chē)載也有著非常廣泛的應(yīng)用。為了使得這幾個(gè)典型應(yīng)用場(chǎng)景的技術(shù)真正落地,需要解決一系列技術(shù)痛點(diǎn),語(yǔ)音前端處理的一個(gè)最為重要的目標(biāo)是實(shí)現(xiàn)釋放雙手的語(yǔ)音交互,使得人機(jī)之間更自然的交互。
此圖形象的描述的語(yǔ)音前端處理模塊的幾個(gè)關(guān)鍵問(wèn)題:Echo:遠(yuǎn)端揚(yáng)聲器播放的聲音回傳給麥克;Diffuse Noise:無(wú)向噪聲的干擾;Reflected Sound:聲音通過(guò)墻壁反射,造成混響干擾;Interference:其他方向的干擾源; Target Speech:目標(biāo)方向聲音。Microphone Array:利用麥克風(fēng)陣列拾音。
語(yǔ)音前端處理模塊跟語(yǔ)音交互系統(tǒng)的關(guān)系:橙色部分表示多通道處理模塊,藍(lán)色部分表示單通道處理模塊,紅色部分表示后端識(shí)別合成等模塊。麥克風(fēng)陣列采集的語(yǔ)音首先利用參考源對(duì)各通道的信號(hào)進(jìn)行回波消除,然后確定聲源的方向信息,進(jìn)而通過(guò)波束形成算法來(lái)增強(qiáng)目標(biāo)方向的聲音,再通過(guò)混響消除方法抑制混響;需要強(qiáng)調(diào)的是可以先進(jìn)行多通道混響消除再進(jìn)行波束形成,也可以先進(jìn)行波束形成再進(jìn)行單通道混響消除。經(jīng)過(guò)上述處理后的單路語(yǔ)音進(jìn)行后置濾波消除殘留的音樂(lè)噪聲,然后通過(guò)自動(dòng)增益算法調(diào)節(jié)各個(gè)頻帶的能量后最為前端處理的輸出,將輸出的音頻傳遞給后端進(jìn)行識(shí)別和理解。
對(duì)于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別,更多的是采用雙麥克,甚至是多麥克進(jìn)行聲音采集,這是由于單麥克遠(yuǎn)距離拾音能力有限,而麥克風(fēng)陣列可以有效的增強(qiáng)目標(biāo)方向聲音。上圖為麥克風(fēng)陣列采集語(yǔ)音的示意圖,各個(gè)通道的信號(hào)通過(guò)濾波器加權(quán)融合,Y為多通道融合增強(qiáng)后的語(yǔ)音,可以將其分解為兩部分:目標(biāo)語(yǔ)音成分和殘留噪聲成分;殘留噪聲成分可以通過(guò)后置濾波算法進(jìn)一步處理,也可以通過(guò)改進(jìn)麥克風(fēng)陣列波束形成算法使這一成分得到有效抑制。
一、回聲消除的方法:
在遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別系統(tǒng)中,回聲消除最典型的應(yīng)用是智能終端播放音樂(lè),遠(yuǎn)端揚(yáng)聲器播放的音樂(lè)會(huì)回傳給近端麥克風(fēng),此時(shí)需要有效的回聲消除算法來(lái)抑制遠(yuǎn)端信號(hào)的干擾?;芈曄膬蓚€(gè)難點(diǎn)是雙講檢測(cè)和延時(shí)估計(jì),對(duì)于智能終端的回聲消除模塊,解決雙講條件下對(duì)遠(yuǎn)端干擾源的抑制是最為關(guān)鍵的問(wèn)題。
這是一個(gè)更為復(fù)雜的回聲消除系統(tǒng),近端通過(guò)麥克風(fēng)陣列采集信號(hào),遠(yuǎn)端是雙聲道揚(yáng)聲器輸出;因此近端需要考慮如何將波束形成算法跟回聲消除算法對(duì)接,遠(yuǎn)端需要考慮如何對(duì)立體聲信號(hào)去相關(guān)。如圖所示DTD部分結(jié)合遠(yuǎn)端信號(hào)和近端信號(hào)進(jìn)行雙講檢測(cè),通過(guò)判斷當(dāng)前的模式(近講模式、遠(yuǎn)講模式、雙講模式)采用不同的策略對(duì)濾波器w1和w2進(jìn)行更新,進(jìn)而濾除遠(yuǎn)端干擾,在此基礎(chǔ)上通過(guò)后置濾波算法消除殘留噪聲的干擾。
二、混響消除方法:
聲音在房間傳輸過(guò)程中,會(huì)經(jīng)過(guò)墻壁或其它障礙物的反射后到達(dá)麥克風(fēng),從而生成混響語(yǔ)音;房間大小、聲源和麥克風(fēng)的位置、室內(nèi)障礙物、混響時(shí)間等因素均影響著混響語(yǔ)音的生成;可以通過(guò)T60描述混響時(shí)間,它的定義為聲源停止發(fā)聲后,聲壓級(jí)減少60dB所需要時(shí)間即為混響時(shí)間?;祉憰r(shí)間過(guò)短,聲音發(fā)干,枯燥無(wú)味不親切自然,混響時(shí)間過(guò)長(zhǎng),會(huì)使聲音含混不清:合適時(shí)聲音圓潤(rùn)動(dòng)聽(tīng)。大多數(shù)房間的混響時(shí)間在200-1000ms范圍內(nèi)。
上圖為一個(gè)典型的房間脈沖響應(yīng),藍(lán)色部分為早期混響,橙色部分為晚期混響;在語(yǔ)音去混響任務(wù)中,更多的關(guān)注于對(duì)晚期混響的抑制。
此圖相對(duì)直觀的描述了混響語(yǔ)音的生成過(guò)程,安靜語(yǔ)音在時(shí)域上卷積房間脈沖響應(yīng)濾波器后生成混響語(yǔ)音;通常語(yǔ)音在傳輸過(guò)程中會(huì)伴隨噪聲的干擾;因此麥克風(fēng)接收到的語(yǔ)音Y包含三個(gè)部分:藍(lán)色部分包括了從聲源直接到達(dá)麥克風(fēng)的語(yǔ)音以及早期混響成分、橙色部分是晚期混響成分、灰色部分是房間中各種噪聲源的干擾。
當(dāng)前主流的混響消除方法主要包括以下四類(lèi):基于波束形成方法、基于逆濾波方法、基于語(yǔ)音增強(qiáng)方法、基于深度學(xué)習(xí)方法?;诓ㄊ纬傻幕祉懴椒僭O(shè)干擾信號(hào)與直達(dá)信號(hào)之間是獨(dú)立的,它對(duì)于抑制加性噪聲非常有效,它并不適用于混響環(huán)境;理論上,逆濾波算法可以獲得較好的混響消除性能,但是缺少能夠在實(shí)際環(huán)境中對(duì)混響等效濾波器進(jìn)行盲估計(jì)的有效算法,因此很難實(shí)際應(yīng)用;譜增強(qiáng)算法根據(jù)預(yù)先定義好的語(yǔ)音信號(hào)的波形或頻譜模型,對(duì)混響信號(hào)進(jìn)行處理,但是該方法難以提取出純凈語(yǔ)音,從而難以有效實(shí)現(xiàn)混響消除。針對(duì)上述問(wèn)題,一些學(xué)者開(kāi)始嘗試基于深度學(xué)習(xí)的語(yǔ)音混響消除方法,這種方法的劣勢(shì)是當(dāng)訓(xùn)練集和測(cè)試集不匹配時(shí),算法性能會(huì)下降。這次報(bào)告重點(diǎn)介紹一種使用比較廣的基于加權(quán)預(yù)測(cè)誤差的混響消除方法。這種方法是由日本的NTTData公司提出并進(jìn)一步改進(jìn)的,能夠適用于單通道和多通道的混響消除。
這種方法的思想和語(yǔ)音編碼中的線性預(yù)測(cè)系數(shù)有些相似,如下圖所示,混響語(yǔ)音信號(hào)Y可以分解為安靜語(yǔ)音成分D混響成分L,L可以通過(guò)先前若干點(diǎn)的Y加權(quán)確定,G表示權(quán)重系數(shù);WPE算法的核心問(wèn)題是確定G,然后估計(jì)出混響消除后的語(yǔ)音。
該算法通過(guò)如下目標(biāo)函數(shù)估計(jì)濾波器系數(shù),具體推倒過(guò)程如下所示,更為詳細(xì)的算法流程可以參考一下網(wǎng)址(kecl.ntt)推薦的論文。
由于早期混響成分有助于提高語(yǔ)音的可懂度,因此可以對(duì)上述的方法進(jìn)行改進(jìn),只抑制晚期混響成分。如下圖所示D同時(shí)包括安靜語(yǔ)音成分和早期混響成分,通過(guò)先前若干點(diǎn)的Y確定L時(shí)沒(méi)有考慮早期混響成分。
在此基礎(chǔ)上將WPE方法擴(kuò)展到多通道混響消除模式,此時(shí)某一通道的晚期混響成分L可以通過(guò)各個(gè)通道先前若干點(diǎn)的Y加權(quán)確定,通過(guò)估計(jì)最優(yōu)的權(quán)重系數(shù)G,消除晚期混響成分的干擾。
基于WPE的多通道混響消除的流程,如果所示需要經(jīng)過(guò)多次迭代確定出濾波器系數(shù)g,生成出混響消除后的語(yǔ)音。輸出的去混響后的各通道語(yǔ)音可以作為波束形成算法的輸入。
三、語(yǔ)音降噪方法:
這個(gè)公式表示第j個(gè)麥克風(fēng)接收到語(yǔ)音信號(hào)時(shí)域上的數(shù)學(xué)表達(dá)式,x表示安靜語(yǔ)音,h表示房間響應(yīng)函數(shù),u表示其它噪聲干擾。接下來(lái)介紹的算法將更多的側(cè)重于對(duì)噪聲源u的抑制。
此公式表示第j個(gè)麥克風(fēng)接收到語(yǔ)音信號(hào)頻域上的數(shù)學(xué)表達(dá)式,X表示安靜語(yǔ)音,H表示房間響應(yīng)函數(shù),U表示其它噪聲干擾。接下來(lái)介紹的算法將更多的側(cè)重于對(duì)噪聲源U的抑制。
波束形成算法的目的:融合多個(gè)通道的信息抑制非目標(biāo)方向的干擾源,增強(qiáng)目標(biāo)方向的聲音。從圖中我們可以看到,各個(gè)麥克風(fēng)接收到的語(yǔ)音信號(hào)存在延時(shí),這種時(shí)延信息能夠反映出聲源的方向;直覺(jué)上分析,通過(guò)對(duì)齊各個(gè)通道的信號(hào),能夠增強(qiáng)目標(biāo)語(yǔ)音信號(hào),同時(shí)由于相位差異可以抵消掉部分干擾成分。
波束形成算法需要解決的核心問(wèn)題是估計(jì)空間濾波器W,它的輸入是麥克風(fēng)陣列采集的多通道語(yǔ)音信號(hào),它的輸出是增強(qiáng)后的單路語(yǔ)音信號(hào)。對(duì)空間濾波器進(jìn)一步細(xì)分,可以分為時(shí)不變線性濾波、時(shí)變線性濾波以及非線性變換模型。最簡(jiǎn)單的延時(shí)求和法屬于時(shí)不變線性濾波,廣義旁瓣濾波法屬于時(shí)變線性濾波,基于深層神經(jīng)網(wǎng)絡(luò)的波束形成屬于非線性變換模型。
通過(guò)波束方向圖可以更直觀的理解波束形成的原理,上圖是一個(gè)麥克風(fēng)陣列算法在f頻帶上所對(duì)應(yīng)的波束方向圖,不同頻帶對(duì)應(yīng)不同的波束方向圖;波束方向圖同時(shí)還依賴(lài)于麥克風(fēng)陣列的硬件拓?fù)洌缇€型陣只能實(shí)現(xiàn)180度定向,因此它的波束方向圖是對(duì)稱(chēng)的。在設(shè)計(jì)波束形成算法時(shí),需要盡可能使得主瓣帶寬盡可能窄,同時(shí)能夠有效的抑制旁瓣增益。在麥克風(fēng)陣列選型上,麥克風(fēng)之間的距離越大,則陣列的定向拾音能力越強(qiáng),但是不能無(wú)限加大麥克風(fēng)之間的距離,需要遵循空間采樣定理。聲學(xué)信號(hào)中的波束形成方法與雷達(dá)信號(hào)處理中的波束形成方法有很多相似之處,但兩者處理的頻帶和帶寬有差異。
麥克風(fēng)陣列算法的數(shù)學(xué)表達(dá)式解析,式中Y表示各個(gè)麥克風(fēng)接收到的信號(hào),綠色部分表示聲源信號(hào),橙色部分表示聲源信號(hào)傳輸?shù)禁溈孙L(fēng)的變換,紅色部分表示各種噪聲源的干擾。因此波束形成算法需要在已知Y的條件下,盡可能準(zhǔn)確的估計(jì)h和u;即估計(jì)導(dǎo)向矢量和噪聲模型。
導(dǎo)向矢量是麥克風(fēng)陣列算法中最為重要的參數(shù),能夠反映聲源傳輸?shù)姆较蛐孕畔?,用于描述從聲源到麥克風(fēng)傳輸過(guò)程中延時(shí)、衰減等特性;下圖為自由場(chǎng)條件下的平面波模型,自由場(chǎng)假設(shè)忽略了混響干擾,遠(yuǎn)距離拾音可以近似為平面波模型;數(shù)學(xué)表達(dá)式中紫色部分表示聲源到達(dá)各個(gè)麥克風(fēng)的時(shí)間差,綠色部分表示聲源向麥克風(fēng)傳輸過(guò)程中的衰減,導(dǎo)向矢量主要跟這兩個(gè)因素有關(guān);在一些算法中會(huì)忽略能量衰減因素的影響。對(duì)導(dǎo)向矢量進(jìn)一步處理也可以對(duì)聲源方位信息進(jìn)行估計(jì)。
通過(guò)廣義互相關(guān)函數(shù)可以確定各個(gè)麥克風(fēng)之間的相對(duì)延時(shí),如下圖所示,尋找廣義互相關(guān)函數(shù)中的峰值點(diǎn),通過(guò)峰值點(diǎn)的位置計(jì)算出相對(duì)延時(shí)。為了進(jìn)一步提高TDOA估計(jì)的魯棒性,可以采用GCC-PHAT方法,這種方法在已有方法基礎(chǔ)上引入了能量歸一化機(jī)制。
下圖為一種改進(jìn)的基于加權(quán)延時(shí)求和的波束形成方法,針對(duì)TDOA模塊,利用維特比算法確定各個(gè)通道的最優(yōu)相對(duì)延時(shí),根據(jù)實(shí)際環(huán)境對(duì)各個(gè)通道的權(quán)重進(jìn)行控制;算法細(xì)節(jié)可以參考BeamformIt工具包,這種算法作為CHIME評(píng)測(cè)比賽中的基線方法。
基于延時(shí)求和的方法計(jì)算復(fù)雜度低,但是它在真實(shí)環(huán)境下的魯棒性差,接下來(lái)介紹一種應(yīng)用更為廣泛的方法:基于最小方差失真響應(yīng)波束形成。如下圖中的數(shù)學(xué)表達(dá)式所示,y表示多通道語(yǔ)音,w表示空間濾波器,x表示增強(qiáng)后的單通道語(yǔ)音,這種波束形成算法的假設(shè)是期望方向上的語(yǔ)音無(wú)失真,也就是wh這項(xiàng)為1;同時(shí)保證對(duì)噪聲的響應(yīng)最小,也就是最小化wu這項(xiàng)。在這兩個(gè)約束條件下估計(jì)最優(yōu)的空間濾波器w。
經(jīng)過(guò)一系列的變換和推倒,我們能夠確定空間濾波器w與噪聲協(xié)方差矩陣和導(dǎo)向矢量的關(guān)系。為了計(jì)算噪聲協(xié)方差矩陣,需要估計(jì)出各個(gè)通道中信號(hào)在各個(gè)頻帶上噪聲成分的互相關(guān)系數(shù),因此對(duì)噪聲成分的有效估計(jì)將直接影響到波束形成算法的性能。對(duì)于導(dǎo)向矢量,可以通過(guò)估計(jì)聲源到達(dá)各個(gè)麥克風(fēng)的相對(duì)延時(shí)來(lái)確定。
為了有效的估計(jì)噪聲協(xié)方差矩陣,需要對(duì)各個(gè)通道信號(hào)的各幀的各個(gè)頻帶的屏蔽值進(jìn)行估計(jì),可以采用二值型屏蔽或浮點(diǎn)型屏蔽;通過(guò)這一屏蔽值可以判斷各個(gè)頻帶是否是噪聲主導(dǎo)以及噪聲所占的比重;在確定了屏蔽值,可以進(jìn)一步計(jì)算出噪聲協(xié)方差矩陣和語(yǔ)音協(xié)方差矩陣;對(duì)于導(dǎo)向矢量,不僅可能通過(guò)到達(dá)各個(gè)麥克風(fēng)的相對(duì)延時(shí)來(lái)確定,還可以通過(guò)語(yǔ)音協(xié)方差矩陣變換得到,導(dǎo)向矢量可以近似的表示為語(yǔ)音協(xié)方差矩陣最大特征值所對(duì)應(yīng)的特征向量。
重點(diǎn)介紹基于最小方差失真響應(yīng)波束形成的流程,對(duì)各個(gè)通道語(yǔ)音首先進(jìn)行屏蔽值估計(jì),然后計(jì)算噪聲協(xié)方差矩陣和語(yǔ)音協(xié)方差矩陣,進(jìn)一步確定導(dǎo)向矢量,通過(guò)導(dǎo)向矢量和噪聲協(xié)方差矩陣估計(jì)空間濾波器,生成波束形成后的單通道語(yǔ)音。
除了基于延時(shí)求和的波束形成和基于最小方差失真響應(yīng)的波束形成,以下幾種波束形成方法應(yīng)用也比較廣泛,包括:基于最大信噪比的波束形成、基于多通道維納濾波的波束形成以及基于廣義旁瓣濾波的波束形成;通過(guò)數(shù)學(xué)表達(dá)式我們可以看出,噪聲協(xié)方差矩陣的估計(jì)起到了非常關(guān)鍵的作用。
下面重點(diǎn)介紹一下基于深度學(xué)習(xí)的波束形成方法;深度學(xué)習(xí)方法在智能語(yǔ)音領(lǐng)域的應(yīng)用非常的廣泛,包括單通道的語(yǔ)音增強(qiáng)和語(yǔ)音去混響問(wèn)題,深度學(xué)習(xí)方法已經(jīng)成為了智能語(yǔ)音領(lǐng)域重要的主流方法之一;不同于單通道語(yǔ)音增強(qiáng),多通道語(yǔ)音增強(qiáng)方法跟麥克風(fēng)陣列的硬件結(jié)構(gòu)高度相關(guān),所以如果直接將各通道譜參數(shù)特征作為輸入,將干凈語(yǔ)音譜參數(shù)特征作為輸出,所訓(xùn)練的模型將受限于硬件結(jié)構(gòu);因此,為了提高模型的泛化能力,更常用的方法是采用深層神經(jīng)網(wǎng)絡(luò)模型對(duì)各個(gè)通道各個(gè)頻帶的屏蔽值進(jìn)行估計(jì)、融合,進(jìn)而計(jì)算出噪聲協(xié)方差矩陣,然后再跟傳統(tǒng)的波束形成方法對(duì)接,如下圖所示的方法是將深層神經(jīng)網(wǎng)絡(luò)方法跟最小方差失真響應(yīng)波束形成方法對(duì)接。
采用這種基于深度學(xué)習(xí)的方法,可以有效的抑制噪聲的干擾,提高增強(qiáng)語(yǔ)音的質(zhì)量。增強(qiáng)后的語(yǔ)音可以輸入到語(yǔ)音識(shí)別系統(tǒng),提高語(yǔ)音識(shí)別的魯棒性。
四、語(yǔ)音前端處理方法在語(yǔ)音識(shí)別中的應(yīng)用
這是用于遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別的公共數(shù)據(jù)庫(kù),不同于近場(chǎng)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù),遠(yuǎn)場(chǎng)語(yǔ)音數(shù)據(jù)的采集不僅錄音環(huán)境更為復(fù)雜,同時(shí)還跟采集語(yǔ)音的硬件相關(guān)。所以錄制遠(yuǎn)場(chǎng)語(yǔ)音數(shù)據(jù)的成本相對(duì)較高。比較有名的遠(yuǎn)場(chǎng)語(yǔ)音數(shù)據(jù)庫(kù)包括AMI數(shù)據(jù),這個(gè)數(shù)據(jù)庫(kù)是在會(huì)議室環(huán)境下錄制的,混響時(shí)間較長(zhǎng);Chime數(shù)據(jù)庫(kù),在噪聲環(huán)境下錄制的數(shù)據(jù)庫(kù),其中Chime1和Chime2是單通道采集的,Chime-3和Chime-4是多通道采集的。
Chime-4比賽中包括了三種場(chǎng)景:?jiǎn)瓮ǖ馈㈦p通道和六通道。前端基線方法是改進(jìn)的延時(shí)求和;后端聲學(xué)模型是7層的DNN,得到的聲學(xué)模型需要再進(jìn)行sMBR區(qū)分性訓(xùn)練;語(yǔ)言模型采用3元或5元的語(yǔ)言模型;語(yǔ)料內(nèi)容來(lái)自WSJ0數(shù)據(jù)庫(kù)。
以下是對(duì)Chime-3和Chime-4比賽中的有效方法進(jìn)行的梳理。
首先看一下前端部分,有效的估計(jì)噪聲協(xié)方差矩陣將有助于提高算法性能。為了有效的估計(jì)噪聲協(xié)方差矩陣,需要對(duì)各個(gè)通道的各個(gè)時(shí)頻單元進(jìn)行屏蔽值估計(jì),可以采用深度學(xué)習(xí)等方法進(jìn)行估計(jì),在此基礎(chǔ)上計(jì)算噪聲協(xié)方差矩陣;使用最多的波束形成方法包括:最小方差響應(yīng)失真波束形成、最大信噪比波束形成、廣義旁瓣濾波波束形成、多通道維納濾波波束形成等。自適應(yīng)波束形成方法要優(yōu)于固定波束形成方法。
接下來(lái)介紹后端有效方法,在數(shù)據(jù)選擇上充分利用各個(gè)通道數(shù)據(jù);比如單通道語(yǔ)音增強(qiáng)任務(wù),將六個(gè)通道采集的數(shù)據(jù)都作為訓(xùn)練數(shù)據(jù);前端算法和后端算法的匹配非常重要,具體來(lái)說(shuō),訓(xùn)練聲學(xué)模型時(shí),如果是將前端算法處理后的數(shù)據(jù)作為后端聲學(xué)模型的訓(xùn)練數(shù)據(jù),則對(duì)于測(cè)試集,需要先通過(guò)前端算法進(jìn)行增強(qiáng)處理,然后在此基礎(chǔ)上通過(guò)后端模型識(shí)別;此外前端算法跟麥克風(fēng)陣列的適配也是非常重要的。當(dāng)前主流的聲學(xué)模型包括了BLSTM和深層的CNN;對(duì)不同的聲學(xué)模型進(jìn)行融合也有助于提高識(shí)別率,比如將BLSTM和深層CNN的輸出層進(jìn)行融合。對(duì)于語(yǔ)言模型LSTM優(yōu)于RNN,RNN優(yōu)于n-gram,對(duì)于工業(yè)領(lǐng)域的上線產(chǎn)品更多的是實(shí)用n-gram模型。
當(dāng)前這一領(lǐng)域仍然面臨的挑戰(zhàn)和需要解決的痛點(diǎn)包括:
1、多說(shuō)話人分離的雞尾酒問(wèn)題,如何改進(jìn)盲分離算法突破雞尾酒問(wèn)題;
2、說(shuō)話人移動(dòng)時(shí),如何保證遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別性能;
3、面對(duì)不同的麥克風(fēng)陣列結(jié)構(gòu),如何提高語(yǔ)音前端算法的泛化性能;
4、面對(duì)更加復(fù)雜的非平穩(wěn)噪聲和強(qiáng)混響如何保證算法魯棒性;
5、針對(duì)更隨意的口語(yǔ),尤其是窄帶語(yǔ)音,如何提高語(yǔ)音識(shí)別的性能;
6、遠(yuǎn)場(chǎng)語(yǔ)音數(shù)據(jù)庫(kù)不容易采集,如何通過(guò)聲場(chǎng)環(huán)境模擬方法擴(kuò)充數(shù)據(jù)庫(kù)。
上述問(wèn)題的解決將有助于提高遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別算法的性能。
(本文由極限元智能科技語(yǔ)音算法專(zhuān)家、中科院-極限元“智能交互聯(lián)合實(shí)驗(yàn)室”核心技術(shù)人員、中科院自動(dòng)化所博士劉斌整理分享)
推薦閱讀: