對(duì)于高速的DSP密集型系統(tǒng)設(shè)計(jì),降低功率變得越來(lái)越重要。例如,在通信系統(tǒng)中,通信必須以周期猝發(fā)方式來(lái)實(shí)施,以避免放大器和系統(tǒng)其余部分電路持續(xù)消耗功率。在傳感器網(wǎng)絡(luò)中的要求是定期關(guān)斷工作的傳感器(比如用于交通圖像或天氣傳感器),或者定期打開(kāi)它們(例如在地震情況下),以及在設(shè)備回到睡眠模式之前以猝發(fā)方式上傳信息。在通常具有相對(duì)較低取樣頻率的醫(yī)療監(jiān)測(cè)設(shè)備中,需要通過(guò)實(shí)施周期性操作其低功耗特性的方式來(lái)最大限度減少功耗,相似的,手持便攜式解決方案也是如此。
對(duì)于著重降低功率的DSP密集型系統(tǒng)設(shè)計(jì),設(shè)計(jì)人員不僅僅是要提供最低的靜態(tài)功率,更重要的是需要專注于實(shí)現(xiàn)盡可能低的總體功耗,尤其是在高頻率和高溫條件下?,F(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)通過(guò)綜合的方法來(lái)實(shí)現(xiàn)功耗最小化,有助于達(dá)到這個(gè)目標(biāo)。這種方法包括加工工藝、架構(gòu)和邏輯配置設(shè)計(jì),以及包括SERDES、DDR2/3和DSP模塊的嵌入式特性,同時(shí)還加入了進(jìn)一步降低靜態(tài)功耗的特殊功率模式。
FPGA演進(jìn)
在過(guò)去二十年里,許多先進(jìn)的CPU和MCU構(gòu)建了各種節(jié)能模式,以應(yīng)對(duì)DSP密集型設(shè)計(jì)中較高頻率和集成度水平引起的功耗難題。僅有最先進(jìn)的FPGA器件提供了類似的低功耗能力,并且支持更高頻率器件。直至最近才出現(xiàn)可以解決早期基于SRAM解決方案的泄漏問(wèn)題,同時(shí)帶有低功耗模式實(shí)現(xiàn)額外節(jié)能能力的FPGA器件。
大體上,靜態(tài)功率、動(dòng)態(tài)功率,以及浪涌功率這三種功率成分左右了總體功耗,這與FPGA功率預(yù)算相關(guān)。必需有效地管理這三種成分以實(shí)現(xiàn)最低功耗。
管理這些功率成分需要固有低泄漏電流——這是FPGA器件支持DSP密集設(shè)計(jì)之功率需求的一個(gè)重要特性。與使用SRAM單元的FPGA器件相比,基于flash的FPGA解決方案具有優(yōu)勢(shì),這是因?yàn)榛趂lash的 FPGA使用單一(而不是六個(gè))晶體管來(lái)構(gòu)建,而且配置功率和浪涌功率(上電期間)均為零。SRAM FPGA上電處于未配置狀態(tài),必需完成初始上電復(fù)位順序。首先,各個(gè)配置位處于未知狀態(tài),并且必需在每個(gè)電源周期初始化。因此,產(chǎn)生了高至數(shù)安培或長(zhǎng)至數(shù)百微秒之尖峰的浪涌電流,這帶來(lái)了浪涌功率(請(qǐng)參見(jiàn)圖1)。
圖1:使用基于flash的FPGA器件,可以在器件啟動(dòng)和配置階段省去數(shù)百微瓦(mW)功率。為了避免大電流峰值,SRAM FPGA需要復(fù)雜的上電排序,因此增加了元器件成本和占位面積。
為了緩減這個(gè)尖峰電流,許多SRAM FPGA器件也都具有附加的復(fù)雜系統(tǒng)上電順序要求。而基于flash的非易失性 FPGA無(wú)需外部配置器件來(lái)進(jìn)行重新編程,在啟動(dòng)階段省去了數(shù)百微瓦(mW),并且省去了用于緩減尖峰電流的外部器件。在某些情況下,與基于SRAM的解決方案相比,基于flash的FPGA可以把每單元泄漏電流降低1000倍,并且具有超低靜態(tài)電流和無(wú)需外部緩減器件的優(yōu)勢(shì)。
基于flash的 FPGA器件除了固有較低功率之外,還可以利用附加的特性以進(jìn)一步減小功率。基于flash的 FPGA器件在單一芯片上結(jié)合了硬IP模塊和FPGA架構(gòu),并且這個(gè)FGPA集成了功能齊全的微控制器系統(tǒng)、增強(qiáng)的FPGA架構(gòu)和高速串行和存儲(chǔ)器接口。附加的功率敏感特性和其它特性包括:
增強(qiáng)的SERDES功能:最新FPGA的每個(gè)SERDES通道的每Gbps功率降低至13mW,與具有相似功能的其它FPGA解決方案相比,可以降低多達(dá)5倍(參見(jiàn)圖2)。
在較小的器件中集成許多不同的硬IP和其它資源:通過(guò)加入更多I/O、收發(fā)器、PCI Express端點(diǎn)和高性能存儲(chǔ)器子系統(tǒng),可以在更小、功率更低的器件中提供更多功能。
嵌入式RAM和數(shù)學(xué)模塊:基于flash 的 FPGA器件包括內(nèi)建的硬RAM模塊和數(shù)學(xué)模塊,用于密集型DSP應(yīng)用。而且,這些模塊在低功率下提供高性能水平。圖3所示為不同F(xiàn)PGA制造商之間的RAM功率比較。
固有低功率的嵌入式處理器子系統(tǒng):某些子系統(tǒng)提供多種低功率模式,包括睡眠模式和深度睡眠模式,使用低功率模式可以實(shí)現(xiàn)FPGA架構(gòu)和相關(guān)I/O的快速停止和啟動(dòng),同時(shí)保存FPGA架構(gòu)的狀態(tài),并且顯著降低功耗。器件大約花100ms來(lái)進(jìn)入睡眠模式,再花大約100ms退出這個(gè)模式。然而,F(xiàn)PGA退出睡眠模式的狀態(tài)可以保存,該器件從其退出的狀態(tài)繼續(xù)運(yùn)作。
使用附加的工具來(lái)最大限度地減小功率:通過(guò)使用各種工具來(lái)計(jì)算功率配置,以及使用智能floor-planning和功率優(yōu)化布局布線,用戶能夠進(jìn)一步優(yōu)化其設(shè)計(jì)以降低功耗。
[page]
DSP設(shè)計(jì)的挑戰(zhàn)
DSP密集型系統(tǒng)設(shè)計(jì)需要復(fù)雜的數(shù)學(xué)計(jì)算、高存儲(chǔ)器帶寬要求,以及具有動(dòng)態(tài)重新配置的高速串行傳輸,這些要求在高性能水平下消耗很大的功率。下一代FPGA器件必需能夠以盡可能低的功耗來(lái)應(yīng)對(duì)這些需求,并且不影響性能。DSP系統(tǒng)設(shè)計(jì)人員在設(shè)計(jì)中使用數(shù)個(gè)不同的構(gòu)件(乘法器、存儲(chǔ)器、收發(fā)器等),而不同系統(tǒng)架構(gòu)實(shí)施方案的功耗有著顯著的區(qū)別,這取決于使用的FPGA器件。
所有FPGA器件也都使用硬乘法器作為基礎(chǔ)計(jì)算單元,這個(gè)硬乘法器在總體系統(tǒng)功率預(yù)算方面舉足輕重。為此,美高森美研究了具有不同架構(gòu)的有限脈沖響應(yīng)(FIR)濾波器,并且根據(jù)乘法器數(shù)目對(duì)比運(yùn)作頻率,分析了各個(gè)器件的功耗。
FIR濾波器經(jīng)常用于在各種應(yīng)用中消除不必要噪聲,同時(shí)提升信號(hào)質(zhì)量,或者修理信號(hào)波幅的DSP模塊,有著數(shù)種FIR濾波器架構(gòu),包括轉(zhuǎn)置或收縮(有或沒(méi)有對(duì)稱性) 。這兩種架構(gòu)均具有與總體初始延遲、DSP模塊數(shù)目、吞吐量或性能,以及管線寄存器數(shù)目相關(guān)的特性,兩種架構(gòu)之間的區(qū)別如圖4所示,圖中顯示16-Tap FIR轉(zhuǎn)置和收縮的對(duì)稱型款。
現(xiàn)在來(lái)總結(jié)兩種架構(gòu)之間的區(qū)別:轉(zhuǎn)置架構(gòu)使用管線級(jí)并且減少輸入扇出以提高運(yùn)作頻率;同時(shí),N-Tap systolic FIR的初始延遲是(2*N -2)周期。比較之下,雖然轉(zhuǎn)置架構(gòu)的運(yùn)作頻率較低,但其初始延遲較好(N-1周期),而且使用較少的時(shí)序資源。這些架構(gòu)還要考慮其它的因素,最重要的是濾波器穩(wěn)定性,尤其是必需考慮大量抽頭(tap)數(shù)目和加權(quán)特性。例如,在需要回聲消除的語(yǔ)音處理應(yīng)用中,在存在大部分回聲的近端,權(quán)重必需較高,在回聲較少的后續(xù)濾波器抽頭上較低。
根據(jù)使用的架構(gòu)不同,F(xiàn)PGA的功耗可能顯著變化。在一項(xiàng)研究中,使用了功耗預(yù)算工具,并且使用FPGA開(kāi)發(fā)工具套件在32、64和128-Tap Transpose FIR實(shí)施方案中測(cè)量不同溫度下的實(shí)際硅器件;研究結(jié)果表明FPGA器件通過(guò)合適的設(shè)計(jì)和實(shí)施來(lái)提供了顯著的節(jié)能。此外,這些節(jié)能在較低的頻率和高溫下更加明顯。另一個(gè)重要發(fā)現(xiàn)是,對(duì)于最佳性能FPGA器件,功耗與抽頭的數(shù)目成線性關(guān)系。換句話說(shuō),如果抽頭的數(shù)目少,某些性能較差FPGA的功耗數(shù)值更差;對(duì)于其它器件,在抽頭數(shù)目高時(shí),它們的性能更差。這可能與架構(gòu)問(wèn)題有關(guān)。
結(jié)語(yǔ)
今天以DSP為中心的系統(tǒng)設(shè)計(jì),面臨不斷增加的減小功耗的壓力。今天基于flash的 FPGA技術(shù)不只是減少靜態(tài)功耗,而是減少總體功耗,正是實(shí)現(xiàn)下一代高速DSP密集型系統(tǒng)設(shè)計(jì)的重要因素,這些設(shè)計(jì)要求必需在不斷縮小的外形尺寸中提供高算法性能,并具有盡可能低的功耗。
相關(guān)閱讀:
功能安全要求:使用FPGA實(shí)現(xiàn)ADAS設(shè)計(jì)
基于FPGA的等效時(shí)間采樣原理的實(shí)現(xiàn)
博客精品:FPGA系統(tǒng)構(gòu)成及器件互聯(lián)