MicroBlaze處理器是賽靈思(Xilinx)在嵌入式開(kāi)發(fā)套件 (EDK) 中提供的兩款32位內(nèi)核之一,是實(shí)現(xiàn)硬件加速的靈活工具。圖1是MicroBlaze的典型設(shè)計(jì)。該內(nèi)核含有一個(gè)32位乘法器,但不含浮點(diǎn)單元(FPU)、桶式移位器或?qū)S糜布铀倨。?duì)Xilinx公司Spartan FPGA 器件而言,默認(rèn)系統(tǒng)含有區(qū)域優(yōu)化的MicroBlaze(采用三級(jí)流水線(xiàn)),但大多數(shù)客戶(hù)通常在開(kāi)始時(shí)使用速度優(yōu)化版(采用五級(jí)流水線(xiàn))進(jìn)行性能評(píng)估,其優(yōu)點(diǎn)是小巧簡(jiǎn)潔,易于擴(kuò)展。
Xilinx客戶(hù)針對(duì)這種處理器設(shè)計(jì)所要求的兩個(gè)實(shí)際應(yīng)用案例可說(shuō)明MicroBlaze在硬件加速方面的作用。本文以 Spartan 器件為重點(diǎn),比較 FPGA 解決方案和標(biāo)準(zhǔn)控制器內(nèi)核,展現(xiàn)我們能夠達(dá)到的性?xún)r(jià)比。這一方法同樣適用于Virtex FPGA。
案例1:實(shí)施位反轉(zhuǎn)算法
在第一個(gè)應(yīng)用示例中,假定MicroBlaze處理器的運(yùn)行速度僅為50MHz。采用 Spartan-3或Spartan-6器件可輕松實(shí)現(xiàn)這一速度。諸如本地存儲(chǔ)器總線(xiàn)(指令和數(shù)據(jù),LMB)以及處理器本機(jī)總線(xiàn)(PLB)等所有內(nèi)部總線(xiàn)的運(yùn)行速度均達(dá)到50MHz。為簡(jiǎn)單起見(jiàn),假定沒(méi)有連接外部DDR存儲(chǔ)器。
現(xiàn)在假設(shè)客戶(hù)想要在這個(gè)CPU上實(shí)施位反轉(zhuǎn)算法。MicroBlaze自身沒(méi)有通過(guò)硬件直接提供這個(gè)功能。再假定每秒需要完成2萬(wàn)次位反轉(zhuǎn)操作。
要解決這個(gè)問(wèn)題,大多數(shù)客戶(hù)首先會(huì)采用純軟件方案,因?yàn)檫@樣可輕松地實(shí)現(xiàn)想要的功能。而且如果性能足夠高,無(wú)需進(jìn)行任何修改。
為此,讓我們先從簡(jiǎn)單的軟件算法出發(fā),實(shí)施簡(jiǎn)短精悍的解決方案。結(jié)果確實(shí)簡(jiǎn)單、精巧而且容易理解,不過(guò)效率很低。
unsigned int v=value;
unsigned int r = v;
int s = sizeof(v) * CHAR_BIT - 1;
for (v >>= 1; v; v >>= 1)
{
r <<= 1;
r |= v & 1;
s--;
}
r <<= s;
return r;
這段程序運(yùn)行相當(dāng)順利,不過(guò)就算在專(zhuān)門(mén)針對(duì)速度優(yōu)化的MicroBlaze(使用五級(jí)流水線(xiàn))上運(yùn)行處理一個(gè)32 位字的算法,也用了220個(gè)周期。要執(zhí)行2萬(wàn)次位反轉(zhuǎn)操作,在速度為50MHz的MicroBlaze上約需88ms。
客戶(hù)試圖采用略有不同的方法來(lái)優(yōu)化算法,但仍作為純軟件解決方案來(lái)實(shí)施。
要進(jìn)一步提升性能,就要采用純硬件解決方案,通過(guò)一種新的方式來(lái)讓硬件加速器充分發(fā)揮性能。
為了加速這種基礎(chǔ)操作,只需要在MicroBlaze快速單工鏈路(FSL)上連接一個(gè)非常簡(jiǎn)單的內(nèi)核。標(biāo)準(zhǔn)FSL實(shí)施方案使用FSL總線(xiàn)(包括同步或異步FIFO)將數(shù)據(jù)從 MicroBlaze內(nèi)核傳輸?shù)紽SL 硬件加速器IP核。帶FIFO 的FSL總線(xiàn)與FIFO可對(duì)上述兩者間的數(shù)據(jù)存取進(jìn)行去耦。
如果采用帶FIFO的標(biāo)準(zhǔn)FSL總線(xiàn),則一般情況下執(zhí)行時(shí)間為4個(gè)周期:一個(gè)周期用來(lái)將MicroBlaze上的數(shù)據(jù)通過(guò)FSL寫(xiě)入FIFO;一個(gè)周期用來(lái)將數(shù)據(jù)從FIFO 傳輸?shù)紽SL IP;一個(gè)周期用來(lái)把結(jié)果從FSL IP傳送回 FSL總線(xiàn)的FIFO中;最后一個(gè)周期則負(fù)責(zé)從FSL總線(xiàn)讀出結(jié)果并傳輸至 MicroBlaze。
MicroBlaze到FSL總線(xiàn)的連接以及FSL總線(xiàn)到FSL IP的連接可在EDK的圖形視圖中輕松創(chuàng)建。
這樣代碼要長(zhǎng)得多,效率也有大幅度提升,但時(shí)間還是太長(zhǎng)了,執(zhí)行2萬(wàn)次操作現(xiàn)在仍然大概需要52ms。
隨后客戶(hù)在互聯(lián)網(wǎng)上進(jìn)行了一些調(diào)查,找到一種更好的算法,把代碼改編為:
unsigned x = value;
unsigned r;
x = (((x & 0xaaaaaaaa) >> 1) | ((x
& 0x55555555) << 1));
x = (((x & 0xcccccccc) >> 2) | ((x
& 0x33333333) << 2));
x = (((x & 0xf0f0f0f0) >> 4) | ((x
& 0x0f0f0f0f) << 4));
x = (((x & 0xff00ff00) >> 8) | ((x
& 0x00ff00ff) << 8));
r = ((x >> 16) | (x << 16));
return r;