關(guān)于集特

新聞中心

您現(xiàn)在的位置：首頁 > 關(guān)于集特 > 新聞中心 > 龍芯、海光、飛騰、兆芯同桌對(duì)比性能力求公平

龍芯、海光、飛騰、兆芯同桌對(duì)比性能力求公平

發(fā)布時(shí)間：2023-05-08 點(diǎn)擊次數(shù)：342次

老夫桌上有酒，不喜獨(dú)酌，聞數(shù)家國(guó)產(chǎn)CPU有擅桌面者，故許利淘寶陸續(xù)擒得之，長(zhǎng)隨老夫左右伴飲。已得龍芯、海光、飛騰、兆芯四姓圍坐，皆為桌面CPU才俊，老夫甚慰。

此日海光新至，為其接風(fēng)飲宴。席間其樂融融，眾CPU互報(bào)姓名，曰：海光C86-3250、龍芯3A5000、飛騰D2000、兆芯KX-U6780A。其間海光3250言其太上蠻橫，只許子弟行走于服務(wù)器和工作站之間，圍坐桌面乃是越矩，此番被禁于此方知桌面之妙，愿以文會(huì)友，以人鑒己。老夫雖知其本意，卻亦有意相試各CPU才情，便允其以文會(huì)友之請(qǐng)。

然唯有龍芯3A5000躍躍欲試，飛騰D2000及兆芯KX-U6780A皆面色有異。老夫頗為不解，此二子平日豪言已至國(guó)際先進(jìn)水平，此時(shí)緣何畏懼？為探知真相，余喚來四位海外桌面CPU王侯，與國(guó)產(chǎn)四俊以同題相校，印證各CPU水平究竟。

再觀各CPU顏色，龍芯3A5000對(duì)海外王侯竟顯“彼可取而代也”之豪情。海光3250面色淡然，似無爭(zhēng)強(qiáng)之意。飛騰D2000和兆芯KX-U6780A兩股戰(zhàn)戰(zhàn)，幾欲先走。老夫見此情景更生疑惑，先令家仆閉門，再令所有CPU報(bào)上各自參數(shù)。往酒缸中投入幾枚青梅后，便擬定以SPEC CPU2006&2017、Stream、UnixBench試之，數(shù)日后定要見個(gè)分曉。

上表8款CPU中，紙面參數(shù)最弱者是龍芯3A5000，僅為4核2.5GHz。次弱者是Intel i5-6500，亦為4核，但最高頻率較龍芯3A5000多出44%，余者6核、8核、10核皆有。海光、兆芯、飛騰皆為8核，主頻也相近，余更不解兆芯和飛騰何以畏縮。

在四款國(guó)產(chǎn)CPU中，只有海光支持超線程，它的核心是購自AMD的初代Zen，但3250的主頻僅有2.8GHz，比AMD相同核心的產(chǎn)品低了很多。所有的國(guó)產(chǎn)CPU主頻都不高，大約都只有Intel和AMD同類產(chǎn)品的一半左右，也就是說即使國(guó)產(chǎn)CPU每GHz的性能與Intel和AMD相差無幾，單核性能也只有它們的一半左右。

嚴(yán)格地說，四款國(guó)產(chǎn)CPU都不支持睿頻，海光雖言說有睿頻，但無法開啟。龍芯和飛騰都是固定頻率，海光和兆芯支持在低負(fù)載時(shí)自動(dòng)降頻。但海光和兆芯的TDP決定了，就算降了頻功耗也低不到哪兒去，可以用于桌面和工作站，做筆記本CPU就有些不合時(shí)宜。

兆芯和飛騰也與海光一樣也走的是先引進(jìn)再自主的路線，不過這么多年過去，它們的CPU核心有多少自主設(shè)計(jì)的成分尚不可知。特別是兆芯CPU VendorID仍是初始設(shè)計(jì)者CentaurHauls，就更顯疑竇叢生。

四款國(guó)產(chǎn)CPU中唯一從零開始自主設(shè)計(jì)CPU核心的只有龍芯3A5000，可它非但主頻比海光3250和兆芯KX-U6780A低，且核心數(shù)量也只有另外幾款國(guó)產(chǎn)CPU的一半，令它同臺(tái)競(jìng)技似乎有些不近人情，但它已然摩拳擦掌，那還是不要按捺的好。若把各款CPU的單核測(cè)試成績(jī)都折算成1.0GHz的得分，倒是可以稱量稱量龍芯3A5000的核心設(shè)計(jì)水平與其它CPU相差幾許。

SPEC CPU 2006&2017 測(cè)試說明

SPEC CPU 2006和2017都是業(yè)界公認(rèn)的專業(yè)的CPU通用性能評(píng)估工具，兩者是在不同年代發(fā)布的不同版本。它們測(cè)試的是CPU整數(shù)和浮點(diǎn)通用處理性能，重點(diǎn)在“通用”這兩個(gè)字。整數(shù)通用性能代表了常規(guī)桌面和服務(wù)器軟件在CPU上運(yùn)行時(shí)的性能表現(xiàn)，浮點(diǎn)通用性能則側(cè)重于科學(xué)計(jì)算、人工智能等專業(yè)任務(wù)的性能表現(xiàn)。各家CPU廠商在發(fā)布新產(chǎn)品時(shí)，通常都會(huì)發(fā)布SPEC CPU的整數(shù)通用性能評(píng)估結(jié)果，一般都包含了單任務(wù)和多任務(wù)兩種模式的測(cè)試成績(jī)。

int_speed：?jiǎn)稳蝿?wù)整數(shù)通用性能，編譯器不開啟自動(dòng)并行化時(shí)表示單核性能。

fp_speed：?jiǎn)稳蝿?wù)浮點(diǎn)通用性能，編譯器不開啟自動(dòng)并行化時(shí)表示單核性能。

int_rate：多任務(wù)整數(shù)通用性能，任務(wù)數(shù)≥核心數(shù)量時(shí)代表全CPU性能。

fp_rate：多任務(wù)浮點(diǎn)通用性能，任務(wù)數(shù)≥核心數(shù)量時(shí)代表全CPU性能。

SPEC CPU是包含了數(shù)十個(gè)性能評(píng)估項(xiàng)目的測(cè)試套件，涵蓋了眾多領(lǐng)域和場(chǎng)景的應(yīng)用算法，測(cè)試內(nèi)容以C、C++、Fortran源代碼的形式提供。程序中沒有嵌入針對(duì)特定架構(gòu)優(yōu)化的匯編代碼，以保證它在跨架構(gòu)測(cè)試時(shí)的公平性。測(cè)試者需要自行配置編譯器和編譯參數(shù)，由SPEC CPU的測(cè)試程序根據(jù)配置自動(dòng)編譯并運(yùn)行測(cè)試項(xiàng)目。編譯優(yōu)化參數(shù)可以配置為base和peak兩種模式，區(qū)別是peak模式允許對(duì)每一個(gè)測(cè)試項(xiàng)目單獨(dú)配置優(yōu)化參數(shù)，并且支持二次編譯優(yōu)化。因此操作系統(tǒng)、編譯器類型、編譯優(yōu)化參數(shù)對(duì)測(cè)試成績(jī)有很大影響。有的測(cè)試者還會(huì)使用第三方優(yōu)化組件、開啟單任務(wù)自動(dòng)并行化、32位和64位混合編譯等手段來提高測(cè)試成績(jī)。內(nèi)存性能也對(duì)測(cè)試成績(jī)有影響，但主要影響多任務(wù)并行時(shí)的成績(jī)，對(duì)單任務(wù)的測(cè)試成績(jī)影響較為有限，硬盤、顯卡等其它設(shè)備對(duì)測(cè)試結(jié)果的影響可以忽略不計(jì)。

“單任務(wù)并行化”是把單線程程序中的部分循環(huán)代碼拆分到多個(gè)核心上并行運(yùn)行的技術(shù)。在一段循環(huán)代碼中，如果改變每次循環(huán)的順序不會(huì)影響運(yùn)行結(jié)果，那么這個(gè)循環(huán)就可以并行化。如果在編譯時(shí)允許了“自動(dòng)并行化”，那么單任務(wù)的測(cè)試成績(jī)就不能代表單核性能。SPEC CPU2006版的“自動(dòng)并行化”依賴編譯器分析代碼的能力，2017版在是測(cè)試集源碼中添加了對(duì)OpenMP的支持，也就是由源碼的編寫者手工指定哪些循環(huán)代碼可以并行執(zhí)行。在引入OpenMP之后，就弱化了編譯器自動(dòng)并行化的作用，使性能評(píng)估更加規(guī)范。因此在SPEC CPU2017的測(cè)試中，對(duì)單任務(wù)必須明確標(biāo)注使用了多少個(gè)線程。

SPEC CPU的測(cè)試集中可以并行化的代碼不多，CPU核心越多開啟并行化后的收益就越高。但大多數(shù)普通軟件的源碼中可以被并行化的代碼比SPEC CPU更少，編譯器的自動(dòng)并行化又可能對(duì)軟件的其余部分造成負(fù)面影響，因此幾乎只被用來跑分。除了自動(dòng)并行化之外，把GCC換成ICC也能把總成績(jī)提升10%左右，再開啟ICC增強(qiáng)的“自動(dòng)向量化”還能再提升10%左右，然后再加上第三方優(yōu)化組件也能把總成績(jī)提升10%左右，最后再換成peak模式對(duì)每個(gè)測(cè)試項(xiàng)目單獨(dú)調(diào)優(yōu)，并且開啟二次編譯優(yōu)化，還能把成績(jī)?cè)偬岣?0%左右……然而上述所有的提分手段對(duì)普通應(yīng)用軟件的增益都遠(yuǎn)不如SPEC CPU跑分明顯，反而會(huì)引起兼容性和穩(wěn)定性降低的問題，因此凡是有大量用戶的知名軟件都會(huì)避免使用這些跑分專用的、近似于“作弊”的優(yōu)化技術(shù)。

此次測(cè)試都使用UOS系統(tǒng)，國(guó)產(chǎn)CPU使用UOS專業(yè)版，進(jìn)口CPU使用UOS家庭版。編譯器都使用系統(tǒng)中內(nèi)置的GCC、G++、GFortran 8.3版本，不使用任何的第三方優(yōu)化庫，也不開啟單任務(wù)自動(dòng)并行化，測(cè)試項(xiàng)目都統(tǒng)一編譯為64位，只測(cè)試base模式的成績(jī)。之所以不使用那些有助于提升測(cè)試成績(jī)的額外的優(yōu)化方法，是因?yàn)樾枰獫M足所有前置條件才能獲得的高分對(duì)軟件開發(fā)者沒有意義、對(duì)軟件用戶更沒有意義。有些CPU廠商用專門優(yōu)化得到的peak成績(jī)?nèi)?duì)標(biāo)同行正常測(cè)試的base成績(jī)，是極端不自信的自欺欺人的表現(xiàn)，只有不使用那些跑分專用技巧時(shí)得到的測(cè)試成績(jī)，才能代表用戶能體驗(yàn)到的CPU性能。

SPEC CPU 2006&2017 測(cè)試成績(jī)

為了使對(duì)比更加公平，老夫?qū)幾g優(yōu)化參數(shù)也作出了限制，除了因?yàn)?/font>CPU指令集（架構(gòu)）不同而不得不修改的參數(shù)之外，其它的編譯優(yōu)化參數(shù)都完全一致。免得它們到時(shí)候說別人成績(jī)好是因?yàn)榫幾g參數(shù)優(yōu)化得好，自己成績(jī)差是老夫故意劣化，凡是以此種借口掩耳盜鈴者，一律打出門去。

為了得到AMD的兩款CPU較為準(zhǔn)確的每GHz的成績(jī)，就給它們加測(cè)了一次固定CPU頻率時(shí)的成績(jī)。一來為了驗(yàn)證海光購買的AMD Zen核心和比它更新一些的Zen+核心有多大差距，二來因?yàn)辇埿菊f下一代3A6000每GHz的成績(jī)和Zen3相當(dāng)，老夫提前收集一點(diǎn)兒數(shù)據(jù)，等3A6000發(fā)布后方便驗(yàn)證是否與宣傳相符，到時(shí)候該夸就夸該罵就罵。

通過對(duì)表中成績(jī)的解讀，可以得出以下結(jié)論：

CPU的頻率控制很影響性能發(fā)揮。

當(dāng)由主板和系統(tǒng)自動(dòng)控制CPU頻率時(shí)，CPU的頻率會(huì)根據(jù)負(fù)載和溫度不斷變化，不同的CPU、主板、操作系統(tǒng)和設(shè)置，都會(huì)影響控制頻率的策略。AMD的兩款CPU在單核高負(fù)載時(shí)，頻率被控制在默認(rèn)頻率附近，在多核高負(fù)載時(shí)才更接近最高睿頻。而Intel的CPU就正好相反，單核高負(fù)載時(shí)傾向于保持睿頻，多核高負(fù)載時(shí)反而降到了默認(rèn)頻率附近。導(dǎo)致10核20線程的i9-10850k在多任務(wù)測(cè)試中表現(xiàn)得不好，相對(duì)于R5-5600G來說成績(jī)沒有核心數(shù)量的差距那樣大。

在不鎖定CPU頻率時(shí)測(cè)試單任務(wù)，R5-2600平均頻率約為3.3GHz，R5-5600G平均頻率約為3.4GHz，i5-6500平均頻率約為3.5Ghz，i9-10850K平均頻率約為4.8GHz。

4款國(guó)產(chǎn)CPU在測(cè)試過程中都能保持在最高頻率，性能表現(xiàn)穩(wěn)定。

CPU頻率相近不等于單核性能相近。

例如兆芯KX-U6780A在SPEC CPU 2006和2017的測(cè)試中，單核整數(shù)成績(jī)分別是15.5和2.26，僅為海光3250的50%～60%，也只有龍芯3A5000的60%左右，而它們的主頻差距很小。這說明頻率不能單獨(dú)決定CPU單核性能，CPU的單核性能等于“頻率×IPC”。IPC是“每周期執(zhí)行的指令數(shù)”，在相同頻率下IPC越高的CPU，通過測(cè)試軟件得到的成績(jī)?cè)礁摺?/font>

當(dāng)內(nèi)存頻率不變時(shí)，IPC隨CPU頻率升高而降低，因此把單核成績(jī)折算到每GHz成績(jī)會(huì)有誤差。但是當(dāng)內(nèi)存帶寬不是瓶頸時(shí)，它對(duì)測(cè)試成績(jī)的影響就較低，所以把5GHz時(shí)的單核測(cè)試成績(jī)折算到1GHz時(shí)產(chǎn)生的誤差可以忽略不計(jì)。

IPC或每GHz成績(jī)主要代表了CPU核心的邏輯設(shè)計(jì)水平，CPU的主頻主要體現(xiàn)出物理設(shè)計(jì)和制程工藝的水平。例如Pentium4(641)用SPEC CPU 2006測(cè)得的每GHz單核整數(shù)成績(jī)僅2.37，IPC太低，它如果想達(dá)到i9-10850K（5.2Ghz）時(shí)的單核性能，就必須把主頻提到近30GHz。

CPU核心的邏輯設(shè)計(jì)、物理設(shè)計(jì)、以及制程工藝的水平提升必須并重，特別是在國(guó)產(chǎn)CPU的物理設(shè)計(jì)和制程工藝短時(shí)間難以突破的情況下，更有必要通過提高邏輯設(shè)計(jì)能力來提高IPC。

AMD說Zen+比Zen的IPC提升了3%，這里對(duì)海光3250和AMD R5-2600的測(cè)試沒有體現(xiàn)出來，主要原因是UOS專業(yè)版對(duì)x86多了一些額外的優(yōu)化，老夫也用家庭版在相同條件下測(cè)試過海光3250，SPEC CPU 2006單核整數(shù)成績(jī)沒過30分，符合Zen+比Zen的IPC提升了3%的說法。

在整數(shù)通用性能方面，龍芯3A5000核心邏輯設(shè)計(jì)水平和海光3250（AMD Zen）相當(dāng)。在Zen的IPC水平上，龍芯3A5000的主頻要比海光3250低0.3GHz，導(dǎo)致單核性能也要低一些。龍芯下一代3A6000的核心邏輯設(shè)計(jì)水平可能和AMD Zen3相當(dāng)，且整數(shù)和浮點(diǎn)IPC都與Zen3差不多。

對(duì)于不同的CPU，浮點(diǎn)性能與整數(shù)性能不一定是相同比例。

例如幾款x86指令集的CPU，只有兆芯KX-U6780A的浮點(diǎn)成績(jī)比整數(shù)成績(jī)低，與VIA歷史上的所有CPU都如出一轍。飛騰D2000的浮點(diǎn)成績(jī)比整數(shù)成績(jī)低，也體現(xiàn)了ARM的傳統(tǒng)風(fēng)格。

龍芯3A5000在SPEC CPU 2006測(cè)試中浮點(diǎn)成績(jī)與整數(shù)成績(jī)差不多，但SPEC CPU 2017的測(cè)試成績(jī)低于本人預(yù)期，懷疑是由于GFortran編譯器對(duì)LoongArch架構(gòu)優(yōu)化不足的緣故。

SPEC CPU 2006 和2017的測(cè)試成績(jī)沒有固定的換算比例

雖然SPEC CPU 2006和2017是同一款性能評(píng)估套件的兩個(gè)版本，有部分測(cè)試項(xiàng)目相似，但是它們?nèi)匀皇莾煞N不同的性能評(píng)估工具，所得到的成績(jī)不能相互換算。

比如飛騰D2000和KX-U6780A在使用SPEC CPU20017進(jìn)行測(cè)試時(shí)，表現(xiàn)得就比使用SPEC CPU2006的時(shí)候更好，每款CPU的兩種測(cè)試成績(jī)的比例都不相同。

本次測(cè)試沒有鯤鵬920，但這里有一份來自鵬城實(shí)驗(yàn)室的SPEC CPU 2017測(cè)試成績(jī)供參考，我們暫時(shí)只關(guān)注單任務(wù)的測(cè)試成績(jī)：

表中是用48核的鯤鵬920與64核的飛騰FT-2000+進(jìn)行對(duì)比，F(xiàn)T-2000+的核心和本次測(cè)試的D2000一樣，但主頻要低一些，因此單任務(wù)單線程的int_speed成績(jī)只有2.11，比D2000的2.28要低一些。不過FT-2000+有64個(gè)核心，所以單任務(wù)64線程的測(cè)試成績(jī)就要比D2000高一些。按公開資料中的說法，鯤鵬920的48核版本主頻是2.6GHz，但它單任務(wù)單線程的int_speed成績(jī)只有3.01，而2.5GHz的龍芯3A5000得分是3.51。但已知鯤鵬920在2.6GHz時(shí)用SPEC CPU 2006測(cè)試的int_speed成績(jī)和龍芯3A5000相近，這又是一個(gè)2006和2017的成績(jī)不存在固定比例的例子。

雖然兩個(gè)版本的SPEC CPU的測(cè)試成績(jī)不存在固定比例，但測(cè)試成績(jī)都與CPU性能強(qiáng)相關(guān)。使用同種沒有針對(duì)特定環(huán)境優(yōu)化的測(cè)試工具進(jìn)行橫向?qū)Ρ葧r(shí)，性能越高的CPU成績(jī)就一定會(huì)越好。

CPU多核性能不是對(duì)所有核心簡(jiǎn)單疊加。

無論是整數(shù)還是浮點(diǎn)測(cè)試，每個(gè)核心的平均效率總是會(huì)隨著并行任務(wù)數(shù)量的增加而降低。在CPU頻率不變的情況下，影響多任務(wù)效率的主要因素是內(nèi)存帶寬和多核心的互聯(lián)效率。CPU性能越高，內(nèi)存帶寬不足造成的負(fù)面影響就越大；CPU核心數(shù)量越多，核間互聯(lián)效率就越低。

盡管海光3250無論整數(shù)還是浮點(diǎn)性能都比R5-2600低，但它畢竟是8核16線程，全CPU的多核性能與6核12線程的R5-2600是差不多的?？赡馨押９?250看作降頻版本的AMD R7-1700更加恰當(dāng)，因?yàn)槎际?核16線程，都是Zen核心。

飛騰D2000和兆芯KX-U6780A有濫竽充數(shù)的嫌疑，它們也都是8個(gè)核心，測(cè)試成績(jī)所代表的多核性能卻還不到海光3250的一半，和4核的3A5000的多核成績(jī)非常接近。

特別是兆芯，KX-U6780A單核每GHz的成績(jī)和10年前引進(jìn)的VIA C4350AL相比大約只提升了10%。但是VIA C4350AL的內(nèi)存是DDR3 1333單通道，而KX-U6780A是DDR4 2666雙通道，老夫毫不懷疑4倍的內(nèi)存帶寬可以把IPC提高10%。

從ZX-A到ZX-E，歷經(jīng)了5代產(chǎn)品，兆芯都還沒有給CPU加上三級(jí)緩存。還有那個(gè)可笑的VendorID——CentaurHauls，在兆芯的桌面CPU上已經(jīng)掛了10年。連海光CPU的VendorID都改成了HygonGenuine，兆芯卻不忘本。不過有些令人擔(dān)心的是，海光也無法再向AMD購買更新更好的核心，兆芯的今日是否是海光的明日猶未可知。

飛騰D2000最優(yōu)秀的地方是功耗，它用25W的TDP達(dá)到了比兆芯70W的TDP略好的性能。飛騰D2000的功耗也要比龍芯3A5000的35W典型功耗更低，且多核性能比龍芯3A5000略高，畢竟是8核跟4核作比較，總不能一點(diǎn)優(yōu)勢(shì)都沒有。

盡管4核的龍芯3A5000多核性能只是與8核的兆芯和飛騰桌面CPU相當(dāng)，但在桌面應(yīng)用中，單核性能高就是優(yōu)點(diǎn)。桌面應(yīng)用中的流暢度，海光3250與龍芯3A5000大約和2代酷睿i5、i7臺(tái)式機(jī)差不多，兆芯KX-U6780A和飛騰D2000就只能和凌動(dòng)平板電腦相提并論了。龍芯在6000系列才終于放下了4核打8核的執(zhí)拗，3A6000是4核8線程，3B6000就是8核了（大小核設(shè)計(jì)）。3A6000預(yù)計(jì)單核及多核性能都超過i5-6500，與6、7代酷睿i7桌面CPU的性能相當(dāng)，3B6000的單核及多核性能大約都能超過AMD R5-2600吧。

{C}00001. {C}超線程在高負(fù)載時(shí)實(shí)際提升約為0%~20%，部分情況下造成負(fù)增長(zhǎng)。

在某些測(cè)試中，超線程可提高50%以上的效率，因此造成了超線程可以把1個(gè)物理核心當(dāng)成1.5個(gè)來用的印象。然而提高50%算是特例，實(shí)際上平均來看是不可能達(dá)到那么高的。

超線程的加速能力和程序的計(jì)算類型有關(guān)、和程序?qū)?nèi)存帶寬的需求有關(guān)、也和超線程的技術(shù)方案有關(guān)。使用涵蓋面較廣的SPEC CPU 2006&2017來測(cè)試，可以得出超線程對(duì)效率的平均提升幅度是0%~20%的結(jié)論。

從上面的圖表中可以看到在各項(xiàng)多任務(wù)測(cè)試中，海光3250的超線程加速比AMD R5-2600還高一些，老夫猜測(cè)是海光3250主頻更低的原因。雖然它們的內(nèi)存頻率也有差距，但實(shí)際的內(nèi)存訪問速度差距不大。

Intel i9-10850k的超線程加速比最低，并且在SPEC CPU 2006和2017的浮點(diǎn)多任務(wù)測(cè)試中都出現(xiàn)了負(fù)增長(zhǎng)，這能說明Intel的超線程技術(shù)最差嗎？這種笑話不能信，真正的原因應(yīng)該是Intel i9-10850k有20個(gè)線程，同時(shí)運(yùn)行20個(gè)任務(wù)，內(nèi)存帶寬成為了瓶頸。R5-5600G在SPEC CPU 2017的浮點(diǎn)多任務(wù)測(cè)試中也同樣出現(xiàn)了負(fù)增長(zhǎng)，也能證明雙通道DDR4-3200這時(shí)已經(jīng)達(dá)到了極限。

桌面CPU不管有多少個(gè)核心，一般都只共享兩個(gè)內(nèi)存通道，這也是桌面CPU不能替代服務(wù)器CPU的主要原因之一。

stream內(nèi)存訪問速度測(cè)試

前面提到多任務(wù)并行時(shí)，內(nèi)存性能會(huì)成為瓶頸，服務(wù)器CPU必須有更多的內(nèi)存通道。但內(nèi)存頻率和通道數(shù)并不等價(jià)于內(nèi)存訪問速度， CPU中還有一個(gè)重要的組成部分是內(nèi)存控制器，內(nèi)存控制器和內(nèi)存是“誰慢誰有理”的關(guān)系。比如DDR4-2666雙通道理論帶寬上限超過40GB每秒，但國(guó)產(chǎn)CPU中的內(nèi)存控制器目前都達(dá)不到理論帶寬的的內(nèi)存訪問速率。

Linux下測(cè)試內(nèi)存訪問速率通常是使用Stream測(cè)試軟件，它也是以源碼方式提供，根據(jù)編譯參數(shù)不同而得到支持單線程和多線程測(cè)試的兩種版本。通常使用GCC編譯器的“-O”和“-O2”作為基礎(chǔ)編譯參數(shù)，如果使用GCC的“-O3”參數(shù)，對(duì)x86架構(gòu)CPU的內(nèi)存復(fù)制性能會(huì)有加成。

內(nèi)存訪問速率除了受限于內(nèi)存控制器的實(shí)現(xiàn)以及CPU與內(nèi)存的時(shí)序匹配之外，還與應(yīng)用程序有密切關(guān)系。沒有任何正常的軟件會(huì)只讀寫內(nèi)存而不干點(diǎn)別的事情，像Stream這種內(nèi)存的帶寬測(cè)試軟件也是如此。Stream是在模擬普通應(yīng)用軟件訪問內(nèi)存的方式——在循環(huán)中讀寫數(shù)組，不像AIDA64那種執(zhí)著于帶寬極限，因此Stream測(cè)試得到的內(nèi)存訪問速率總是低于理論峰值。不過只要內(nèi)存控制器效率越高，Stream訪問內(nèi)存的速率也一定越高。

下面是用Stream對(duì)8款CPU訪問內(nèi)存速率的測(cè)試結(jié)果，分別測(cè)試了單通道-單線程、單通道-多線程、雙通道-單線程、雙通道-多線程。編譯參數(shù)使用了能代表大多數(shù)軟件的“-O”，對(duì)雙通道的情況又增加了對(duì)x86架構(gòu)有加成的“-O3”參數(shù)。這8款CPU都是桌面CPU，但因?yàn)橥盗械姆?wù)器CPU使用的內(nèi)存控制器一般也相同，只是增加了通道數(shù)量，所以通過下表中的測(cè)試結(jié)果也能估計(jì)它們對(duì)應(yīng)的服務(wù)器CPU訪問內(nèi)存的效率。

從實(shí)測(cè)數(shù)據(jù)來看，海光3250的內(nèi)存控制器效率和AMD R5-2600相似，是DDR4-3200和2666內(nèi)存的差距造成了它們測(cè)試成績(jī)的差距。內(nèi)存控制器效率與海光和AMD最接近的是龍芯，龍芯的內(nèi)存控制器和CPU核心一樣都是自主設(shè)計(jì)。因?yàn)楦咚降膬?nèi)存控制器和高性能的CPU核心一樣難以買到，所以兆芯和飛騰的內(nèi)存控制器的效率都比較低，同樣是DDR4-2666內(nèi)存，它們的訪問速率和海光的差距很大。

所有的stream測(cè)試項(xiàng)目，兆芯KX-U6780A和飛騰D2000的速率都比體海光3250和龍芯3A5000要低。如果只看在使用“-O”作為基礎(chǔ)編譯參數(shù)時(shí)的內(nèi)存復(fù)制效率，兆芯KX-U6780A和飛騰D2000在單通道和單線程時(shí)的內(nèi)存訪問性能甚至只有海光3250和龍芯3A5000的一半左右。兆芯KX-U6780A甚至在“雙通道-多線程”時(shí)的內(nèi)存訪問速度也只有海光3250和龍芯3A5000的一半左右。

下圖是在使用“-O3”參數(shù)之后，各CPU“雙通道-多線程”時(shí)4種測(cè)試項(xiàng)目的內(nèi)存訪問速度。當(dāng)使用“-O3”作為基礎(chǔ)編譯參數(shù)時(shí)，所有x86 CPU的內(nèi)存復(fù)制的性能都有大幅度提升，但另外三項(xiàng)測(cè)試的速度沒有明顯變化。

從海光3250、AMD R5-2600、AMD R5-5600G的測(cè)試情況來看，AMD Zen和Zen3核心各自配套的內(nèi)存控制器差距還是比較明顯的。龍芯自主設(shè)計(jì)的內(nèi)存控制器也只是比兆芯和飛騰的更好，但與AMD及Intel還有相當(dāng)大的差距。據(jù)介紹下一代龍芯6000系列已經(jīng)補(bǔ)上了DDR4內(nèi)存控制器的短板，達(dá)到了DDR4-3200內(nèi)存的理論帶寬，也就是說stream測(cè)試的內(nèi)存訪問速度應(yīng)該和上表中AMD R5-5600G及Intel i9-10850k的測(cè)試結(jié)果近似。

UnixBench測(cè)試成績(jī)

UnixBench不是CPU測(cè)試工具，它測(cè)試的是最小整機(jī)系統(tǒng)的綜合性能。最小整機(jī)系統(tǒng)就是由CPU、主板、硬盤、內(nèi)存、操作系統(tǒng)構(gòu)成的可以啟動(dòng)的完整系統(tǒng)，如果要測(cè)試UnixBench Graphics，那么還可以算上顯卡。我們此次不測(cè)試Graphics，因?yàn)镚PU是一個(gè)很大的變量。

UnixBench主要是測(cè)試一臺(tái)電腦處理日常事務(wù)的效率，包括文本處理、浮點(diǎn)函數(shù)、文件讀寫、進(jìn)程創(chuàng)建、管道通信、腳本執(zhí)行，這些都是應(yīng)用軟件和操作系統(tǒng)常用的功能。因?yàn)樗泄δ艿膱?zhí)行都與CPU有關(guān)，所以它的測(cè)試成績(jī)也與CPU性能有直接關(guān)系。但是操作系統(tǒng)如果對(duì)創(chuàng)建進(jìn)程、管道通信等等功能進(jìn)行優(yōu)化，也能提高測(cè)試成績(jī)，因此UnixBench是既測(cè)試CPU也測(cè)試操作系統(tǒng)，內(nèi)存和硬盤性能也占了一定的比重。總體上看,UnixBench的測(cè)試成績(jī)代表的是電腦執(zhí)行日常任務(wù)的流暢程度。

UnixBench的測(cè)試也分為單任務(wù)和多任務(wù)，不過單任務(wù)中有一項(xiàng)是多腳本并行測(cè)試，會(huì)分派到多個(gè)核心上同時(shí)運(yùn)行，因此UnixBench的單任務(wù)不是純粹的單核任務(wù)。UnixBench和SPEC CPU一樣也有“作弊”優(yōu)化的手段，但老夫偏不許它們使用。

Intel i9-10850K無論是單任務(wù)還是多任務(wù)的成績(jī)都一騎絕塵，緊隨其后的是AMD 5600G，再之后就是海光3250和AMD R5-2600了。龍芯3A5000的單任務(wù)成績(jī)和AMD R5-2600是同一檔次，比海光3250和Intel i5-6500還高一些，但多任務(wù)成績(jī)就只能和兆芯KX-U6780A、飛騰D2000、Intel i5-6500歸為同一檔了。不過龍芯3A5000和Intel i5-6500只有4個(gè)核心，兆芯KX-U6780A和飛騰D2000有8個(gè)核心，也不知道誰會(huì)更加尷尬。

其實(shí)兆芯KX-U6780A和飛騰D2000在UOS系統(tǒng)中的的測(cè)試成績(jī)相對(duì)一年前已經(jīng)提高了很多，因?yàn)樽罱荒闡OS系統(tǒng)做了大量?jī)?yōu)化，帶來的附加效果就是UnixBench的多任務(wù)測(cè)試成績(jī)都提高了1000分左右，龍芯3A5000的UnixBench多任務(wù)測(cè)試成績(jī)也提高了近500分。

為了驗(yàn)證成績(jī)提升確實(shí)來自于UOS系統(tǒng)優(yōu)化，我用Ubuntu 22測(cè)試了KX-U6780A的UnixBench成績(jī)，單任務(wù)僅有678.1分，多任務(wù)也僅有3156.1分，而在UOS系統(tǒng)中的測(cè)試成績(jī)分別是962.3和4764.7分，說明UOS系統(tǒng)的日常應(yīng)用流暢程度遠(yuǎn)高于Ubuntu。只不過這些優(yōu)化對(duì)SPEC CPU用處不大，各種純計(jì)算的任務(wù)主要還是依賴CPU本身的性能。

總結(jié)

目前國(guó)產(chǎn)CPU的性能與主流產(chǎn)品還有明顯的差距，因?yàn)镃PU頻率的差距，即使的海光和龍芯CPU的單核性能也只有主流中高端CPU的一半左右，兆芯和飛騰則幾乎沒有對(duì)比的價(jià)值。

在當(dāng)前，國(guó)產(chǎn)CPU中海光的性能最高，龍芯在與海光的核心數(shù)量相同時(shí)性能差距甚小，飛騰和兆芯的桌面產(chǎn)品只能用8核逼平龍芯4核，頗為無力。國(guó)產(chǎn)CPU中龍芯的成長(zhǎng)能力最強(qiáng)，單核性能達(dá)到或超過R5-2600和i5-6500 的產(chǎn)品今年底或明年初就能供貨，而IPC則能達(dá)到AMD Zen3和Intel酷睿12代的水準(zhǔn)。

X86架構(gòu)的軟件生態(tài)最完備，ARM和LoongArch在Linux上的軟件生態(tài)是半斤八兩，龍芯的二進(jìn)制翻譯暫時(shí)還不能完全彌補(bǔ)與x86的生態(tài)差距。

國(guó)產(chǎn)CPU的性價(jià)比很低，但既然已經(jīng)在討論性價(jià)比了，那就說明國(guó)產(chǎn)CPU的性能已經(jīng)可以用了，至少海光和龍芯是可以用了。

海光CPU是引進(jìn)技術(shù)的代表，既有性能又有生態(tài)，只是海光未來提升性能可能和兆芯飛騰一樣艱難；龍芯CPU是自主設(shè)計(jì)的代表，海光是龍芯即將跨過的最后一道門檻，今年過后龍芯CPU的性能在國(guó)產(chǎn)中必定一騎絕塵，軟件生態(tài)也更趨完善。龍芯將能全力追趕Intel和AMD——超越它們是龍芯的執(zhí)念。

本文圖表中8款CPU的所有測(cè)試數(shù)據(jù)，均為老夫?qū)崪y(cè)，若需查看SPEC CPU、UnixBench的原始測(cè)試報(bào)告，請(qǐng)移步下方截圖中所示地址。

分享到：

返回列表

亚洲熟妇无码爱V在线观看,日韩人妻一区二区三区免费,欧美激情一区二区,肉色丝袜足J视频国产

關(guān)于集特

新聞中心

SPEC CPU 2006&2017 測(cè)試說明

SPEC CPU 2006&2017 測(cè)試成績(jī)

stream內(nèi)存訪問速度測(cè)試

UnixBench測(cè)試成績(jī)

總結(jié)

關(guān)于我們

About Us

產(chǎn)品中心

Products

解決方案

Solutions

購買中心

Purchase

服務(wù)與支持

Service