大陸超級電腦怎樣追上了英特爾?



 編按:去年11月,大陸「天河2號」第六度蟬聯當今世界上運算速度最快的超級計算機(臺灣稱為超級電腦),而且在全球排名前500的超算系統當中,大陸即占了109席。大陸超算所以能有今日成就,實乃痛吃教訓後,下定決心臥薪嘗膽的結果。同樣的情形,亦發生在大陸其他許多關鍵技術的發展上,從而間接促成了大陸產業、經濟、國防和科技領域的一步步日益健全。我們從中可以如何理解國際關係,以及政府應變方式的影響?本刊特轉載大陸網路輿論界著名科技觀察者鐵流此文,以供參考。
 2015年4月,美國商務部決定對中國四家國家超級計算機中心禁售至強PHI計算卡(編按:即以Intel Xeon Phi驅動的電腦模組),當時各種唱衰中國超算的聲音不絕於耳。即便天河2號在2015年國際超級計算機大會上蟬聯五連冠,但因使用美國Intel公司的CPU而飽受一些別有用心之人的詬病,不少人聲稱沒有美國的CPU,天河2號要完蛋了。
 現實卻截然相反:
 在ISC 2015發布會上,國防科大公布天河2A的升級方案,將採用國防科大自主研發的矩陣2000(GPDSP)替代至強PHI計算卡。矩陣2000採用40nm製程,擁有16核,主頻1G,雙精浮點2.4TFlops,功耗為200W。
 新年伊始,從科技部公開的文章中透露出好消息:由上海高性能集成電路設計中心設計的國產眾核芯片已達到世界先進水平(美國情報部門對該芯片非常感興趣,因此筆者將其稱為國產眾核芯片)。該眾核芯片採用28nm製程,峰值雙精度浮點運算速度超過每秒3萬億次(3TFlops),完全追平了Intel第二代Xeon Phi(也是Intel最好的眾核芯片)。第二代至強PHI計算卡產品代號「Knights Landing」,採用了14nm工藝,雙精度浮點性能超過3TFlops,功耗250-300W。
 1月22日,新華社報導了一則更為振奮人心的消息:中國計畫今年在天津啟動新一代百億億次(百億億次是1000P,天河2號為55P,若不是記者筆誤,就真心是黑科技了)超級計算機的研製規劃。與此同時,國防科大正在設計新一代飛騰芯片。
由此可見,美國商務部禁售計算卡的行為根本沒有對中國超算發展起到多大制約作用。其實,在過去半個世紀的時間裡,歷史已經證明了毛澤東的那句話──「封鎖吧,封鎖十年八年,中國的問題就解決了!」

凡是能買到的 都難自己做
 雖然自80年代以來,中國的計算機大多沒有中國芯,即便是天河1號、天河2號這些曾經讓中國人揚眉吐氣的超級計算機也基本使用國外芯片,國產芯片僅用於高速互聯網絡。
但在毛澤東時代,中國擁有自己的半導體工業,掌握了從單晶製備、設備製造、集成電路製造的全過程技術,中國製造的計算機也都有中國芯。
 但在80年代奉行「造不如買、買不如租」、「市場換技術」後,中國集成電路產業遭到毀滅性的打擊──毛澤東時代積累下的家底被敗得精光,技術人才要麼流失到國外,要麼去大學教書,有的甚至被調去看守機房,毛澤東時代培養起來的技術人才流失殆盡。
 在這段時間裡,自主技術被無限貶低,而洋技術被過度美化,「外國專家」更是被奉為上帝,決策者對其缺乏最基本的警惕──很多非常有前途的科研項目在領導聽取「外國專家」的意見後被否決;不少科研項目更是在「外國專家」的「悉心指導」下被引上了歧路;對「外國專家」索要技術資料予取予求,大量寶貴的自主技術被「外國專家」竊取後搖身一變成為「洋技術」,釀成中國企業使用自己研發的技術卻依舊要給外商繳納專利費的窘境。
 而自主研發CPU也被進口CPU取代,比如1983年,浪潮開始採用進口Intel 8088芯片,而非國產芯片組裝0520微機,在80年代至90年代初研製的長城286、長城386、長城486、2780機、太極2220、銀河超級小型機、HN2730超級小型機等計算機均採用國外芯片。中國第四代計算機中的巨型機代表機型──「銀河1」巨型計算機──耗資一億元人民幣,但因大量購買國外硬件,未能對中國的半導體產業進步起到多大積極作用。
 在「造不如買、買不如租」理論的指導下,至80年代末,中國憑自己的技術已經很難生產出一台計算機了。到90年代初,以聯想為代表的中國計算機企業紛紛轉向「貿工技」路線 ,只從事低附加價值的微機組裝,無力也無心從事芯片研發,國內芯片市場徹底落入外資掌控。
凡是買不到的  都做出來了
 中蘇論戰後,美蘇同時對中國進行技術封鎖,迫使中國走上獨立自主、自力更生的發展道路。正如赫魯曉夫撤走了蘇聯援華專家後,逼著中國憑藉自己的能力搞出了「兩彈一星」。在美國和蘇聯共同技術封鎖下,哈軍工於1962年成功研發出晶體管(編按:臺灣譯為電晶體),使中國比美國晚8年進入晶體管時代,中國第一台全晶體管計算機441B-I於1964年誕生,相對於美國於第一台全晶體管計算機RCA501晚了六年。1965年,中國研製出第一塊集成電路,比美國晚了五年進入集成電路時代。1972年,中國研製出大規模集成電路,比美國晚四年實現了從中小集成電路發展到大規模集成電路的跨越。
 在中國喪失獨立自主研發製造計算機的能力後,美國政府嚴格限制對中國出口高性能計算機,除了採購價格高昂外,還要把計算機放在透明的玻璃房中,由美國人監控,鑰匙在美國人手中,每次使用都要向美國人請示,並說明具體用途,由美國人核准使用。
 痛定思痛後,中國重啟高性能計算機研發項目,1992年銀河2誕生。1993年,曙光1號誕生,曙光1號研製成功後三天,西方解除對中國高性能計算機出口限制。在堅定了自主發展超算的決心後,中國超算捷報頻傳──先後自主研發曙光1000、曙光2000、曙光3000、曙光4000、曙光5000、曙光6000、銀河3、銀河4、天河1號、天河2號、神威藍光等超算,並逐步形成了天河(國防科大)、神威、曙光(曙光公司)三大系列超算。
 與此同時,國產超算的軟件系統和硬件系統的國產化也在穩步推進──天河2號的硬件系統除了高速運算系統中採用了Intel的E5和至強PHI之外,高速互連通信網絡系統、存儲系統(I/O管理結點和I/O存儲結點)、維護監控系統、電源系統、冷卻系統和結構組裝設計等,基本實現國產化;在軟件系統方面,操作系統、編譯系統、並行程序開發環境、科學計算可視化系統大多實現國產化。而神威藍光超算則實現了除冷卻系統之外的軟件和硬件的全國產。
 更為重要的是,這些超算並非像某些人說的為爭奪世界第一的虛名建設,而是實實在在的用於彈道計算、核物理研究、氣候氣象、海洋環境、數值風洞、碰撞仿真、生命科學和石油物探等科研領域。另外,國產超算/高性能計算機還廣泛用於工業生產、氣象預報和影視娛樂。
 曙光公司的高性能計算機在中石油、中石化和中海油勘探計算機房內隨處可見,這些高性能計算機為工程師提供高精度的採油區地下構造和地質信息。
 「天河—酷卡」雲計算渲染平台,使動畫渲染的製作週期由原來的四至六個月縮短到一天,平均每天同時為八部動漫影視作品提供渲染。《阿凡達》動漫渲染製作耗時一年多完成,如果用「天河二號」,則僅需一個月時間。
 隨著霧霾現象越來越受人民關注,霧霾天氣預警預報已經成為「天河一號」的又一項任務。國家超算天津中心已經研發出霧霾自動化實時預警預報系統,正以河北保定作為試點,對未來五天霧霾天實時預報,未來三年內逐步建成全國性的霧霾預警預報系統。此外,天河超算還能回溯地球的氣候變遷,「天河一號」可以模擬2000年前的變化,「天河二號」則可以模擬到5000年前甚至更遠。
 中科曙光與大氣物理所等單位共同研發「地球數值模擬裝置」原型機系統,則填補了我國地球系統模式大數據實踐平台的空白。
 可以說,超級計算機為中國的國防、科研、工業、經濟等諸多方面做出了巨大貢獻!
 以史為鑒,技術封鎖其實是件好事,在信息技術領域,建國以來的這段歷史就可說明「凡是能買到的都很難做出來了,凡是買不到的都做出來了」。因為只要西方技術封鎖,國內買辦和國外勢力就不可能用「市場換技術」、「造不如買、買不如租」的方式來扼殺自主技術。
 那麼,中國的人力、物力、財力將全部投入到自主技術的研發中,輔以中國全世界最齊全的工業部門和扎實的工業基礎,加上中國龐大的市場和豐富的資源,就能做到「封鎖什麼,解決什麼」,所以從長期來看,技術封鎖是好事。

中美眾核芯片對比
 在幾年前,當Intel第一代至強PHI上市之時,國內根本就沒有類似的產品,而龍芯、申威和飛騰準備用於超算的多核芯片也遠遠無法與Intel匹敵:
 飛騰1500,16核,製程40nm,1.8G主頻,最大功耗65W,雙精浮點144G;
 申威1600,16核,製程65nm,1.1G主頻,最大功耗70W,雙精浮點140G;
 申威1610,16核,製程40nm,1.6G主頻,最大功耗50W,雙精浮點200G;
 龍芯3B1000,8核,製程65nm,1G主頻,最大功耗65W,雙精浮點128G;
 龍芯3B1500,8核,製程32nm,1.2G主頻,最大功耗40W,雙精浮點192G。
 即便是成績最好的申威1610,其理論雙精浮點峰值也只有200G,而Intel第一代至強PHI的理論雙精浮點峰值高達1T,是申威1610的五倍。正是因此,天河2號起初只能無奈的選擇Intel至強PHI作為其加速器。
 經過數年的臥薪嘗膽,國內IC設計單位的實力與日俱增,不僅能拿出至強PHI計算卡的替代產品,而且在性能上絲毫不落下風。國防科大自主研發的矩陣2000理論雙精浮點峰值達2.4T,功耗為200W,理論雙精浮點峰值達到第二代至強PHI的80%,性能功耗比略優於第二代至強PHI。
 如果說矩陣2000是GSDSP,而非眾核加速器,在性能上也稍遜第二代至強PHI一籌,那麼上海高性能集成電路設計中心設計的國產眾核芯片是對美國禁售至強PHI計算卡最有力的回擊,特別是在設計理念上,國產眾核加速器非常先進。
 因採用異構計算可以獲得更好的性能功耗比和峰值性能,目前中美正在建設的100P超算基本採用異構計算,也就是一個計算節點由CPU+加速器組成,比如天河2A號一個計算節點由2個E5(將來可能會替換成國防科大自主研發的64核服務器芯片「火星」)和3個矩陣2000組成。加速器可以是K80這樣的GPGPU,也可以是矩陣2000這樣的GPDSP,還可以是Intel至強PHI、國產眾核芯片這樣的眾核加速器。
 異構計算雖然有很多優點,但也會帶來很多缺點,比如通用性不夠好,效率不夠高,編程比較麻煩;另外,天河2號和美國超算Stampede中的Intel至強PHI計算卡和E5是不共享內存的,因而需要程序員顯式拷貝,進而造成性能損失。而國產眾核芯片通過設計理念的革新,很大程度減輕了上述方面的負面影響,在某些方面甚至徹底避免了性能損失。
 因此,筆者認為,國產眾核芯雖因採用28nm製程,使其在製程上遜色於第二代至強PHI的14nm。但憑藉設計理念的先進性,相對於Intel第二代至強PHI會有一定優勢。而雙精浮點運算峰值高達3T的性能指標,使其成為完全不遜於Intel第二代至強PHI的存在。
 在中國芯片製造水平不斷提升,並有望不斷縮短和美國芯片製造水平的情况下,如果Intel不能在超算芯片的設計理念上有革命性的改進,那麼被國產眾核芯片的下一代產品超越只是時間問題。

精選回顧.2016年10月號