MSCBSC 移動通信論壇
搜索
登錄注冊
網(wǎng)絡優(yōu)化工程師招聘專欄 4G/LTE通信工程師最新職位列表 通信實習生/應屆生招聘職位

  • 閱讀:3121
  • 回復:2
世界最快超級計算機天河2號實用記
cc公主
資深元老



 發(fā)短消息    關注Ta 

積分 30103
帖子 2577
威望 220826 個
禮品券 47 個
專家指數(shù) 3684
注冊 2008-6-4
專業(yè)方向  交換維護
回答問題數(shù) 0
回答被采納數(shù) 0
回答采納率 0%
 
發(fā)表于 2015-05-16 16:04:10  只看樓主 

作者:機械化神經(jīng)元

來源:我的中國網(wǎng)

與超算結緣

從前對超級計算機的感受多是科幻電影里的事物。記得一部老電影 “戰(zhàn)爭游戲”,講述一部超級電腦啟動了戰(zhàn)爭的故事。那時覺得超級計算機是頂頂神秘的高科技龐然大物,距離自己很遙遠。第一次感受到并行計算的威力是多年前參與的一個計算語言學研究項目。需要從龐大的語料庫里對某些特定的英語單詞做統(tǒng)計并建立統(tǒng)計模型。程序麻溜的編好了,可是發(fā)現(xiàn)僅僅處理“a” 起頭的單詞我的電腦就已經(jīng)是死慢了。咋整?想轍,將程序上傳到公司網(wǎng)絡,將26個字母開頭的單詞分布到不同的服務器上跑。處理速度大大加快,最終搞定。

后來在學校開始做移動通信仿真時發(fā)現(xiàn),一個只有幾個小區(qū)的網(wǎng)絡,單機運行就已經(jīng)很吃力了。難怪那么多IEEE論文,仿真的基站都不多呢。于是參加了學校超算中心的培訓,嘗試用學校的超級計算機工作。一試哥就給跪了,原來跑一天一夜都不見得跑完的仿真不到兩個小時就算完了。至此,咱就陷進去了。不過,看來陷進去的不少,僧多粥少。有一些。。。我是說。。。某些有錢銀仗著往超算中心捐過設備,他們有優(yōu)先級哦!俺們窮人的計算任務就只能往后排!看來超級計算機上基尼系數(shù)也在拉大嘛。一次又一次的查看自己任務隊列,優(yōu)先級0.1208,第120位,半天不動窩,艾瑪,沒脾氣。動過一回歪腦筋,插隊了,爽了幾個月被發(fā)現(xiàn)了。超算中心發(fā)了封電郵還給抄送老板,咱就裝傻,畢竟是第一次算給糊弄過去了。咋辦?去別處學么學么吧。亞馬遜云計算服務,看看那價目表,手一摸口袋里的錢包,心頭驟然一疼,趕緊把網(wǎng)頁關了。曾以學校研究項目的名義蹭過18摸的一個數(shù)學優(yōu)化軟件,網(wǎng)頁上說可以順便提供超算資源。去信詢問,被告知只能用他們的軟件。商業(yè)機構缺人品,哼!偶然在網(wǎng)上看到一采訪廣州超算中心的新聞。文中提到天河2可以接受個人用戶帳號申請。。坑羞@好事?米帝國家級實驗室的超算外人想都別想好嗎。立馬要了張申請表試試運氣再說吧。申請表問了研究項目內(nèi)容,計算任務量,研究經(jīng)費多少,哥恬不知恥的寫上倆字兒“沒錢”。沒多久,收到一萬運算核免費帳號開通通知。艾瑪,這得多少人品才能刷出的驚喜!喜刷刷,喜刷刷。。。

登錄天河2

[attach]319964[/attach]
言歸正傳,收到通知后開始忙活。天河2這大塊頭落戶廣州中山大學,有16000個計算結點,學校的超算好像就6000多個。天河2的管理更加嚴格,只許登入不許登出,這給使用造成一些麻煩。出于安全考慮可以理解。前兩年學校的超算被無人品黑客入侵了一回。結果我們所有的帳戶都被重新恢復一遍,好麻煩。這里提一句,天河2的帳戶創(chuàng)建過程是有安全漏洞的,細節(jié)不多說。

照著手冊下載安裝好VPN軟件(吐槽一下,居然只支持windows),登錄天河2的虛擬專網(wǎng)網(wǎng)頁后看到這個。

在輸入用戶名和口令后就算接入虛擬網(wǎng),接下來可以用萬能的 ssh 登錄天河2結點。天河2共有LN0-5,6個登錄結點。使用的是國防科大在Redhat上修改的麒麟操作系統(tǒng)。下圖便是天河2硬件系統(tǒng)部署圖。

[attach]319965[/attach]
登錄后先是好奇看看還有啥其他用戶在上面。毫無懸念的看到中國商飛,這個之前就有過報道。相信流體力學方面的仿真計算量應該還是比較大的。還有不少大學都在上面有帳號,包括很多醫(yī)學院。藥物,遺傳學方面的研究應該可以借力超算。天河2使用協(xié)議里要求用戶自行解決軟件,他們負責安裝維護。超算上默認也安裝了通用的科學計算軟件,和并行計算軟件庫。時不時的會收到廣州超算中心(NSCC-GZ)發(fā)來的培訓電郵,包括流體力學,結構力學分析軟件的應用培訓。除此之外,MPI自然是必不可少的。事實上,天河2的使用手冊特別聲明,研發(fā)團隊對MPI做了大量的優(yōu)化工作,推薦使用Intel 編譯器 + 優(yōu)化MPI的組合。最近米帝宣稱土鱉用天河2做模擬核爆,因此要禁運英特爾處理器。我多少覺得有點扯,核武器研發(fā)應該是密級很高的項目。雖然你可以想辦法在天河2上單開一個工作區(qū),可是畢竟是在同一臺超算上,時間長了難保不泄密。土鱉黨有點啥玩意都喜歡藏著掖著,保密很變態(tài)的。這樣的項目怎么說也得是專用機器并且網(wǎng)絡同外界物理隔絕才說的過去。

天河2使用與對比

當初剛拿到帳號時,有人建議咱拿去挖比特幣礦,呵呵。真用起來還是碰到一些麻煩的。廣州超算中心的VPN客戶端僅支持windows,這就惹出不少麻煩。只能利用網(wǎng)上的一臺windows服務器做橋梁先聯(lián)上NSCC-GZ,然后再建立反向ssh 隧道登錄天河2。登錄后,因為天河2不允許外聯(lián),就只能將用戶目錄再通過 ssh 映射到本地目錄。這樣才解決了版本控制軟件不能從家里的文件服務器拉送源碼文件的問題。天河2的軟件架構如圖2是個很典型的高性能計算的層次結構。另一個鬧心的事就是MPI庫的使用。雖然NSCC-GZ號稱他們也支持OpenMPI + GCC 的組合,可用起來問題重重。咱對計算速度也沒那么高的要求,本來圖省事用了最新版的GCC,因為它支持C++11,而我用了C++11的隨機函數(shù)庫。程序一啟動就碰到鏈接庫的問題。白浪費了不少時間,最后只能換掉C++11的隨機函數(shù)庫老老實實的用他們推薦的 Intel+MPI。不過最終搞定后還是蠻高興噠!同樣的程序,同樣使用 Intel 14編譯器,58個進程,同樣跑60個點的仿真,天河2上用了8.03秒;在學校超算中心,不算排隊等待時間,用了22.36秒。如果按計劃將來跑300個進程,6000個點,差別就出來了,吼吼。

[attach]319967[/attach]
對比學校超算,天河2當然是強大很多。只是用戶服務界面,軟件配置易用性方面有進一步提高的空間。也許是學校的超算用的人多,用戶計算服務接口方面做的更好些。天河2沒有發(fā)布用戶使用統(tǒng)計數(shù)據(jù)。下圖是學校超算今年二月的一些很有意思的統(tǒng)計,可以一窺超算的應用現(xiàn)狀。

[attach]319966[/attach]
從圖中可以看出占90%以上的任務都是單機任務,也就是說用戶不過是隨機的選擇一個計算節(jié)點當PC用。這并沒發(fā)揮超算的優(yōu)勢。不得不承認,超算的編程門檻還是相對高一些。在機時使用上倒是反了過來,數(shù)量較少的并行任務占了大量的實際使用時間。不過就算是并行任務,真正的多節(jié)點并行計算也僅占了不到33%。究其原因,我覺得這跟MPI的編程難度有關。MPI是個獲獎的設計,但其MapReduce類的編程模式著實讓新手不太適應且極易出錯。

超算與云計算和大數(shù)據(jù)

云計算大數(shù)據(jù)當下炒得正熱,不過很多也就是套個名詞來炒而已。弄個網(wǎng)絡硬盤就號稱云端,云計算了?尚Τ潭瓤杀却鱾耳機就叫可穿戴式設備。云計算最早是因為碼工們喜歡在白板上畫些“棉花團”來表征未知的網(wǎng)絡拓撲結構。后來有好事者以此發(fā)明云計算這個新名詞套在早前的網(wǎng)絡計算的概念上,來個借殼上市。如果云計算不過就是通過網(wǎng)絡聯(lián)系一個單一的計算或者儲存資源的話充其量這就是一個有負載均衡功能的客戶機服務器體制,了無新玩意。個人認為云計算怎么也得讓這片云,或至少部分云同時,分布式的為你計算才可稱為云計算。超算無疑在這方面的潛力是巨大的。剛才的統(tǒng)計表明真正做并行分布式計算的用戶很少,這同軟件的發(fā)展跟不上硬件的步伐有關。處于壟斷地位的MPI的編程模式沿用了UNIX fork的形式,MapReduce也是更加適合科學計算中的矩陣運算。很并行但不夠動態(tài),易用性差。近些年,業(yè)界有新的更易用的中間件技術出來,比如AMQP,ZMQ,DDS。我做了一個軟件包把MPI和ZMQ整合在一起,對上層軟件來說是透明的。在天河2上跑得很順暢,若非天河2不讓外連,理論上我可以將天河2和學校的超算通過我的軟件包方便的連成一片云。

大數(shù)據(jù)在互聯(lián)網(wǎng)普及前其實就一直在華爾街得以應用。當然,那時數(shù)據(jù)維度不像現(xiàn)在這么大。但本質上方法是相同的。剛看到新聞,北師大天文學家用天河2完成3萬億粒子數(shù)的宇宙中微子和暗物質數(shù)值模擬。這樣的計算量假如沒有超算的助力的根本就是不可能任務。超算之于大數(shù)據(jù)好似挖掘數(shù)據(jù)礦藏的強力采礦機。在數(shù)據(jù)量爆炸的網(wǎng)絡時代,超算一定可以開啟一扇通往數(shù)據(jù)金礦的大門!
掃碼關注5G通信官方公眾號,免費領取以下5G精品資料
  • 1、回復“YD5GAI”免費領取《中國移動:5G網(wǎng)絡AI應用典型場景技術解決方案白皮書
  • 2、回復“5G6G”免費領取《5G_6G毫米波測試技術白皮書-2022_03-21
  • 3、回復“YD6G”免費領取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復“LTBPS”免費領取《《中國聯(lián)通5G終端白皮書》
  • 5、回復“ZGDX”免費領取《中國電信5G NTN技術白皮書
  • 6、回復“TXSB”免費領取《通信設備安裝工程施工工藝圖解
  • 7、回復“YDSL”免費領取《中國移動算力并網(wǎng)白皮書
  • 8、回復“5GX3”免費領取《 R16 23501-g60 5G的系統(tǒng)架構1
  • 對本帖內(nèi)容的看法? 我要點評

     
    [充值威望,立即自動到帳] [VIP貴賓權限+威望套餐] 另有大量優(yōu)惠贈送活動,請光臨充值中心
    充值擁有大量的威望和最高的下載權限,下載站內(nèi)資料無憂
    龍卷風
    鉆石會員
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    積分 10956
    帖子 257
    威望 40853 個
    禮品券 8 個
    專家指數(shù) 18
    注冊 2006-11-25
    專業(yè)方向  網(wǎng)優(yōu)
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2015-05-17 00:36:04 
    超算還沒有發(fā)揮其作用啊。浪費了啊。推廣應用吧.

    對本帖內(nèi)容的看法? 我要點評

     
    [立即成為VIP會員,百萬通信專業(yè)資料立即下載,支付寶、微信付款,簡單、快速!]
    niehui
    高級會員
    鎵嬫満鍙風爜宸查獙璇? style=


     發(fā)短消息    關注Ta 

    紀念勛章·六周年   紀念勛章·九周年  
    積分 1243
    帖子 235
    威望 26412 個
    禮品券 42 個
    專家指數(shù) 68
    注冊 2009-9-24
    專業(yè)方向  核心網(wǎng)數(shù)據(jù)業(yè)務
    回答問題數(shù) 0
    回答被采納數(shù) 0
    回答采納率 0%
     
    發(fā)表于 2015-05-17 15:33:21 
    國安要請你喝咖啡哦

    對本帖內(nèi)容的看法? 我要點評

     
    最新通信職位:廣東通信人才網(wǎng) | 北京通信人才網(wǎng) | 上海通信人才網(wǎng) | 南京通信人才網(wǎng) | 西安通信人才網(wǎng) | 重慶通信人才網(wǎng) | 中國通信人才網(wǎng)

    快速回復主題    
    標題
    內(nèi)容
     上傳資料請點左側【添加附件】

    當前時區(qū) GMT+8, 現(xiàn)在時間是 2025-01-17 04:04:32
    渝ICP備11001752號  Copyright @ 2006-2016 mscbsc.com  本站統(tǒng)一服務郵箱:mscbsc@163.com

    Processed in 0.346454 second(s), 19 queries , Gzip enabled
    TOP
    清除 Cookies - 聯(lián)系我們 - 移動通信網(wǎng) - 移動通信論壇 - 通信招聘網(wǎng) - Archiver