算力突圍:打造AI浪潮下的堅實底座
北京人工智能公共算力平臺點亮、京津冀最大綠色算力中心投產運營、京津冀算力廊道正在謀劃中、上海首個垂直領域AI千卡集群落地、全國首個算力交易平臺上線……在全國多地,算力中心布局落地的消息頻傳新進展。
所謂算力,就是對數據的處理能力。小到手機、個人電腦,大到服務器、超級計算機,算力正走進千家萬戶、服務千行百業,成為像水、電、燃氣一樣的公共基礎資源,提供“即取即用”的社會化服務。AI浪潮席卷而來,算力需求不斷加大,作為新時代技術“底座”的智能算力產業方興未艾。
智算中心加速崛起
在北京朝陽區酒仙橋核心地帶,北京數字經濟算力中心正在如火如荼建設中。該算力中心由北京電子控股有限責任公司旗下提供規模化先進智算算力、AI云及AI轉型服務的高科技企業——北京電子數智科技有限責任公司(以下簡稱“北電數智”)承建,預計2024年完成基礎設施建設,達產后實現多元異構的1000P智能算力供給。北京市經濟和信息化局局長姜廣智近日披露,初步統計,北京已形成1.2萬P的總算力供給規模,下一步將加速算力基礎設施建設,打造京津冀算力廊道,形成以智能算力為主、通用算力和超級算力多元協同的首都地區算力供給體系。
今年以來,ChatGPT的橫空出世掀起一波席卷全球的大模型浪潮,這種強勁的需求瞬間傳導至上游,支撐大模型訓練和推理的算力成為“兵家必爭之地”。作為智能時代的新型基礎設施,智能算力中心迎來飛速增長的機遇窗口。2023年10月,工信部等六部門聯合印發《算力基礎設施高質量發展行動計劃》,其中提出2025年建成50個智能計算中心等量化指標。而計算力方面,到2025年規模將超過300EFLOPS,智能算力占比達到35%。
中國工程院院士、清華大學計算機系教授鄭緯民說,從整體而言,我國算力基礎設施規模已位居世界前列,但人均算力尚低。在數字經濟時代,人工智能的進一步發展需要通過軟硬件密切協同,才能進一步加速算力提升和使用效率。在未來,新型數據中心將是提供多樣性計算綜合能力的算力集群,以滿足千行百業智能化的需求。
11月中旬,算力租賃概念股匯納科技宣布,由于算力需求大幅增加,其內嵌英偉達A100芯片的高性能服務器算力服務收費將上調100%。匯納科技的動向,只是我國算力市場環境的縮影。多家券商在10月發布的研報提出,隨著行業需求的攀升,算力租賃行業將進入新一輪漲價周期。
“我們觀察到,未來9到12個月算力需求還是會非常緊張。”百川智能技術聯合創始人陳煒鵬在今年3個多月前的一場行業論壇中說道。多家大模型企業均遇到了不同程度的算力缺口。算力緊缺,已成為影響我國大模型產業發展重要因素。
“大模型是新型基礎設施的關鍵底座之一,大模型的競爭也是國家科技戰略的競爭,中國一定要布局全棧自主創新的大模型產品,同時要構建國產化算力。”鄭緯民提醒。
鄭緯民表示,目前一些國外廠商在芯片生產上有著更多的話語權,國內則因起步較晚,自研的芯片在性能上仍稍顯不足。但性能上的差距可以在生態上得到彌補。所謂好的生態就是讓芯片用起來不費勁,建立這樣的生態,并讓市場接受,需要一個過程。國產生態只要解決好編程框架、并行加速、調度器、內存分配系統、容錯系統、存儲系統等問題,即使只有國外芯片60%的性能,國產芯片也會大受歡迎。
鄭緯民提出,除了人均算力水平尚低、算力關鍵技術等限制外,隨著數據爆發式增長與算力單點性能極限之間的矛盾日益突出,我國算力節點通過網絡靈活高效調配算力資源的能力仍存在不足,算網協同和全局調度能力有待提高,難以滿足數據對算力隨需處理的需求,將領先算力高效轉化為解決科學與工程難題的能力依然面臨挑戰。
他表示,智算中心的建設和布局是一個重要趨勢,但也伴隨著包括資源分配、合作與競爭等方面的挑戰,算力的統一調度是算力發展的路徑之一,其關鍵在于將分散的算力資源聚合,形成集群效應。
同時,鄭緯民對算力互聯互通也提出了兩點建議:一是屏蔽異構基礎設施,通過統一的資源管理與調度軟件實現算力的互通;二是提供更多的服務軟件,抓住算力應用的機遇,提升算力普惠價值。
為滿足客戶對算力的靈活、高效、充分使用的需求,北電數智在算力靈活調度層面發力,整合分散的先進計算能力、充分發揮計算效果。同時,北電數智也在布局兼顧國內外不同品牌訓練芯片及推理芯片等多種算力集群,通過調度算法,更合理地分配和調度計算資源,實現最優的計算性能和資源利用率。同時,其也在同步規劃能夠更高效地配置和使用計算能力的先進軟件,智能分析用戶提交的作業任務,根據任務特性進行自動化配置,確保每一個任務都能夠得到最適合的計算資源。
算力狂飆也須兼顧“雙碳”
鄭緯民特別提醒道,在建設智能算力中心的同時,也要兼顧算力能耗與國家“雙碳”目標的平衡。未來數據中心的發展須考慮不同地區能源結構的差異、同一地區不同行業的業務差異,提供更綠色的算力,并滿足實時應用的需求。
在新建智算中心的同時,傳統數據中心的智算改造與升級,成為綠色算力的重要組成部分。北電數智相關負責人介紹,北電數智通過軟硬件升級和能耗方案的優化,幫助傳統數據中心實現面向未來的整體智算升級與政策合規;同時,以攜手改造、共同運營的全方位投入產出支持,幫助傳統數據中心獲得可持續增長,以滿足人工智能產業對數據中的高算力、高效率、更環保的需求。
鄭緯民還提醒,算力、網絡具備很強的公共基礎設施特性,加快建立一個開放性的產業生態,把選擇權交給用戶,才能驅動行業百花齊放,從而真正促進大模型產業的健康發展。