央廣網(wǎng)北京6月15日消息(記者 劉家怡)6月12日至13日,第八屆北京智源大會在京舉辦?芍貥(gòu)計(jì)算架構(gòu)代表企業(yè)清微智能攜可重構(gòu)超節(jié)點(diǎn)服務(wù)器、三維集成技術(shù)概念模型亮相展區(qū)。

“模型越做越大,算力卻跟不上了!痹谥撬闱把卣搲,清微智能軟件副總裁李彬開門見山。面對先進(jìn)制程受限、摩爾定律放緩的雙重挑戰(zhàn),清微智能在本次大會上提出——以架構(gòu)補(bǔ)工藝、以集成超制程、以系統(tǒng)聚算力、以自主創(chuàng)生態(tài)。四步環(huán)環(huán)相扣,力圖讓國產(chǎn)算力從“可運(yùn)行”真正走向“經(jīng)濟(jì)性”。

以架構(gòu)補(bǔ)工藝:晶體管利用率突破70%

清微智能指出,傳統(tǒng)架構(gòu)芯片面臨功耗墻、內(nèi)存墻、通信墻層層限制,有效晶體管利用率不足40%。清微通過可重構(gòu)數(shù)據(jù)流引擎,讓計(jì)算單元根據(jù)數(shù)據(jù)流動按需重組,晶體管有效利用率一舉突破70%,用成熟制程實(shí)現(xiàn)接近先進(jìn)制程的有效算力。

清微智能的邏輯很明確:不依賴于制程工藝升級的限制,用架構(gòu)重新定義效率。李彬介紹,該方案已在電力、政務(wù)、EDA、電信四大關(guān)鍵行業(yè)完成規(guī)模化部署。

清微智能軟件副總裁李彬。(清微智能供圖 央廣網(wǎng)發(fā))

以集成超制程:3.5D堆疊,“單車道”變“四車道”

如果“架構(gòu)補(bǔ)工藝”解決的是計(jì)算效率的問題,那么“集成超制程”瞄準(zhǔn)的則是“內(nèi)存墻”。

清微智能展臺上擺放的下一代AI芯片三維集成模型吸引了眾多與會者駐足。傳統(tǒng)2D芯片如同“單車道”,而清微采用3.5D異構(gòu)堆疊與Chiplet架構(gòu),讓可重構(gòu)計(jì)算芯粒與DRAM存儲芯粒實(shí)現(xiàn)三維垂直堆疊,形成立體貫通的“四車道”,大幅提升數(shù)據(jù)傳輸效率。

突破的關(guān)鍵在于將信號傳輸距離從毫米級壓縮至微米級,訪存帶寬比傳統(tǒng)HBM高出數(shù)倍。算力引擎可以持續(xù)滿負(fù)荷運(yùn)轉(zhuǎn),使得千億參數(shù)大模型參數(shù)搬運(yùn)的延遲大幅下降。

清微智能展臺前人流如織。(清微智能供圖 央廣網(wǎng)發(fā))

以系統(tǒng)聚算力:超節(jié)點(diǎn)互聯(lián)成本降低90%

大模型能力的飛速增長,正在從根本上改變算力供給方式。李彬指出,近年來模型規(guī)模從十億、百億、千億到萬億參數(shù)飛速增長,需要極大的算力支撐,傳統(tǒng)的單機(jī)離散供給已無法滿足需求,集約式集群部署成為必然。“超節(jié)點(diǎn)技術(shù)本身并不新,只是模型的進(jìn)化讓它終于有了用武之地!

李彬在采訪中介紹,清微的超節(jié)點(diǎn)方案摒棄了依賴外部交換機(jī)、以太網(wǎng)卡的互聯(lián)架構(gòu),從芯片層面內(nèi)置高速通信能力,最多可將4096顆可重構(gòu)計(jì)算芯片以訪存語義進(jìn)行基于Mesh拓?fù)涞狞c(diǎn)對點(diǎn)直連,形成一張高帶寬、低延時網(wǎng)絡(luò)。該超節(jié)點(diǎn)算力突破每秒500千萬億次,互聯(lián)成本較國外同類方案降低90%。“交換機(jī)和光模塊在算力集群總成本中占比很高,此方案幾乎可以把這部分成本省掉!

據(jù)了解,今年3月,該成果入選2026中關(guān)村論壇重大科技成果,在北京市某算立場項(xiàng)目中,清微部署的4K超節(jié)點(diǎn)服務(wù)器成為首個全域就緒、全程貫通的國產(chǎn)算力解決方案。目前,該成果已融入國家“東數(shù)西算”工程及十余個省份的智算中心。

以自主創(chuàng)新生態(tài):統(tǒng)一軟件生態(tài)加速國產(chǎn)替代

“生態(tài)建設(shè)的重要性,比芯片本身的技術(shù)創(chuàng)新還重要。”李彬坦言。過去兩三年,清微已意識到,若每家芯片公司都用自己的軟件棧,用戶面對多種國產(chǎn)芯片將難以適配。因此,清微智能深度參與國產(chǎn)AI算力統(tǒng)一軟件生態(tài)建設(shè),與智源 FlagOS實(shí)現(xiàn)全棧兼容,適配規(guī)模在非GPU架構(gòu)中與華為昇騰并列前二。

清微智能與FlagOS的技術(shù)適配。(清微智能供圖 央廣網(wǎng)發(fā))

這一策略的效果已經(jīng)顯現(xiàn)。李彬以DeepSeek模型適配為例:去年R1模型發(fā)布時,各家國產(chǎn)芯片平均需要1~2個月才能完成適配;而今年V4版本發(fā)布當(dāng)天,多家國產(chǎn)芯片便同期完成適配,并通過FlagRelease發(fā)布了模型推理鏡像。

李彬表示,統(tǒng)一軟件生態(tài)的意義不僅在于節(jié)省開發(fā)者的適配時間,更深層次的價值在于讓國產(chǎn)算力生態(tài)中的各方發(fā)揮各自優(yōu)勢——芯片廠商專注架構(gòu)等硬件創(chuàng)新,軟件生態(tài)將算力的易用性拉滿!斑@種極致的專注和協(xié)同式創(chuàng)新,才能讓國產(chǎn)算力有可能用最短的時間趕超領(lǐng)先國家的水平!

他判斷:“未來1至2年內(nèi),國產(chǎn)算力替代的臨界點(diǎn)將真正到來。用戶選擇國產(chǎn)算力芯片,單純會因?yàn)楹糜、性價比高!

編輯:周玲
更多精彩資訊請?jiān)趹?yīng)用市場下載“央廣網(wǎng)”客戶端。歡迎提供新聞線索,24小時報料熱線400-800-0088;消費(fèi)者也可通過央廣網(wǎng)“啄木鳥消費(fèi)者投訴平臺”線上投訴。版權(quán)聲明:本文章版權(quán)歸屬央廣網(wǎng)所有,未經(jīng)授權(quán)不得轉(zhuǎn)載。轉(zhuǎn)載請聯(lián)系:cnrbanquan@cnr.cn,不尊重原創(chuàng)的行為我們將追究責(zé)任。
長按二維碼
關(guān)注精彩內(nèi)容