北大團(tuán)隊(duì)發(fā)布全球首創(chuàng)芯片設(shè)計(jì)存算一體排序架構(gòu)
北大團(tuán)隊(duì)發(fā)布全球首創(chuàng)芯片設(shè)計(jì)存算一體排序架構(gòu)
作者:許子皓來(lái)源:中國(guó)電子報(bào)、電子信息產(chǎn)業(yè)網(wǎng)
近日,由北京大學(xué)集成電路學(xué)院教授楊玉超、人工智能研究院研究員陶耀宇組成的團(tuán)隊(duì),在國(guó)際上首次實(shí)現(xiàn)了基于存算一體技術(shù)的高效排序硬件架構(gòu),解決了傳統(tǒng)計(jì)算架構(gòu)面對(duì)復(fù)雜非線性排序問題時(shí)計(jì)算效率低下的瓶頸問題,將為具身智能、大語(yǔ)言模型、智能駕駛、智慧交通、智慧城市等人工智能(AI)應(yīng)用提供更高效的算力支持。
陶耀宇在接受《中國(guó)電子報(bào)》記者采訪時(shí)表示:“排序,作為人工智能系統(tǒng)中最常用、最耗時(shí)的基礎(chǔ)操作之一,廣泛存在于自然語(yǔ)言處理、信息檢索、圖神經(jīng)網(wǎng)絡(luò)、智能決策等人工智能相關(guān)領(lǐng)域中。在傳統(tǒng)的馮·諾依曼計(jì)算架構(gòu)中,處理器與存儲(chǔ)器分離的特點(diǎn)導(dǎo)致數(shù)據(jù)被頻繁搬運(yùn),嚴(yán)重制約了計(jì)算速度和系統(tǒng)能效,因此將存儲(chǔ)與計(jì)算融合的‘存算一體’架構(gòu)是突破硬件性能的必由之路。”
例如,在大語(yǔ)言模型訓(xùn)練、機(jī)器人路徑規(guī)劃、強(qiáng)化學(xué)習(xí)搜索等場(chǎng)景中,快速評(píng)估多個(gè)決策或行動(dòng)的優(yōu)劣并進(jìn)行排序,也是必不可少而又極為費(fèi)時(shí)的步驟。然而,在傳統(tǒng)計(jì)算架構(gòu)下,大規(guī)模的非線性排序難以在端側(cè)或邊緣設(shè)備高效完成,這一過(guò)程消耗大量時(shí)間與功耗,制約了具身智能、智能駕駛等新興技術(shù)的發(fā)展與普及。
近年來(lái),“存算一體”被認(rèn)為是突破傳統(tǒng)硬件架構(gòu)計(jì)算瓶頸的關(guān)鍵技術(shù),已經(jīng)在矩陣計(jì)算等規(guī)則性強(qiáng)的數(shù)值計(jì)算環(huán)節(jié)取得顯著成果。然而,由于排序過(guò)程仍存在邏輯復(fù)雜、操作非線性、數(shù)據(jù)訪問不規(guī)則、高度依賴復(fù)雜比較器網(wǎng)絡(luò),以及缺乏通用、高效的硬件排序原語(yǔ)等諸多障礙,目前國(guó)際主流的存算一體架構(gòu)均無(wú)法解決大數(shù)據(jù)排序問題,上述難題成為了制約下一代人工智能計(jì)算硬件發(fā)展的前沿焦點(diǎn)與核心卡點(diǎn)問題。
北大科研團(tuán)隊(duì)本次發(fā)布的基于存算一體技術(shù)的高效排序硬件架構(gòu),圍繞“讓數(shù)據(jù)就地排序”的第一性原理目標(biāo),在存算一體架構(gòu)上攻克了多個(gè)核心技術(shù)難題,實(shí)現(xiàn)了排序速度與能效的數(shù)量級(jí)提升。實(shí)現(xiàn)了多項(xiàng)突破:一是開發(fā)了一套基于新型存內(nèi)陣列結(jié)構(gòu)的高并行位讀取機(jī)制;二是開創(chuàng)性地引入了憶阻器陣列,提出了按數(shù)、按位、多值三種并行策略,實(shí)現(xiàn)了低延遲、多通路的硬件級(jí)并行排序電路設(shè)計(jì);三是在算子層面,優(yōu)化了面向人工智能任務(wù)的算法—架構(gòu)協(xié)同路徑,同時(shí)兼容現(xiàn)有矩陣計(jì)算;四是完全自主設(shè)計(jì)的器件—電路—系統(tǒng)級(jí)技術(shù)棧整合。
實(shí)測(cè)結(jié)果顯示,該硬件方案在典型排序任務(wù)中實(shí)現(xiàn)運(yùn)算速度超過(guò)15倍的提升,但功耗僅為傳統(tǒng)CPU或GPU處理器的1/10。在人工智能推理場(chǎng)景中,支持動(dòng)態(tài)稀疏度下的推理響應(yīng)速度可提升70%以上,特別適用于要求極高實(shí)時(shí)性的任務(wù)環(huán)境。