國泰海通:NPU+3DDRAM或成端側AI下一代技術(shù)趨勢 推薦兆易創(chuàng )新
國泰海通發(fā)布研報稱(chēng),DRAM制程微縮放緩背景下,3D架構轉型與NPU協(xié)處理器結合將成為端側AI發(fā)展的關(guān)鍵技術(shù)路徑。研報指出,當前AI端側推理速度的瓶頸在于內存帶寬而非算力,而3DDRAM通過(guò)混合鍵合技術(shù)可顯著(zhù)提升傳輸效率(如800GB/s帶寬下高通驍龍8GEN3的推理速度可從4.8tokens/s躍升至57tokens/s)。NPU作為協(xié)處理器的運用疊加3DDRAM極有可能是下一代的端側技術(shù)趨勢,給予行業(yè)“增持”評級,推薦兆易創(chuàng )新(603986)(603986.SH)。
國泰海通主要觀(guān)點(diǎn)如下:
DRAM制程微縮放緩,長(cháng)遠命題在于從2D轉向3D架構
隨著(zhù)DRAM制程節點(diǎn)不斷縮小,目前DRAM芯片工藝已經(jīng)突破到了10nm級別。工藝完整性、成本、電容器漏電和干擾、傳感裕度等方面的挑戰愈發(fā)明顯,要在更小的空間內實(shí)現穩定的電荷存儲和讀寫(xiě)操作變得日益困難。隨著(zhù)DRAM芯片制程愈發(fā)先進(jìn),長(cháng)遠命題在于從2D轉向3D架構;混合鍵合方案改進(jìn)了Micro bump的堆疊高度限制等問(wèn)題,代表3DDRAM未來(lái)技術(shù)路徑。從技術(shù)差異上來(lái)說(shuō),WoW3DDRAM與CUBE及現有的HBM方案主要差異在于鍵合方式分別為混合鍵合與Micro bump。與已廣泛使用的Micro Bump堆疊技術(shù)相比,混合鍵合不配置凸塊,可容納較多堆疊層數,也能容納較厚的晶粒厚度,以改善翹曲問(wèn)題。使用混合鍵合方案的芯片傳輸速度較快,散熱效果也較好。考慮到堆疊高度限制、IO密度、散熱等要求,三大HBM原廠(chǎng)已確定于HBM520hi世代使用HybridBonding。
AI應用目前在走向百花齊放,而不是高度范化的統一模型
硬件側在為應用的落地醞釀很多新技術(shù)儲備,這些機會(huì )更加重要。MOE模型開(kāi)始驅動(dòng)小的大模型,小型MoE模型Qwen3-30B-A3B的激活參數數量是QwQ-32B的10%,表現更勝一籌,激活10%參數量卻能超過(guò)滿(mǎn)血模型,也為端側應用提供了模型基礎。該行認為,海外硬件大廠(chǎng)在儲備能讓AI“泛在”與“常開(kāi)”的技術(shù),NPU作為協(xié)處理器的運用疊加3DDRAM極有可能是下一代的端側技術(shù)趨勢。
當前AI端側推理速度的主要瓶頸在內存帶寬而非算力,內存限制問(wèn)題由3DDRAM解決
以高通驍龍8GEN3為例,其N(xiāo)PU算力約45TOPs,內存帶寬約為67GB/s,若運行7B大模型,代入前述公式得到計算能力限制約3215tokens/s,內存帶寬限制約4.8tokens/s,最終速度取兩者中的最小值,確保實(shí)際推理不受硬件瓶頸限制,而其內存限制瓶頸明顯遠大于計算限制。DRAM+NPU通過(guò)HB堆疊的形式合封,該行假設以800GB/s的內存帶寬代入上述高通驍龍8GEN3的問(wèn)題,內存限制將提升至57tokens/s。中國大陸玩家兆易創(chuàng )新及其投資子公司青耘科技、光羽芯成,以及中國臺灣存儲IDM華邦電、手機AP龍頭高通等,均發(fā)力3DDRAM+NPU方案,技術(shù)趨勢明確。
風(fēng)險提示:AI應用滲透不及預期;3DDRAM技術(shù)發(fā)展不及預期。
0人