DeepSeek“開源周”第二日,DeepSeek宣布開源DeepEP,第一個用于MoE模型訓練和推理的開源EP通信庫。
昨天,DeepSeek則開源了代碼庫Flash MLA,這是針對Hopper GPU優化的高效MLA解碼內核,針對可變長度序列作了優化。
MoE(混合專家架構)和MLA(多頭潛在注意力機制)被認為是DeepSeek以低成本實現杰出表現的核心原因。
簡單理解,MoE架構是由多個專注于垂直技能的專家模型分工協作來實現最終輸出結果,訓練成本和推理成本更低。有消息稱,GPT-4就使用了MoE架構,由8個220B模型組成。但MoE架構的缺點之一是會增加通信成本。
DeepEP通信庫就是針對通信環節的優化,其特點包括:高效、優化的全員溝通;節點內和節點間均支持 NVLink 和 RDMA;用于訓練和推理預填充的高吞吐量內核;用于推理解碼的低延遲內核;原生 FP8 調度支持;靈活的 GPU 資源控制,實現計算-通信重疊。
MLA則是讓模型預測更遠位置的token,從而增強語義理解能力。DeepSeek的Flash MLA專為英偉達Hopper GPU打造了高效MLA解碼內核,特別針對變長序列進行了優化。
責任編輯:黃學焚
特別聲明:本網登載內容出于更直觀傳遞信息之目的。該內容版權歸原作者所有,并不代表本網贊同其觀點和對其真實性負責。如該內容涉及任何第三方合法權利,請及時與ts@hxnews.com聯系或者請點擊右側投訴按鈕,我們會及時反饋并處理完畢。
- 字節跳動豆包疑接入deepseek?相關負責人:小范圍測試自有模型2025-02-26
- 爆火的騰訊元寶,接入DeepSeek后超越字節豆包升至免費榜第二2025-02-24
- 本地化部署DeepSeek 福大團隊構建醫療超算大模型2025-02-21
- 最新科技前沿 頻道推薦
-
OPPO Find N5輕薄機身下的影像實力:哈蘇三攝2025-02-26
- 進入圖片頻道最新圖文
- 進入視頻頻道最新視頻
- 一周熱點新聞


已有0人發表了評論
您需要登錄后才可以評論,登錄| 注冊