IT之家 3 月 10 日消息,字節跳動豆包大模型團隊官宣開源一項針對 MoE(混合專家模型)架構的關鍵優化技術,可將大模型訓練效率提升 1.7 倍,成本節省 40%。據悉,該技術叫做 COMET,已實際應用於字節的萬卡集群訓練,累計幫助節省了數百萬 GPU 小時訓練算力。
IT之家注意到,早前豆包團隊發布了新一代稀疏架構 UltraMem,將模型推理成本砍掉 83%,此次,又開源了 COMET,向模型訓練成本出手。
目前,COMET 核心代碼已開源,並計劃兼容 Triton 等編譯生態。
論文鏈接:https://arxiv.org/pdf/2502.19811
開源地址:https://github.com/bytedance/flux
工資待遇將實行同工同酬
國資委主任李榮融:為何國企好不好我都要挨罵
銀監會戲份加碼:擔綱宏觀經濟微調重任
財政部:明確企業職工福利費製度改革方向
江蘇代表團結束訪台返回南京
專家預計明年GDP增速可能達11%左右