Researchers Unveil Pangu Pro MoE: 72B-Parameter AI Model Outperforms Peers, Achieves 1528 Tokens/s on Ascend NPUs

Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

Authors:Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang (and Other Contributors) View PDF HTML (experimental) Abstract:The surgence of Mixture of Experts (MoE) in Large Language Models promises a small price of execution cost for a much larger model parameter count and learning...