Checklist / 检查清单
Bug Description / Bug 描述
对Qwen3.5-397B-A17B 使用 mcore进行全量sft,num_query_groups必须是tp的倍数,这个是Megatron本身的限制吗,还是说需要升级版本
How to Reproduce / 如何复现
参数里面设置
--tensor_model_parallel_size 8
Megatron-core版本:Megatron-LM-core_v0.15.0
Swift版本:main分支
Additional Information / 补充信息
No response