File tree Expand file tree Collapse file tree 1 file changed +3
-3
lines changed
content/blog/ring-lite-2507 Expand file tree Collapse file tree 1 file changed +3
-3
lines changed Original file line number Diff line number Diff line change @@ -14,15 +14,15 @@ show_word_count: true
14
14
📖 [ Technical Report] ( https://arxiv.org/abs/2506.14731 ) | 🤗 [ Hugging Face] ( https://huggingface.co/inclusionAI/Ring-lite-2507 ) | 🤖 [ ModelScope] ( https://modelscope.cn/models/inclusionAI/Ring-lite-2507 )
15
15
16
16
## 概述
17
- 我们推出了** Ring-lite-2507** ,该模型是在我们之前发布的轻量级推理模型** Ring-lite** (2506) 上的一次全面升级!** Ring-lite-2507** 是一个激活参数为** 2.75B** ,总参数为** 16.8B** 的混合专家(MoE)大语言模型 。此次升级,我们的模型不仅进一步提升了在数学、代码和逻辑任务上的推理能力,同时在知识理解、对齐和智能体等多个广泛使用的通用类评测榜单中取得了卓越的表现。通过我们提出的创新性强化学习算法和多阶段强化学习训练流程,** Ring-lite-2507** 相比最新10B参数以下的稠密推理模型 ,在仅激活其1/3参数规模的情况下,在各项任务中达到了相当或更具竞争力的性能。
17
+ 我们推出了** Ring-lite-2507** ,该模型是在我们之前发布的轻量级推理模型** Ring-lite-2506 ** 上的一次全面升级!** Ring-lite-2507** 是一个激活参数为** 2.75B** ,总参数为** 16.8B** 的MoE大语言模型 。此次升级,我们的模型不仅进一步提升了在数学、代码和逻辑任务上的推理能力,同时在知识理解、对齐和智能体等多个广泛使用的通用类评测榜单中取得了卓越的表现。通过我们提出的创新性强化学习算法和多阶段强化学习训练流程,** Ring-lite-2507** 相比最新10B参数以下的Dense推理模型 ,在仅激活其1/3参数规模的情况下,在各项任务中达到了相当或更具竞争力的性能。
18
18
19
19
我们提出了一种创新的强化学习训练算法,即Constrained Contextual Computation Policy Optimization(C3PO),旨在解决MoE强化学习训练过程中的不稳定性问题。通过算法-系统协同设计,我们的方法同时提高了训练稳定性和计算吞吐量。此外,我们系统性地研究了长思维链SFT和RL训练之间的动态关系,并提出使用token效率指标来帮助我们探索选择更适合RL训练的微调模型,从而实现了RL训练过程中的性能和效率的双平衡。此外,我们还采用了新型两阶段强化学习的训练范式,以平衡多领域融合数据的训练效果,在增强推理能力的同时,更有效地提升各种下游通用任务的表现。
20
20
21
21
22
22
** 亮点**
23
23
24
24
+ 🚀 ** 多项任务中的卓越表现** : Ring-lite-2507在推理和通用任务上均表现出卓越的性能;
25
- + 🔥 ** 仅激活2.75B模型参数** : Ring-lite-2507是一个基于混合专家(MoE)的大语言模型 ,仅激活了2.75B模型参数;
25
+ + 🔥 ** 仅激活2.75B模型参数** : Ring-lite-2507是一个基于MoE的大语言模型 ,仅激活了2.75B模型参数;
26
26
+ ⛓️💥 ** 算法-系统协同设计** : 我们创新性地提出了C3PO训练方法,并采用token效率来平衡RL训练的稳定性和有效性;
27
27
+ 🔍 ** 公开可用** : 我们的训练数据和模型权重均已公开。
28
28
@@ -92,7 +92,7 @@ show_word_count: true
92
92
尽管蒸馏训练在很多情况下表现出优秀的性能,但我们发现,与RL训练相比,它通常需要更多的训练迭代才能达到相当的性能。此外,我们观察到,蒸馏模型的训练迭代次数会显著影响RL训练中熵损失的走势,进而影响了RL的探索空间。从实验上来看,模型经过过多的SFT训练轮次可能会导致RL熵迅速崩溃,另一方面,SFT阶段训练不足也不可避免地会导致性能下降。为了系统性地量化最优SFT训练的程度,我们提出采用token效率指标来动态指导更适合强化学习的起始模型。
93
93
94
94
## 训练数据
95
- 为构建一个高质量的强化学习训练数据集,我们搭建了一个全面而细致的数据整理流程。这个流程包括多个关键阶段 ,如数据清洗、答案验证和数据标注等,从而确保我们的训练数据免于数据污染,同时具有信息量,更适用于强化学习训练。
95
+ 为构建一个高质量的强化学习训练数据集,我们搭建了一个全面而细致的数据处理链路。这个链路包括多个关键阶段 ,如数据清洗、答案验证和数据标注等,从而确保我们的训练数据免于数据污染,同时具有信息量,更适用于强化学习训练。
96
96
<div style =" text-align :center ;margin : auto ; width : 100% ;" >
97
97
<img src =" ./assets/data-pipeline.png " alt =" Image description " />
98
98
<p style =" font-size :14px ; color :gray ;" >Data Pipeline</p >
You can’t perform that action at this time.
0 commit comments