1
1
---
2
- title : " 欢迎我们的新成员—Ring-lite!它拥有更强大的推理能力,表现更加均衡,助您探索更深度的智慧体验 "
2
+ title : " 欢迎我们的新成员—Ring-lite!它推理更有深度,能力更均衡 "
3
3
date : 2025-08-05T00:00:03+08:00
4
4
weight : 1
5
5
math : true
@@ -16,19 +16,19 @@ show_word_count: true
16
16
## 概述
17
17
我们推出了** Ring-lite-2507** ,该模型是在我们之前发布的轻量级推理模型** Ring-lite** (2506)上的一次全面升级!** Ring-lite-2507** 是一个激活参数为** 2.75B** ,总参数为** 16.8B** 的混合专家(MoE)大语言模型。此次升级,我们的模型不仅进一步提升了在数学、代码和逻辑任务上的推理能力,同时在知识理解、对齐和智能体等多个广泛使用的通用类评测榜单中取得了卓越的表现。通过我们提出的创新性强化学习算法和多阶段强化学习训练流程,** Ring-lite-2507** 相比最新10B参数以下的稠密推理模型,在仅激活其1/3参数规模的情况下,在各项任务中达到了相当或更具竞争力的性能。
18
18
19
- 我们提出了一种创新的强化学习训练算法,即Constrained Contextual Computation Policy Optimization(C3PO),旨在解决MoE强化学习训练过程中的不稳定性问题。通过算法-系统协同设计,我们的方法同时提高了训练稳定性和计算吞吐量。此外,我们系统性地研究了长思维链SFT和RL训练之间的动态关系,并提出使用令牌效率指标来帮助我们探索选择更适合RL训练的微调模型 ,从而实现了RL训练过程中的性能和效率的双平衡。此外,我们还采用了新型两阶段强化学习的训练范式,以平衡多领域融合数据的训练效果,在增强推理能力的同时,更有效地提升各种下游通用任务的表现。
19
+ 我们提出了一种创新的强化学习训练算法,即Constrained Contextual Computation Policy Optimization(C3PO),旨在解决MoE强化学习训练过程中的不稳定性问题。通过算法-系统协同设计,我们的方法同时提高了训练稳定性和计算吞吐量。此外,我们系统性地研究了长思维链SFT和RL训练之间的动态关系,并提出使用token效率指标来帮助我们探索选择更适合RL训练的微调模型 ,从而实现了RL训练过程中的性能和效率的双平衡。此外,我们还采用了新型两阶段强化学习的训练范式,以平衡多领域融合数据的训练效果,在增强推理能力的同时,更有效地提升各种下游通用任务的表现。
20
20
21
21
22
22
** 亮点**
23
23
24
24
+ 🚀 ** 多项任务中的卓越表现** : Ring-lite-2507在推理和通用任务上均表现出卓越的性能;
25
25
+ 🔥 ** 仅激活2.75B模型参数** : Ring-lite-2507是一个基于混合专家(MoE)的大语言模型,仅激活了2.75B模型参数;
26
- + ⛓️💥 ** 算法-系统协同设计** : 我们创新性地提出了C3PO训练方法,并采用令牌效率来平衡RL训练的稳定性和有效性 ;
26
+ + ⛓️💥 ** 算法-系统协同设计** : 我们创新性地提出了C3PO训练方法,并采用token效率来平衡RL训练的稳定性和有效性 ;
27
27
+ 🔍 ** 公开可用** : 我们的训练数据和模型权重均已公开。
28
28
29
29
30
30
## 模型评测
31
- 我们在两个主要领域对模型进行了全面评估:推理和通用。我们使用了一系列多样性的公开评测榜单,根据不同榜单衡量的大模型能力,我们将评测内容分为 :知识理解、数学、代码、推理 \& 智能体,以及对齐任务。
31
+ 我们在两个主要领域对模型进行了全面评估:推理和通用。我们使用了一系列公开评测榜单来衡量模型能力,包括 :知识理解、数学、代码、推理 \& 智能体,以及对齐任务。
32
32
33
33
### 知识理解
34
34
@@ -81,15 +81,15 @@ show_word_count: true
81
81
82
82
83
83
## Constrained Contextual Computation Policy Optimization(C3PO)
84
- 我们提出了一个创新性的令牌级强化学习训练算法 ,<u >C</u >onstrained <u >C</u >ontextual <u >C</u >omputation <u >P</u >olicy <u >O</u >ptimization(C3PO),该算法旨在通过稳定训练过程中令牌的吞吐量 ,从而提升强化学习训练的鲁棒性。与样本级的筛选不同,C3PO在令牌级别通过采样来形成一个全局固定的令牌批次,每个训练步骤都保证输入给优化器的令牌数量一致 ,从而降低了梯度方差,使得训练更加稳定。
84
+ 我们提出了一个创新性的token级强化学习训练算法 ,<u >C</u >onstrained <u >C</u >ontextual <u >C</u >omputation <u >P</u >olicy <u >O</u >ptimization(C3PO),该算法旨在通过稳定训练过程中token的吞吐量 ,从而提升强化学习训练的鲁棒性。与样本级的筛选不同,C3PO在token级别通过采样来形成一个全局固定的token批次,每个训练步骤都保证输入给优化器的token数量一致 ,从而降低了梯度方差,使得训练更加稳定。
85
85
86
86
<div style =" text-align :center ;margin : auto ; width : 100% ;" >
87
87
<img src =" ./assets/C3PO_overview_formal.png " alt =" Image description " />
88
88
<p style =" font-size :14px ; color :gray ;" >C3PO</p >
89
89
</div >
90
90
91
- ## 在蒸馏和强化学习之间平衡令牌效率
92
- 尽管蒸馏训练在很多情况下表现出优秀的性能,但我们发现,与RL训练相比,它通常需要更多的训练迭代才能达到相当的性能。此外,我们观察到,蒸馏模型的训练迭代次数会显著影响RL训练中熵损失的走势,进而影响了RL的探索空间。从实验上来看,模型经过过多的SFT训练轮次可能会导致RL熵迅速崩溃,另一方面,SFT阶段训练不足也不可避免地会导致性能下降。为了系统性地量化最优SFT训练的程度,我们提出采用令牌效率指标来动态指导更适合强化学习的起始模型 。
91
+ ## 在蒸馏和强化学习之间平衡token效率
92
+ 尽管蒸馏训练在很多情况下表现出优秀的性能,但我们发现,与RL训练相比,它通常需要更多的训练迭代才能达到相当的性能。此外,我们观察到,蒸馏模型的训练迭代次数会显著影响RL训练中熵损失的走势,进而影响了RL的探索空间。从实验上来看,模型经过过多的SFT训练轮次可能会导致RL熵迅速崩溃,另一方面,SFT阶段训练不足也不可避免地会导致性能下降。为了系统性地量化最优SFT训练的程度,我们提出采用token效率指标来动态指导更适合强化学习的起始模型 。
93
93
94
94
## 训练数据
95
95
为构建一个高质量的强化学习训练数据集,我们搭建了一个全面而细致的数据整理流程。这个流程包括多个关键阶段,如数据清洗、答案验证和数据标注等,从而确保我们的训练数据免于数据污染,同时具有信息量,更适用于强化学习训练。
@@ -105,13 +105,13 @@ show_word_count: true
105
105
</div >
106
106
107
107
### 推理强化学习
108
- 与之前发布的Ring-lite-2506相比,我们通过整合更具挑战性的数学、编码和STEM数据来扩展了我们的推理数据集 。具体来说,我们采用了67K个数学问题、32K个编码问题和9 .9K个科学问题用于推理强化学习训练。此外,我们还通过引入超过19K个逻辑游戏,如ARC-AGI、倒计时 、数独、AlphaMaze等,来进一步扩充我们的推理数据集。对于每种类型的问题,我们专门设计了适合的奖励函数,以确保我们的训练数据均是可被验证的。
108
+ 与之前发布的Ring-lite-2506相比,我们通过整合更具挑战性的数学、代码和科学M数据来扩展了我们的推理数据集 。具体来说,我们采用了67K个数学问题、32K个代码问题和9 .9K个科学问题用于推理强化学习训练。此外,我们还通过引入超过19K个逻辑游戏,如ARC-AGI、Countdown 、数独、AlphaMaze等,来进一步扩充我们的推理数据集。对于每种类型的问题,我们专门设计了适合的奖励函数,以确保我们的训练数据均是可被验证的。
109
109
110
110
111
111
### 通用强化学习
112
112
除了推理任务之外,我们的Ring-lite-2507在训练过程中广泛补充了用于RL训练的通用数据集。我们的通用RL训练不仅没有牺牲在推理任务上的强劲表现,同时,它在广泛的通用榜单评测中均展现了强大的文本理解以及通用任务能力。
113
113
114
- 我们的通用强化学习训练数据中包括了指令遵循、问答、文本摘要等多个不同任务。对于开放式问题,我们采用了一个通用奖励模型来分配奖励分数 。此外,我们还集成了一个基于规则的验证器来处理易于验证的通用问题,例如指令遵循任务等。
114
+ 我们的通用强化学习训练数据中包括了指令遵循、问答、文本摘要等多个不同任务。对于开放式问题,我们采用了一个通用奖励模型来计算奖励分数 。此外,我们还集成了一个基于规则的验证器来处理易于验证的通用问题,例如指令遵循任务等。
115
115
116
116
## 引用
117
117
0 commit comments