We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
There was an error while loading. Please reload this page.
1 parent 14df370 commit ab084bbCopy full SHA for ab084bb
content/blog/ring-lite-2507/index.zh.md
@@ -105,7 +105,7 @@ show_word_count: true
105
</div>
106
107
### 推理强化学习
108
-与之前发布的Ring-lite-2506相比,我们通过整合更具挑战性的数学、代码和科学M数据来扩展了我们的推理数据集。具体来说,我们采用了67K个数学问题、32K个代码问题和9.9K个科学问题用于推理强化学习训练。此外,我们还通过引入超过19K个逻辑游戏,如ARC-AGI、Countdown、数独、AlphaMaze等,来进一步扩充我们的推理数据集。对于每种类型的问题,我们专门设计了适合的奖励函数,以确保我们的训练数据均是可被验证的。
+与之前发布的Ring-lite-2506相比,我们通过整合更具挑战性的数学、代码和科学数据来扩展了我们的推理数据集。具体来说,我们采用了67K个数学问题、32K个代码问题和9.9K个科学问题用于推理强化学习训练。此外,我们还通过引入超过19K个逻辑游戏,如ARC-AGI、Countdown、数独、AlphaMaze等,来进一步扩充我们的推理数据集。对于每种类型的问题,我们专门设计了适合的奖励函数,以确保我们的训练数据均是可被验证的。
109
110
111
### 通用强化学习
0 commit comments