Skip to content

Commit ab084bb

Browse files
author
xiaohao.wzh
committed
fix typo
1 parent 14df370 commit ab084bb

File tree

1 file changed

+1
-1
lines changed

1 file changed

+1
-1
lines changed

content/blog/ring-lite-2507/index.zh.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -105,7 +105,7 @@ show_word_count: true
105105
</div>
106106

107107
### 推理强化学习
108-
与之前发布的Ring-lite-2506相比,我们通过整合更具挑战性的数学、代码和科学M数据来扩展了我们的推理数据集。具体来说,我们采用了67K个数学问题、32K个代码问题和9.9K个科学问题用于推理强化学习训练。此外,我们还通过引入超过19K个逻辑游戏,如ARC-AGI、Countdown、数独、AlphaMaze等,来进一步扩充我们的推理数据集。对于每种类型的问题,我们专门设计了适合的奖励函数,以确保我们的训练数据均是可被验证的。
108+
与之前发布的Ring-lite-2506相比,我们通过整合更具挑战性的数学、代码和科学数据来扩展了我们的推理数据集。具体来说,我们采用了67K个数学问题、32K个代码问题和9.9K个科学问题用于推理强化学习训练。此外,我们还通过引入超过19K个逻辑游戏,如ARC-AGI、Countdown、数独、AlphaMaze等,来进一步扩充我们的推理数据集。对于每种类型的问题,我们专门设计了适合的奖励函数,以确保我们的训练数据均是可被验证的。
109109

110110

111111
### 通用强化学习

0 commit comments

Comments
 (0)