外地公司做的网站能备案吗/seo资源网站 排名
1.简介
这篇文章提出了一种名为“强化预训练”(Reinforcement Pre-Training,简称 RPT)的新型预训练范式,旨在通过强化学习(Reinforcement Learning,简称 RL)提升大型语言模型(LLMs)在下一个词元预测任务中的表现。传统的下一个词元预测任务通常依赖于自监督学习,而 RPT 则将这一任务重新定义为一个推理过程,激励模型在预测之前进行深入思考,并通过可验证的奖励信号来评估预测的正确性。
文章的核心贡献在于,RPT 不仅显著提高了下一个词元预测的准确性,还为后续的强化微调提供了更强大的预训练基础。通过将大规模未标注文本数据转化为通用的强化学习任务,RPT 实现了无需外部标注或领域特定奖励函数的可扩展预训练。此外,RPT 使用基于规则的奖励信号,有效避免了复杂奖励模型可能带来的奖励劫持问题,同时通过推理过程促进了模型对上下文的深入理解,增强了泛化能力。
总的来说,《Reinforcement Pre-Training》为大型语言模型的预训练提供了一种新的思路,通过强化学习激励模型进行推理,不仅提升了模型的预测能力,还为后续的微调和泛化提供了更坚实的基础。这一方法为未来语言模型的发展开辟了新的方向,有望推动自然语言处理技术在更多复杂任务中的应用。
论文地址:https://arxiv.org/abs/2506.08007
-
-
2.论文详解
简介
大型语言模型(LLMs)在广泛的任务中展现出了卓越的能力,这主要得益于其在海量文本语料上通过可扩展的下一个词元预测目标实现的自我监督范式。这种自我监督的预训练方法已被证明是一种有效的通用预训练方法。与此同时,强化学习(RL)作为一种强大的技术,被用于微调大型语言模型,使其与人类偏好对齐,或增强特定技能,例如复杂推理。然而,目前在大型语言模型训练中应用强化学习面临着可扩展性和通用性的挑战。基于人类反馈的强化学习虽然在对齐方面效果显著,但依赖于昂贵的人类偏好数据,并且其学习到的奖励模型容易受到奖励劫持的影响,限制了其可扩展性。另一方面,使用可验证奖励的强化学习(RLVR)利用客观的、基于规则的奖励,通常来自问答对。虽然这种方法减少了奖励劫持的风险,但RLVR通常受到可验证答案的标注数据稀缺的限制,使其应用局限于特定领域的微调,而非通用预训练。
在本研究中,作者引入了一种名为强化预训练(RPT)的新范式,弥合了可扩展的自我监督预训练与强化学习的力量之间的差距。RPT将基本的下一个词元预测(next-token predict)任务重新定义为一个下一个词元推理(next-token reason)过程。对于预训练语料中的任何给定上下文,模型被激励在预测下一个词元之前对其进行推理。它根据预测的正确性相对于语料中真实的下一个词元获得一个可验证的内在奖励。这种方法将通常用于下一个词元预测的大量未标注文本数据转化为一个用于通用强化学习的庞大数据集,无需外部标注或特定领域的奖励函数。
作者的实验表明,RPT显著提高了预测下一个词元的准确性。RPT还为后续的强化微调提供了一个更稳健的预训练基础,从而实现了更好的最终任务性能。扩展曲线显示,在RPT框架下,增加的训练计算量能够持续提高下一个词元预测的准确性,显示出其作为一种可持续扩展策略的潜力。这些结果表明,强化预训练是一种有效且有前景的新范式,能够推动大型语言模型预训练的发展。
-
初步
下一个词元预测(next token predict,NTP)
下一个词元预测是现代大型语言模型的基本训练目标。给定来自训练语料的输入序列 ,模型被训练以最大化以下目标函数:
其中 表示语言模型的参数。
使用可验证奖励的强化学习(RLVR)
RLVR采用强化学习目标,通过可验证答案来增强特定技能。RLVR需要一个标注好的问答对数据集 。对于数据集中的特定问答对
,大型语言模型
生成一个回答
。一个确定性的验证器 V 计算可验证奖励 r = V(o, a),模型被训练以最大化预期奖励:
-
强化预训练
预训练任务:下一个词元推理
作者提出了语言建模的下一个词元推理任务。给定来自训练语料的输入序列 ,对于每个位置
,前缀
被视为上下文,而真实的下一个词元是
。在下一个词元推理任务中,模型
需要在生成下一个词元的预测
之前,生成一个思维链推理序列,记为
。整体模型响应为
,
。
如图2所示,下一个词元推理的长思维链过程可能涉及各种推理模式,如头脑风暴、自我批评和自我纠正。下一个词元推理任务将预训练语料重构为一个庞大的推理问题集,将预训练从学习表面词元级相关性转变为理解其背后的隐藏知识,并使强化学习扩展成为可能。
使用强化学习进行预训练
强化预训练(RPT)通过策略强化学习训练大型语言模型(LLMs)执行下一个词元推理,如图3所示。对于上下文 ,我们提示语言模型
生成 G 个响应(思维轨迹),
。每个响应
由一个思维链推理序列
和一个最终预测序列
组成。
为了验证 的正确性,作者引入了前缀匹配奖励,这支持验证跨越多个词元或涉及词汇表外词元的预测。设
和
分别表示真实完成序列
和预测
的字节序列。用 l 表示
的字节长度。作者定义真实完成序列中词元的累积字节长度为有效边界,并用
表示这个集合。形式上,对于
的第 i 个输出的奖励
定义为:
其中当预测的字节序列是真实完成序列的精确前缀且其长度 l 匹配任何有效词元边界时,奖励为1。
设 D 为所有 的集合,模型被训练以最大化预期奖励:
预训练设置
作者使用OmniMATH数据集进行强化预训练。OmniMATH包含了4428个来自官方(如AoPS Wiki和AoPS论坛)的竞赛级数学问题和解答。由于许多词元即使没有推理也很容易预测,作者在强化预训练之前执行了词元级别的数据过滤。特别地,作者使用DeepseekR1-Distill-Qwen-1.5B作为一个小型代理模型。对于每个词元,作者计算代理模型在前16个下一个词元上的熵。通过应用熵阈值,作者过滤掉低熵位置,优先训练需要更大计算努力来预测的具有挑战性的词元。
对于每个词元位置 t,作者使用一个小型代理模型(proxy model)来计算该位置上可能的下一个词元的不确定性。代理模型会预测接下来可能出现的前 16 个词元的概率分布。
低熵:如果一个词元位置的熵值很低,说明代理模型对该位置的下一个词元非常确定,即只有一个或少数几个词元的概率很高。这种位置通常比较容易预测,因为模型可以很容易地确定正确的词元。
高熵:如果一个词元位置的熵值很高,说明代理模型对该位置的下一个词元非常不确定,即有多个可能的词元都有较高的概率。这种位置通常需要更多的计算努力来预测。
在所有实验中,作者使用Deepseek-R1-Distill-Qwen-14B作为基础模型。R1-DistillQwen-14B由于其基本推理能力,是强化学习的良好起点。作者使用verl库实现训练框架,并使用vllm进行推理。作者采用GRPO算法。
在训练期间,作者采用8k的训练长度,学习率为,零KL惩罚,以及256个问题的批量大小。对于每个问题,采样G=8个响应,对于展开过程,作者使用温度为0.8。从每个响应中,作者直接提取跟随特殊标记‘</think>’后的最后一个\boxed{}中的完整序列作为模型对下一个词元的预测。从500步开始,作者使用动态采样来提高训练效率。作者的主要实验的总训练步数为1000。
评估
一旦模型经过预训练,作者可以直接在下游任务上进行下一个词元预测和强化微调。作者使用这些设置来证明强化预训练提高了大型语言模型的语言建模能力和推理能力。
语言建模 鉴于下一个词元推理目标,我们的模型可以自然地用于语言建模。我们报告下一个词元预测的准确率,以评估RPT的语言建模性能和扩展属性。
下游任务的强化微调 作者以预训练后微调的方式,使用RPT模型进行持续的强化学习微调。由于RPT使预训练过程与强化学习对齐,因此在训练后期预训练和强化学习之间的目标差距被最小化。作者评估强化预训练过程是否进一步提高了最终任务上的后训练性能。
-
实验
语言建模
作者在来自OmniMATH的200个样本的保留验证集上评估语言建模性能。遵循作者设置中描述的基于熵的数据过滤策略,作者根据难度对验证集中的词元位置进行分类。具体来说,作者使用R1-Distill-Qwen-14B计算每个词元位置的熵。然后,如果它们的熵分别超过0.5、1.0和1.5的阈值,则将位置指定为属于简单、中等或困难的分割。
为了进行比较,作者报告了以两种不同方式评估的R1-Distill-Qwen-14B的性能:(1)标准下一个词元预测,选择概率最高的词元;(2)下一个词元推理,在最终预测之前生成一个思维链。作者还包括了Qwen2.5-14B的结果,因为它是R1-Distill-Qwen-14B的基础模型。
如表1所示,与R1-Distill-Qwen-14B相比,RPT-14B在所有难度级别上都实现了持续更高的下一个词元预测准确率。值得注意的是,它与一个明显更大的模型,即R1-Distill-Qwen-32B的性能相匹配(图4)。这些结果表明,强化预训练在捕捉词元生成背后的复杂推理信号方面是有效的,并在提高大型语言模型的语言建模能力方面具有强大的潜力。
强化预训练的尺度特性
在本节中,作者研究了强化预训练的扩展属性。下面,作者特别分析了RPT与训练计算量C的扩展行为。作者使用以下幂律形式来模拟这种关系:,其中 P(C) 表示在验证集上的下一个词元预测准确率。
,
和 A 是要估计的参数。
作者评估了RPT在不同训练步骤(100、200、400、800、1000和1200)的下一个词元预测准确率,并将其转换为相应的训练计算量。为了评估数据难度的影响,作者考虑了通过熵阈值0.5(简单)、1.0(中等)和1.5(困难)过滤的验证分割。更高的阈值对应于对大型语言模型更具挑战性的输入。对于每个难度级别,作者根据方程(5)拟合结果。作者使用决定系数来衡量拟合的好坏,这量化了扩展曲线与观察到的数据的拟合程度。
如图5所示,随着训练计算量的增加,RPT的下一个词元预测准确率可靠地提高。在所有难度级别上的高值表明,拟合曲线准确地捕捉了性能趋势。
使用RPT进行微调
为了研究RPT模型是否可以更有效地通过RLVR进行微调,作者从Skywork-OR1中随机抽取具有可验证答案的问题进行进一步训练。作者使用256个示例进行训练,200个用于测试。遵循SkyworkOR1的数据过滤流程,作者使用R1-Distill-Qwen-32B来识别训练中的挑战性实例。作者将训练批量大小和PPO小批量大小都设置为64,并训练模型15个周期。在评估期间,验证的最大词元数设置为32000,温度为0.6。
如表2所示,经过强化预训练的模型在进一步通过RLVR训练时达到了更高的上限。当使用下一个词元预测目标在同一数据上持续训练时,模型的推理能力显著下降。随后的RLVR仅带来缓慢的性能提升。这些结果表明,在有限的数据下,强化预训练可以快速将从下一个词元推理中学到的加强推理模式转移到最终任务中。
结束任务时的Zero-shot性能
作者评估了RPT-14B在最终任务上的zero-shot性能。为了进行比较,作者评估了R1-Distill-Qwen-14B和R1-Distill-Qwen-32B的下一个词元预测性能,以及RPT-14B与R1-Distill-Qwen-14B的推理性能。
作者的评估涉及两个广泛认可的基准测试:MMLU-Pro,一个全面的多任务理解基准,评估大型语言模型在各个领域中的能力;SuperGPQA,一个涵盖285个学科的研究生级推理问题的大规模基准。在推理设置下,作者将最大词元数设置为12,288,温度设置为0.8。按照之前的工作,作者使用多项选择问题格式进行评估,并报告准确率。
如表3所示,RPT-14B在所有基准测试中始终优于R1-Distill-Qwen-14B(无论是使用标准下一个词元预测还是作为推理模型进行评估)。值得注意的是,它还超过了明显更大的R1-Distill-Qwen-32B(在下一个词元预测下),在SuperGPQA上提高了7个百分点,在MMLU-Pro上大约提高了22个百分点。
下一个标记推理模式分析
作者分析了下一个词元推理和明确问题解决之间推理模式的差异。遵循之前的研究,作者统计测量了模型响应中包含推理指示关键词(例如,“分解”,“或者”)的比例。
作者的分析比较了两个模型在OmniMATH数据集上的思考过程,即R1-Distill-Qwen-14B的问题解决和RPT-14B的下一个词元推理,基于每个模型的200个采样响应。作者将推理模式分为六种类型:过渡(切换策略)、反思(自我检查)、分解(分解问题)、假设(提出和验证假设)、发散思维(探索可能性)和演绎(逻辑推理)。
如图6所示,RPT-14B的下一个词元推理过程与R1-Distill-Qwen-14B的问题解决明显不同,假设模式的使用增加了161.8%,演绎模式的使用增加了26.2%。相比之下,问题解决过程更多地依赖于分解模式,这突出显示下一个词元推理引发了与结构化问题解决在质量上不同的推理过程。
作者还在表4中提供了推理模式的一个示例。该示例揭示了模型参与了一个审议过程,而不仅仅是简单的模式匹配。它分析了更广泛的语义上下文(“计算向量大小”),识别关键短语(“复习一些...”),然后集思广益并权衡多种可能的延续。这涉及到假设生成(“下一部分很可能是...”),考虑替代方案(“或者,它可能是...”),以及反思结构线索(“带有标题的markdown”)甚至细粒度的词元级细节(“可能有一个空格”)。这种多方面的推理,包括高级语义理解和低级文本特征,展示了模型通过理性探索来推断下一个词元的努力,这与RPT培养超越表面相关性的更深层次理解的目标一致。
-
-
总结
《Reinforcement Pre-Training》这篇文章提出了一种创新的预训练方法,旨在通过强化学习提升大型语言模型(LLMs)在下一个词元预测任务中的表现。该方法的核心在于将下一个词元预测重新定义为一个推理任务,激励模型在预测之前进行深入的思考,并通过可验证的奖励信号来评估预测的正确性。这种方法不仅显著提高了下一个词元预测的准确性,还为后续的强化微调提供了更强大的预训练基础。
文章通过一系列实验验证了 RPT 方法的有效性。实验结果表明,RPT 在不同难度级别的下一个词元预测任务中均表现出色,尤其是在中等和高难度数据上,其性能提升更为显著。此外,RPT 还展现出了良好的可扩展性,随着训练计算量的增加,模型的预测准确性持续提升。在零样本设置下,RPT 在多个下游任务(如 SuperGPQA 和 MMLU-Pro)上也取得了优异的性能,超越了标准的下一个词元预测模型以及更大规模的模型。
为了进一步提高训练效率,作者引入了一种基于熵的数据筛选策略。通过计算代理模型在前 16 个下一个词元上的熵,作者能够识别出那些对模型来说更具挑战性的词元位置,并通过应用熵阈值过滤掉低熵位置。这种策略使得模型能够专注于那些需要更大计算努力来预测的词元,从而提升模型对复杂语义和逻辑关系的学习能力。
此外,文章还对 RPT 模型的推理模式进行了分析,发现 RPT 模型在推理过程中更多地依赖于假设生成、逻辑推理等复杂的推理模式,而不是简单的模式匹配或问题分解。这种推理模式的转变使得模型能够更深入地理解上下文,从而生成更准确的预测。
总的来说,《Reinforcement Pre-Training》为大型语言模型的预训练提供了一种新的思路,通过强化学习激励模型进行推理,不仅提升了模型的预测能力,还为后续的微调和泛化提供了更坚实的基础。这一方法为未来语言模型的发展开辟了新的方向,有望推动自然语言处理技术在更多复杂任务中的应用。
如果你觉得这篇文章对你有帮助,或者对这个话题感兴趣,别忘了点赞、收藏和关注我哦!你的支持是我持续创作的动力,也让更多人能看到这些有价值的内容!感谢你的支持,一起学习,共同进步!🚀📚💖