锚点111
研究表明,Qwen在验证、回溯等推理行为方面具有天然优势,Llama则需经过训练来培养这些习惯,才能在强化学习中实现自我提升。
设想一下,当你碰到一道棘手的数学题时,会采取什么行动呢?也许会多花些时间,仔细斟酌每一步,甚至在思路受阻时退回重新思考。这种深思熟虑的能力,如今在语言模型中也有所体现。近年来,借助强化学习(RL),一些模型学会了在复杂问题上“放慢脚步思考”,犹如人类专家一般。然而,有意思的是,有些模型进步迅速,有些却很快陷入停滞。例如,在相同的《倒计时》游戏训练下,Qwen – 2.5 – 3B将Llama – 3.2 – 3B远远抛在身后。这不禁引发人们的好奇:究竟是什么使得某些模型能够持续自我提升呢?
为了揭开这个谜团,研究人员聚焦于四种关键的认知行为:验证、回溯、设定子目标和逆向推理。这些习惯在人类解决问题的过程中屡见不鲜——数学家会检查证明的每一步骤,遇到矛盾时放弃死胡同,把大问题拆解成小问题,从结果反向推导起因。研究发现,Qwen天生具备这些特质,尤其擅长验证和回溯,而Llama起初几乎完全不具备。正是这些行为,让Qwen在强化学习中得心应手。
那么,能否让Llama也掌握这些本领呢?实验带来了一丝希望。通过给Llama提供一些包含这些推理行为的示例,比如回溯的思考痕迹,它在强化学习中的表现大幅提升,甚至能与Qwen不相上下。更令人惊奇的是,即便这些示例的答案是错误的,只要推理模式正确,效果依然显著。这表明,关键并非答案的对错,而是模型是否掌握了这些认知习惯。
研究并未就此止步。研究人员还尝试从OpenWebMath数据中筛选出强调推理行为的内容,继续对Llama进行预训练。结果令人欣喜:Llama的进步轨迹逐渐向Qwen靠拢。这说明,一个模型的初始推理能力,决定了它能否有效利用额外的计算资源。像Qwen这样具有“天赋”的模型自然占据优势,而Llama则需要后天的培养。
回顾人类解题的情景,我们常常会反复验证、分解任务,甚至从目标倒推回去。语言模型亦是如此。在《倒计时》游戏中,回溯和验证成为了获胜的关键。研究人员用这个游戏设计了初始实验,发现Llama只要稍作引导,就能展现出潜力。后来,他们使用更丰富的数据集进一步训练,证明这种提升并非偶然,而是可以通过精心挑选训练素材来实现的。
这些发现揭示了一个简单而深刻的道理:模型的自我提升,取决于其最初的推理习惯。Qwen之所以能够脱颖而出,是因为它拥有验证和回溯的“天赋”;而Llama通过训练,也能够迎头赶上。更有趣的是,即便用错误答案引导,只要保留正确的推理模式,效果依然不会减弱。这不禁让人思考:在编程、游戏或写作等其他领域,又需要哪些特定的认知行为呢?
人类的智慧积累了无数解题的巧妙方法,而AI正在这条道路上不断前行。未来,它或许不仅能学会我们的习惯,还能创造出全新的推理方式。正如Qwen和Llama的故事所启示的,进步的关键不在于起点有多高,而在于能否找到适合自己的成长路径。
本文译自arxiv.org,由BALI编辑发布。