pp002.LARGE LANGUAGE MODELS CANNOT SELF-CORRECT REASONING YET

 

AI前沿|大模型内在自修正技术仍难以在推理任务上生效

LLM生成文本的准确性与正确性仍让人担忧,一个暂时的解决方法是自修正技术,但一个基本的问题是“如果LLM拥有自修复能力,为何其不在最初的回复中就给出正确答案?”,本文便对自修正技术在LLM中的角色与效力进行研究,揭示其真实潜力与限制。研究的中心是内在自修正(intrinsic self-correction),即LLM尝试只用其自身内在的能力,无需外部反馈而对最初回复进行的修正。在推理任务(GSM8K,CommonSenseQA,HotpotQA)背景下,研究显示LLM难以在没有外部反馈的情况下自修正回复,甚至偶尔它们的表现在自修正之后还更差了,见figure1中对修改后变化的题目比例和例子figure2。作者给该领域未来的研究与实际应用给出了建议,建议社区对内在自修正技术保持怀疑且谨慎使用,还是应该用外部反馈。

作者首先定义了内在自修正,即只用内部能力而不用外部反馈,他们发现LLM难以修复先前的回复,大部分例子甚至在自修正后发生了劣化。该结论正好和之前一些工作中的结论相反,更仔细地看先前文章里的方法,作者发现所带来的提升是由于那些方法中用了oracle来指导自修正过程,当oracle标签没法用时,提升就消失了(table1分别展示了有oracle和没有oracle的自修正效果)。而对于另一种通过多代理讨论(multi-agent debate)来对推理实现提高的自修正方法,作者发现当给出相同数量回复的情况下,这种方法的效果不如self-consistency(如table4),说明这种方法的局限性。

另一方面,尽管自修正技术在增强推理方面效果有限,但其确实能在诸如变换回复风格或提高适当性上有惊人表现。因此,理解其中的细微差别与底层原因很关键,作者为此将自修复看成一种事后的提示技术(post-hoc prompting),即提示中包含LLM的回复。作者对自修正真正有益的场景——特别是当其提供了标准提示为给出的指令或反馈时。作者分析表明,某些任务中自我纠正带来的增强可能源于精心设计的反馈提示,其掩盖了粗制滥造的初始指令的缺点。在这种情况下,将反馈集成到初始指令中或设计更好的初始提示可能会产生更好的结果并降低推理成本。