pp023.UNIVERSAL SELF-CONSISTENCY FOR LARGE LAN- GUAGE MODEL GENERATION

 

AI|USC:通用自一致性解决Self-Consistency无法在自由形式答案上使用的缺陷

Denny Zhou真就天天各种搞prompt呗,我寻思这个USC大家可能都已经知道了。

自一致性(self-consistency, SoC)的解码策略通过利用从LLM中抽取的多个推理路径实现了在各种具有挑战性任务上的显著性能提升。然而,SoC依赖于答案提取过程来汇总多个解决方案,这对于自由形式的答案并不适用。在此作者提出了“通用自一致性(Universal Self-Consistency,USC)”,它利用LLMs自身来选择多个候选答案中最一致的答案。作者在数学推理、代码生成、长篇上下文摘要和开放性问题回答等多个基准测试上评估了USC。在原始SoC不适用的开放式生成任务如开放性问答和长文本摘要中,USC有效地利用多个样本并提高了性能。在数学推理方面如GSM8K上,USC在不要求答案格式相似的情况下与标准SoC性能相匹配。最后,在无法访问执行结果的情况下,USC还与基于执行的代码生成的投票生产结果性能相匹敌。除了性能提升外,评估还表明,当两者能比较时,USC的输出与标准SoC高度匹配,同时对候选响应的排序更鲁棒。

SoC通常只在哪些最终答案能通过精确匹配聚合起来的任务上使用,比如答案为单个数字的数学问题。USC就能支持各种应用,特别是自由形式的,具体而言,给定多个参考回答,USC仅仅调用LLM从其中选择最具一致性的答案,见figure1,更多例子见figure2。USC消除了设计答案提取过程的需求,适用于具有自由形式答案的任务。尽管先前的研究揭示了LLMs在回复选择方面的弱点,如位置偏差和错误判断答案正确性,直观地说,评估候选答案间的一致性比衡量和比较答案质量更容易。

具体结果见table1、2、3、4。

啥也不是,散会!