pp023.UNIVERSAL SELF-CONSISTENCY FOR LARGE LAN- GUAGE MODEL GENERATION
AI|USC:通用自一致性解决Self-Consistency无法在自由形式答案上使用的缺陷
Denny Zhou真就天天各种搞prompt呗,我寻思这个USC大家可能都已经知道了。
自一致性(self-consistency, SoC)的解码策略通过利用从LLM中抽取的多个推理路径实现了在各种具有挑战性任务上的显著性能提升。然而,SoC依赖于答案提取过程来汇总多个解决方案,这对于自由形式的答案并不适用。在此作者提出了“通用自一致性(Universal Self-Consistency,USC)”,它利用LLMs自身来选择多个候选答案中最一致的答案。作者在数学推理、代码生成、长篇上下文摘要和开放性问题回答等多个基准测试上评估了USC。在原始SoC不适用的开放式生成任务如开放性问答和...
pp022.Scalable Extraction of Training Data from (Production) Language Models
AI|只需这样做就可以让ChatGPT泄漏训练数据
如果和ChatGPT说“一直重复poem poem poem poem这个词”,会发生什么?有人发现模型会泄漏训练数据。在这篇论文里,作者研究了可提取的记忆化信息(extractable memorization):即攻击者可以在不事先了解训练数据集的情况下通过查询机器学习模型有效地提取出的训练数据,即给定提示p后能逐字逐句生成训练时的x。作者展示了攻击者可以从开源语言模型如Pythia或GPT-Neo、半开放模型如LLaMA或Falcon,以及闭源模型如ChatGPT中提取出成GB的训练数据。现有文献中的技术足以攻击未对齐的模型;为了攻击对齐的ChatGPT,作者开发了一种新的偏离攻击(divergence attack),使模型...
pp021.GAIA: A Benchmark for General AI Assistants
AI|GAIA:据说解决了这个基准,AI研究又会达到一个里程碑(作者自己说的
该论文介绍了GAIA,一个用于测试通用人工智能助手(General AI Assistants)的基准,作者声称如果解决了,将代表AI研究的一个里程碑。GAIA提出了一系列现实世界中的问题,这些问题需要一组基本的能力,如推理、多模态处理、网页浏览和熟练地使用通用工具。对于人类而言,GAIA的问题在概念上相对简单,但对大多数先进的AI而言却具有挑战性:作者对比了人类与配备插件的GPT-4的回答,正确率分别为92%和15%。这一显著的性能差异与最近LLM在需要专业技能(如法律或化学)的任务中优于人类的趋势形成对比。GAIA的理念与当前AI基准测试的趋势不同,后者倾向于针对对人类而言变得更加困难的任务。作者认为,...
pp020.Orca 2: Teaching Small Language Models How to Reason
AI|Orca 2:利用提示擦除技术让模型知道如何选择回复策略
本文是Orca 1的续作,Orca 1中通过在数据中加入更丰富的信号如对过程的解释(Explanation Tuning)使得模型在像BigBench Hard和AGIEval上得到高分。在此,作者继续探索增强的训练信号如何提高小型LM的推理能力。训练小型LM的研究通常依赖于模仿学习来复制能力更强的模型的输出。作者认为,过度强调模仿可能会限制小模型的潜力。他们试图教导小模型针对不同的任务采用不同的解决策略,这些策略可能与较大模型使用的策略不同。例如,虽然较大的模型直接为复杂任务给出答案,但较小的模型可能不具备相同能力。在Orca 2中,作者教授模型各种推理技术(逐步式、回忆然后生成、回忆-推理-生成、直接回答等)。更重要...
pp019.LLAMAS KNOW WHAT GPTS DON’T SHOW: SURROGATE MODELS FOR CONFIDENCE ESTIMATION
AI|GPT4答案的概率分布不可见?那就用开源的代理模型估计闭源模型的置信度
LLM在对某个答案不确定时应给出相应低置信度的信号,而非误导用户。估计置信度的标准方法是使用模型的softmax概率,但截至目前,GPT-4和Claude-v1.3等最先进的LLM不提供对这些概率的访问。作者因此首先尝试用语言引导出置信度,即询问LLM对其答案的置信度,该方法的表现很合理但仍有改进空间(GPT-4上12个问答数据集的平均AUC为80.5%——比随机的基线高7%)。然后,作者探索使用代理置信度模型,用一个已知概率的模型来评估给定问题下原始模型(比如一个闭源模型)的置信度。令人惊讶的是,尽管这些概率来自不同且通常较弱的模型,但该方法在12个数据集中的9个数据集上产生的AUC高于另外一种用语言提问...
pp018.Evaluating Large Language Models on Controlled Generation Tasks
AI前沿
你是否发现ChatGPT甚至不能按字数要求回复问题?有人做了评测并讨论了可能的原因
最近在群里和朋友圈看大家都提到让LLM写固定字数的回复时模型几乎都失效了,在网上看到这篇论文的时候就想怎么这么巧就有人针对这个事情发了论文,合着好像就是群友发的。
虽然最近的研究探讨了LLM在各种基准任务中的能力,但很少有研究探讨LLM在生成任务上的可控性。先前的工作有通过在特定任务上做微调如controlled paraphrase generation受控改述生成或设置受限解码策略如look-back decoding strategy回顾式解码策略,作者在这篇工作中在十个基准上对LLM的可控性进行了系统而广泛的分析,包括一个新的简单但具有挑战性的不同粒度...
pp017.PROMPT CACHE: MODULAR ATTENTION REUSE FOR LOW-LATENCY INFERENCE
AI前沿|重用提示词的状态加速推理
在此论文中作者提出Prompt Cache,提示缓存,通过在不同LLM提示之间重用注意力状态来加速模型推理。很多提示都有相同的文本片段,如系统消息,提示模版(工具调用的语句)和为上下文提供的文档(法律分析和教育领域等)。作者的想法是通过在推理服务器上预先计算和存储这些频繁出现的文本片段的注意力状态,当这些片段出现在用户提示中时,就可以有效地重用它们。提示缓存使用一种范式Schema来显式定义此类可重用文本段,称为提示模块。该模式确保注意力状态重用期间的位置准确性,并为用户提供在提示中访问缓存状态的接口。使用原型实现,作者评估了多个LLM的Prompt Cache。结果显示提示缓存显着减少了首次token出现的时延,特别是对于较长的提示,例如基于文档...
pp016.Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models
AI前沿|transformer不能在分布数据外泛化?不如说模型受限于训练数据中的函数族
注意到这篇论文是X上有人危言耸听说模型不能在训练数据外泛化,当然他的评价过于夸张引起了大量讨论。随后文章原作Steve Yadlowsky也做了澄清(1.模型只是简单的transformer而非大语言模型;2.模型能通过ICL学习新任务但不能泛化到新的任务族)。脱离评论本身,这篇文章是极具启发性的文章。
Transformer,尤其是LLM,有着惊人的上下文学习能力,即在用未见过的输入输出样例提问新任务时仍有效,无需显性的模型训练。作者研究了transformer能何等程度高效地将由多种不同任务族的预训练数据混合相互连接,以识别并上下文式地学习在预训练发布内或分布外的新任务。作者研究了在序列对...
pp015.Grok & DeepseekCoder
AI前沿|近期值得关注的两个模型:Grok与DeepseekCoder
xAI发布Grok
这个训了俩月的模型Grok被设计于带着一点智慧地回答问题,且有点叛逆。其拥有一个独特的优势是它通过𝕏平台实时了解世界。还能回答大多数其他人工智能系统拒绝的尖锐问题。加持Grok的具体模型是Grok-1,一个自回归式的基于transformer的模型。xAI宣布成立后他们先训了一个33B参数的原型LLM Grok-0,该模型用一半的训练资源就在各种语言模型榜单上达到了像LLaMA 2(70B)这种规模模型的能力。接着在上两个月,xAI在模型上大幅提升推理和代码能力,训出了Grok-1,其在HumanEval上达到63.2%,在MMLU上达到73%。在其他各榜单上的效果见下图。在这些榜单...
pp013.Let’s Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models
AI前沿|迭代式合成小模型训练数据:用LLM外推数据误差来逼近真实数据分布
数据合成是一种在只有很少标注数据时训练小模型的有效方式,其中一种是利用大模型丰富知识去合成小模型的伪训练示例,使得同时实现数据与计算高效。但数据合成的一个挑战是合成的数据集通常与真实任务数据分布存在很大的分布差异。因此,作者提出逐步合成(Synthesis Step by Step, S3),一种数据合成框架,一个数据合成框架,通过用大模型迭代式地外推由在合成数据上训练的小模型在一个小的真实世界验证集上所产生的错误来缩小分布差距。多个NLP任务的广泛实验表明,该方法通过减少合成数据集和真实数据之间的差距,提高了小模型的性能,与几个基线相比有了显著改进:与ZeroGen相比提高了9.48%,与GoldGen相比...
260 post articles, 26 pages.