Home

pp014.CODEFUSION: A Pre-trained Diffusion Model for Code Generation

AI前沿|Codefusion:用于代码生成的预训练扩散模型 微软将扩散模型用在代码生成任务,还透露了ChatGPT参数量 从自然语言生成代码的自回归模型有一个相似的缺陷:它们通常无法容易地重新考虑早先生成的token,作者引入了CODEFUSION,这是一种预先训练的扩散代码生成模型,它通过迭代地对以编码自然语言为条件的完整程序进行去噪来解决上述问题。作者针对Bash、Python和Microsoft Excel条件格式 (CF) 规则的自然语言到代码生成任务评估CODEFUSION,实验表明,CODEFUSION(75M参数)在top-1精度方面与sota的自回归系统(350M–175B参数)相当,并且在top-3和top-5精度方面优于它们,因为它能更好地平衡多样性与质量。 ...

Read more

pp011.DETECTING PRETRAINING DATA FROM LARGE LAN- GUAGE MODELS

AI前沿|如何知道某条数据是否在黑盒大语言模型中预训练过 LLM的训练数据很少开源,在多达万亿token的数量中,大概率包含了各种有问题的文本如设计版权信息的、个人信息和基准的测试数据。但当前无法知道某个数据是否被包含在训练数据中及相应比例。作者便研究了预训练数据检测问题:给定一条文本和未知预训练数据的黑盒模型,我们是否能确定该文本被训过。作者为此引入了一个动态基准WIKIMIA,它使用模型训练之前和之后创建的数据来支持检测。他们还引入了一种新的检测方法MIN-K% PROB,该方法基于一个简单的假设:在LLM中,未见过的示例很可能包含一些概率较低的离群词,而见过的示例不太可能包含如此低概率的词。MIN-K% PROB可以在对预训练语料库未知或无任何额外训练的情况下应用,不同于之前需...

Read more

pp010.In-Context Learning Creates Task Vectors

AI前沿|ICL底层机理再探 LLM中的上下文学习(ICL)是一种强大的新学习范式。但其潜在机制仍不清楚。特别是,将其映射到“标准”的机器学习框架仍具挑战性,在该框架中,人们使用训练集S在某个假设类中找到最佳拟合函数f(x)。 作者在此通过证明ICL的函数通常具有非常简单的结构:它们对应于transformer型的LLM,其唯一输入是查询x和从训练集计算出来的单个“任务向量”。因此,见figure1,ICL可以看作是将S压缩为单个任务向量θ(S),然后使用该任务向量来调节transform以产生输出。作者通过一系列模型和任务的综合实验支持了上述主张。 首先是一些背景:为理解ICL的底层机制,即模型如何内在利用实例S和提问x,作者从统计机器学习借用了假设类概念来解决该问题。在学习理论...

Read more

pp009.SELF-RAG: LEARNING TO RETRIEVE, GENERATE, AND CRITIQUE THROUGH SELF-REFLECTION

AI前沿 SELF-RAG: 结合检索并反思的生成模型 针对LLM生成回复时因为只能依赖于模型中的知识导致的事实性不准确的问题,检索增强的生成RAG稍微缓解了问题,但一味检索并融合固定数量文章,不管检索是否需要、文章是否相关,会让模型多元性减少或导致生成没有帮助的回复。作者提出自反思的RAG框架SELF-RAG,同时通过检索与反思增强模型质量与事实性。该框架训练一个单独的LM来适应性地检索所需文章,并在推理阶段生成并在检索出来的文章与其用特殊token(一种叫反思token的东西)生成的回复上反思。生成反思token使得模型在推理阶段可控,使其能够根据不同的任务要求调整行为。实验显示,SELF-RAG(7B,13B)显著优于sota LLM以及针对不同任...

Read more

pp008.LARGE LANGUAGE MODELS AS ANALOGICAL REASONERS

AI前沿|类比提示:简单却有效的提示技巧,增强模型复杂任务能力 CoT提示技术在各种推理任务上有很好表现但通常其需要对推理过程做标注。在这个工作中作者介绍了新的提示方法:analogical(类比) prompting,设计用于自动化指导模型推理。该方法受人类从过去的相关经验中汲取经验来解决新问题这一认知过程启发,促使语言模型在解决给定问题前在上下文中自行生成相关的范例或知识。该方法具有以下优点:无需标记或检索示例,通用且便利;它还可以针对每个问题定制生成的示例和知识,极具适应性。实验结果表明,该方法在各种推理任务中都优于零样本CoT和手动的少样本CoT,包括在GSM8K和MATH中的数学问题、Codeforces中的代码生成及BIG-Bench中的其他推理任务。 关于类比提示的例...

Read more

pp007.IN-CONTEXT PRETRAINING: LANGUAGE MODELING BEYOND DOCUMENT BOUNDARIES

AI前沿|将训练数据按相关性排序可以增强模型效果 当下语言模型被训练成可以在给定文档前缀后预测字词。现有预训练流水线将各种短文本随机拼接来构成输入上下文的方法有个缺点,即先前的文档对预测下一个文档无法提供信息。作者便提出上下文预训练,使得模型能在一个相关文档的序列上训练,因此显性地鼓励模型跨文档间阅读并推理。该方法可以通过简单改变文档顺序来实现,并直接应用到预训练流水线上。但文档排序问题有挑战性,需要在不重复数据的情况下将十亿级别的文档排序以最大化上下文相似性。作者用高效最近邻搜索来找到最相关文档并用一个图遍历算法构建一致的输入上下文。实验展示上下文预训练提供了简单且可规模化的方法来大大增强模型表现,在需要复杂上下文推理的任务上,包括上下文学习(+8%)、阅读理解(+15%)、先前上...

Read more

pp006.Mistral 7B

AI前沿|Mistral 7B文章挂arxiv了 前几天引起关注的Mistral 7B,其公司才创建了几个月,全欧洲的AI热钱都在往这里流,创立几周后种子轮就融了1.13亿美元,阵容也不错,奔着欧洲地区的OpenAI去的。他们开源的模型Mistral 7B声称在所有评估榜单上比Llama2-13B都好,并且超过了34B的Llama1的推理、数学和代码生成能力(见figure4和table2),最近论文被挂到arxiv上了。主要用到的技术是分组查询注意力GQA(用于更快推理)和滑窗注意力SWA(用于高效处理任意长度序列),他们也提供了一个微调后能跟随指令的模型Mistral 7B - Instruct,在人类和自动评估指标上都超过了Llama 2 13B Chat模型,见table3。...

Read more

pp005.CLOSING THE CURIOUS CASE OF NEURAL TEXT DEGENERATION

AI前沿|从理论上说明像核采样这样的截断式生成方法为什么有效 尽管像核采样这样的截断采样启发式生成方法在语言生成中普遍存在,但为何它们如此有效仍然未知。作者通过证明丢弃低于某个概率阈值的token(最常见的截断类型)的截断方法可以保证所有采样的token具有非零真实概率,为截断采样的有效性提供了理论解释。然而,阈值仍是一种粗略的启发式方法,并且也必然会丢弃一些具有非零真实概率的token。为追求更精确的采样策略,作者证明他们可以利用已知的模型误差源(softmax bottleneck,下称SMB:由于较小的隐藏层维度与较大的词表导致的模型表达性受限)来证明某些token具有非零真实概率,而不依赖于阈值。根据发现,他们开发了一种实验性截断策略,并且目前的试点实验证明了此类算法的前景。...

Read more

pp003.Think before you speak: Training Language Models With Pause Tokens

AI前沿|噢!在这停顿!加入暂停标记训练推理,模型效果居然变得更好 编者按:论文作者没有明确给出文中方法的生效的原理,但猜想可能是暂停标记引起了更宽的计算通路,这恰好和“从理论视角说明COT为何有效”这篇文章中的一个关键结论“更长的上下文带来更宽的计算通路可能是COT的关键”相互联系起来。 LM通过即刻连续生成一连串token的方式来生成回复:第(K + 1)个token是每层操作K个隐藏向量的结果,每个前序token一个向量。作者的问题是:如果我们让模型在输出第(K + 1)个标记前操作K+10个隐藏向量,会怎样?作者通过使用(可学习的)暂停标记(pause token)对语言模型进行训练和推理来实现该想法(该暂停标记的序列附加到输入前缀上)。然后再延迟提取模型的输出,直到看到最...

Read more

pp002.LARGE LANGUAGE MODELS CANNOT SELF-CORRECT REASONING YET

AI前沿|大模型内在自修正技术仍难以在推理任务上生效 LLM生成文本的准确性与正确性仍让人担忧,一个暂时的解决方法是自修正技术,但一个基本的问题是“如果LLM拥有自修复能力,为何其不在最初的回复中就给出正确答案?”,本文便对自修正技术在LLM中的角色与效力进行研究,揭示其真实潜力与限制。研究的中心是内在自修正(intrinsic self-correction),即LLM尝试只用其自身内在的能力,无需外部反馈而对最初回复进行的修正。在推理任务(GSM8K,CommonSenseQA,HotpotQA)背景下,研究显示LLM难以在没有外部反馈的情况下自修正回复,甚至偶尔它们的表现在自修正之后还更差了,见figure1中对修改后变化的题目比例和例子figure2。作者给该领域未来的研究与...

Read more