pp019.LLAMAS KNOW WHAT GPTS DON’T SHOW: SURROGATE MODELS FOR CONFIDENCE ESTIMATION

AI｜GPT4答案的概率分布不可见？那就用开源的代理模型估计闭源模型的置信度

LLM在对某个答案不确定时应给出相应低置信度的信号，而非误导用户。估计置信度的标准方法是使用模型的softmax概率，但截至目前，GPT-4和Claude-v1.3等最先进的LLM不提供对这些概率的访问。作者因此首先尝试用语言引导出置信度，即询问LLM对其答案的置信度，该方法的表现很合理但仍有改进空间（GPT-4上12个问答数据集的平均AUC为80.5%——比随机的基线高7%）。然后，作者探索使用代理置信度模型，用一个已知概率的模型来评估给定问题下原始模型（比如一个闭源模型）的置信度。令人惊讶的是，尽管这些概率来自不同且通常较弱的模型，但该方法在12个数据集中的9个数据集上产生的AUC高于另外一种用语言提问的置信度。作者组合了语言置信度和代理模型概率，这种最佳方法可以在所有12个数据集上给出sota的置信度估计（GPT-4上的平均AUC为84.6%）。

选择性分类（或带有拒绝选项的分类）问题已在机器学习中被广泛研究，这些方法一般利用模型的softmax概率或模型的表示实现。但闭源模型难以获得。作者首先用自然语言引导出语言置信度的方式（作者有在文中提到语言置信度对于提示的波动较鲁棒），见figure2里的指令，对于GPT4来说，分数为80.5%，比随机的基线高，另外语言置信度的有效性随着模型规模增大有提高但还是不够好。而当实际的概率可用时（对于不太准确的模型），语言置信度的表现比使用模型概率差得多。例如，在Llama 2上，语言置信度的平均AUC比模型概率低10.7%，这表明这些置信度评估有优化空间。

因此，作者提出了代理模型方法，从GPT-4或Claude-v1.3中获取答案，但将来自不同模型的置信度作为置信度（将同样问题输给不同模型并查看闭源模型给出的答案所对应的概率值），如Llama 2（见figure1）。代理置信模型将GPT-4的平均选择性分类AUC提高到82.1%，而且代理模型置信度好于语言置信度，对于所有模型来说用代理模型的概率都比用其自己的语言置信度取得了更高的AUC，figure3直观展示了该结论（下面四行颜色比上面6行深）。即使使用较弱或小得多的代理模型（如text-davinci-003或Llama 2-13B）也能得到与更强的模型相匹敌或更好的AUC。有趣的是，置信度分数可以在模型之间转移，即使生成置信度分数的模型不同（或更差）。另外，最近研究表明，使用RLHF训练的聊天模型可能比基础模型的校准更少。作者将聊天和基本模型概率作为代理置信度进行比较，发现Llama 2 70B基本模型在语言置信度和模型概率的选择性分类中略优于Llama 2 70B Chat——但两个模型作为代理的表现相似。一般来说更好的模型（例如 Llama 2 70B）是更好的代理模型。最后，作者发现较强模型的语言置信度可以为较弱模型提供良好的代理置信度，如对于GPT-3.5，当使用GPT-4的语言置信度而非它自己的语言置信度时，其AUC提高了5.7%。

作者发现语言置信度和代理模型概率是互补的，将这些得分结合起来会带来进一步的收益，见figure1的Mixture这一计算。例如，混合方法将GPT-4的选择性分类AUC提高到83.4%。混合方法（AUC：82.8%）也优于同期另一个自一致性（self-consistency）相关的工作，后者开销更大（每个输入都要对GPT-4采样五次）且涉及后处理。将作者的方法与基于自一致性的置信度得分相结合会产生最佳结果：平均AUC84.6%。

PREVIOUSpp018.Evaluating Large Language Models on Controlled Generation Tasks

NEXTpp020.Orca 2: Teaching Small Language Models How to Reason