ACL2024: 生成器+阅读器，大幅提升大模型协作能力

AI 搜索引擎 2024-12-04

165

今天分享的是ACL2024的一篇论文：

A+B: A General Generator-Reader Framework for Optimizing LLMs to Unleash Synergy Potentia。

A+B: 一种通用生成器+阅读器框架，用于优化大型语言模型以释放协同潜力。

论文链接：https://arxiv.org/abs/2406.03963

摘要

本文提出了一种名为“A + B”的通用生成器-阅读器框架，旨在优化大语言模型（LLM）并发挥其协同潜力。该框架通过将检索增强生成（RAG）中的检索阶段替换为LLM自身的生成阶段，以解决检索器性能的瓶颈问题。研究通过对基础模型和类型的不同组合进行系统研究，发现LLM的base版本和chat版本分别适合作为生成器A和阅读器B。这些组合在复杂场景下 consistently 表现优于单一模型。

02
主要工作

预实验

在知识密集型任务中必须考虑两个关键方面：准确的知识和高质量的生成。前者要求大语言模型生成与事实知识一致的内容，而后者则要求回答的内容既有帮助又无害，与人类偏好相符。最近，研究人员注意到微调可能会无意中削弱大语言模型传达事实信息的能力。具体而言，经过监督微调（SFT）的LLMs在评估事实知识和推理能力的基准测试中的表现较其基础模型明显下降。

这一观察引发了一个重要问题：未对齐和已对齐模型是否更适合于特定角色在知识密集型任务中，例如作为生成器和阅读器？为此，文章进行预实验，以评估不同版本的大型语言模型——未对齐和已对齐——在知识记忆和回应生成方面的表现。

预实验分为两个部分，分别是评估模型的知识记忆能力和模型的回答的有效性。实验结果来看，base模型更能记住训练阶段的数据，而chat模型更能生成与人类偏好相符的有效回答。

A+B框架

1. 生成器 (A)

base模型负责根据输入查询生成相关信息。需要高度的事实准确性，以确保生成的内容与事实相符。可以使用不同类型或版本的 LLM，例如未经对齐的基础模型，它们在知识记忆方面表现出色。

2. 阅读器 (B)

chat模型负责解释生成的内容并提供适当的回答。需要认知推理和与人类偏好的一致性，以确保生成的回答既安全又有用。可以使用经过对齐的聊天模型，它们在生成符合人类偏好的回答方面表现出色。

基于A+B框架的实验结果也验证了base模型作为生成器和chat模型作为阅读器的能力。

持续学习

RAG的主要应用场景在于特定领域的语料不在预训练数据集中时通过检索的内容来补充知识。为了验证这种场景，本文在 NarrativeQA数据集（基于小说、剧本的QA数据集）中将大量的小说、剧本作为预训练的语料继续训练Llama2-7B和Llama2-13B。实验结果如下表。

实验划分了两类问题，分别是在单文档内可以回答的问题和跨文档回答的问题。作者认为，虽然训练没有精心标注数据集，但两个场景的精确度均和RAG结果相近，甚至高于RAG。

总结

本文通过A+B框架达到了和RAG类似的结果，规避了检索效果和性能瓶颈的问题。但文章只对比了Llama7B和Llama13B的效果，期待看到更多类似的方案在更大参数量模型上和RAG的效果对比。

编者介绍

李剑楠：华东师范大学硕士研究生，研究方向为向量检索。曾作为核心研发工程师参与向量数据库、RAG 等产品研发，代表公司参加 DTCC、WAIM 等会议进行主题分享。

▎往期推荐

阿里多模态RAG新框架，快速提升图文检索准确率

把检索语言换成html，RAG能力得到显著提升！

快思考与慢思考Agent的结合

Text2SQL还不够: 用TAG统一人工智能和数据库

llm 能力模型

文章转载自AI 搜索引擎，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

ACL2024: 生成器+阅读器，大幅提升大模型协作能力

02主要工作

预实验

2. 阅读器 (B)

评论

02
主要工作