三、LLMs 复读机问题
3.1 什么是 LLMs 复读机问题?
LLMs 复读机问题:
例如在电商翻译场景上,会出现“steckdose steckdose steckdose steckdose steckdose steckdose steckdose
steckdose...”;
例如在多模态大模型图片理解上,生成的结果可能会不断重复图片的部分内容,比如“这是一个杯子,这是一个
杯子...”;
比如你让大模型给你写一篇关于春天的小作文,结果发现大模型的生成结果千篇一律,甚至近乎一摸一样。
3.2 为什么会出现 LLMs 复读机问题?
注:我们分别以flores-101通用文本和电商标题文本做了尝试,后者出现重复的概率是前者的20倍以上。
另一点,就是为什么会一直是一个词L的反复重复?因为当前面t-1个词的分布趋于稳定,t以及t+1后面重复出现
的L词的分布基本会沿着前面t-1个词的TSNE二维分布均匀铺开,也就是我们常说的各向异性,虽然生成的数量
长了,但是<HJIKL, HJIKLL, HJIKLL..>的分布几乎不影响。这一点很值得探索,对应的解决方案也相当大力破
巧。
3.3 如何缓解 LLMs 复读机问题?
3.3.1 Unlikelihood Training
c. 在训练过程中加入一些设计好的loss,也可以更好地抑制模型生成单调内容;
2. 从推理角度来看:
a. 基于Transformer的模型可以通过引入各种参数与策略,例如temperature,nucleus samlper来改变每
次生成的内容。
1. 字符级别重复,指大模型针对一个字或一个词重复不断的生成
1. 语句级别重复,大模型针对一句话重复不断的生成
1. 章节级别重复,多次相同的prompt输出完全相同或十分近似的内容,没有一点创新性的内容
1. 大模型针对不同的prompt也可能会生成类似的内容,且有效信息很少、信息熵偏低
1. 数据偏差:大型语言模型通常是通过预训练阶段使用大规模无标签数据进行训练的。如果训练数据中存在大
量的重复文本或者某些特定的句子或短语出现频率较高,模型在生成文本时可能会倾向于复制这些常见的模
式。
2. 训练目标的限制:大型语言模型的训练通常是基于自监督学习的方法,通过预测下一个词或掩盖词来学习语
言模型。这样的训练目标可能使得模型更倾向于生成与输入相似的文本,导致复读机问题的出现。
3. 缺乏多样性的训练数据:虽然大型语言模型可以处理大规模的数据,但如果训练数据中缺乏多样性的语言表
达和语境,模型可能无法学习到足够的多样性和创造性,导致复读机问题的出现。
4. 模型结构和参数设置:大型语言模型的结构和参数设置也可能对复读机问题产生影响。例如,模型的注意力
机制和生成策略可能导致模型更倾向于复制输入的文本。
5. 从 induction head[1]机制的影响角度:也就是模型会倾向于从前面已经预测的word里面挑选最匹配的词;
在翻译上,由于input和output的天然差异性,你会发现容易出现重复的都是一些复杂度perplexity比较高的文
本:也就是说input的句式越不常见,本身重复度越高,翻译结果重复的可能性也越高。
1. 从信息熵的角度分析。“在模型生成采样时,我们就应该只采样那些与条件熵对应概率接近的字符”[2],但是
我更理解为信息淹没;比如电商标题,作为一种语句连贯性很弱、基本是词序堆叠的文本,它的信息熵无疑
是很高的,下一个词预测时,概率后验基本上很难预测出来,Softmax的分布也倾向于平稳,也就是说模型
也预测不出来下一个词应该是什么。因此模型会倾向从前面的word里面挑选。无论是专业翻译大模型
M2M、NLLB还是通用语言模型ChatGPT,LLAMA等, <HJIKL, HJIKLL, HJIKLL..>的TSNE二维分布基本一
致;也就是你添加了LLLL后,文本语义基本没有变化。
评论