大模型的自我审查机制可以被绕开为了防止 - 来自张凡的数说

2024-04-07 有意联系QQ 153978258

大模型的自我审查机制可以被绕开为了防止大语言模型被滥用，开发者会采取大量措施限制大模型，让它自我审查，不回复 “如何在家造炸弹”“如何劫持一辆汽车” 等可能会造成危害的问题或者有种族性别歧视的问题。比如 OpenAI 训练出来 GPT-4 后，召集数十个各领域的专家攻击它，花了半年时间调整模型；Anthropic 会给大模型设定 “宪法”，试图让它更安全。这些安全措施并不总有效。今天，Anthropic 的研究者称，如果用户在提问中加上多轮人与大模型的虚假对话，大模型就有极大概率回复可能有害的问题。无论是 GPT-4 还是 Anthropic 开发的 Claude 模型，或者是开源的 Llama2、Mistral 模型，都无法抵抗这种攻击。