暂无图片
返回数说广场
张凡
暂无图片
2024-04-07 有意联系QQ 153978258
大模型的自我审查机制可以被绕开 为了防止大语言模型被滥用,开发者会采取大量措施限制大模型,让它自我审查,不回复 “如何在家造炸弹”“如何劫持一辆汽车” 等可能会造成危害的问题或者有种族性别歧视的问题。比如 OpenAI 训练出来 GPT-4 后,召集数十个各领域的专家攻击它,花了半年时间调整模型;Anthropic 会给大模型设定 “宪法”,试图让它更安全。 这些安全措施并不总有效。今天,Anthropic 的研究者称,如果用户在提问中加上多轮人与大模型的虚假对话,大模型就有极大概率回复可能有害的问题。无论是 GPT-4 还是 Anthropic 开发的 Claude 模型,或者是开源的 Llama2、Mistral 模型,都无法抵抗这种攻击。
0
暂无图片 1
413
分享

评论

热门数说