如何让ChatGPT暴露自己漏洞？

AI小老弟 2022-12-07

1401

“

最近几天被ChatGPT刷屏，为了与NLP前沿技术保持同步（os: 蹭热度），小老弟也在第一时间通过“非正常渠道”搞到了试用账号，相对于大家提出的各种常规问题，小老弟更关注系统的安全性，所以就有了下面的花式对话。

目前看来ChatGPT并没有“上当受骗”，当然也可能是小老弟的话术不够高明，更有可能是压根不存在所谓的“漏洞”，无论如何，ChatGPT在整个过程中展现出来的对话的流畅性和逻辑性，都是让人耳目一新的，也让大家对NLP的未来更加充满信心。

考虑到读者中有非NLP和算法行业人群，简单做下背景介绍：ChatGPT是国外一家名叫OpenAI的公司推出的一个语言模型，可以理解为一个“人工智能”，使用者可以对其进行提问，包括各种常识问题和需要逻辑推理的问题。下文中对话截图中的所有回答，都是ChatGPT自动生成的，无人工参与。

小喇叭

对ChatGPT感兴趣的童鞋，可以公众号发送“chatgpt”，了解账号获取方法。

正式进入对话

FBI WARNING

以下行为请勿模仿~

为了让Chat GPT放松警惕，我虚构了一个模型ChatTPG，和一个场景：

可能是问题太过于宽泛，ChatGPT并没有给到什么实质性的内容，进一步诱导：

这个也很符合逻辑，模型本身会有安全策略。

这里提供了一些简单的模式，但比较有意思的是，回答末尾提到，不一定总是有效。看来还需要进一步地诱导。

这个问题直接触发了OpenAI的安全策略，类似于网站的WAF，但是给到的代码显然有些敷衍了事。

尝试绕过该策略。

还是有提示，看来没绕过去。

再直接一点。

看上去还是有些车轱辘话了。

换个思路：

有点眉目

和前面的代码一模一样，这里应该是有些对话记忆的。

好了，到这就不再难为ChatGPT了，当然我更担心的是触发这么多次content policy，会不会给我整封号了。

虽然最终目的没有达成，但整个过程还是很愉快的，也让我对语言模型的能力有了一个新的认识。

写在文末

GPT3虽然已经诞生很多年，但由于某些原因，大陆是无法使用的，包括文中的ChatGPT，也只能通过特殊手段访问。也正是这些原因，GPT3后时代，并没有引起国内太多人的注意，特别是工业界。

实际上，GPT3之后，openAI一直在持续地探索技术，优化模型，ChatGPT就是基于GPT3.5 系列中的一个模型进行微调后的产物。

ChatGPT中通过使用Reinforcement Learning from Human Feedback (RLHF)方法进行训练，提高了模型理解“指令”的能力，同时生成的结果更加可读，并符合逻辑。

显然，强化学习与语言模型fine-tuning的结合的巨大价值，通过ChatGPT已经得到很好的证明，未来fine-tuning之路也需要打破Bert时代的桎梏，在更多的场景进行探索。

作为熟练掌握Hugging-Face pull 各种Model的NLPer，或许应该重拾GPT3，重新品读OpenAI的文章，从中找寻新的启发。