AI大模型也会遇到“提示词攻击”

近期，南洋理工大学等四所高校提出的一种大模型“越狱”新方法MasterKey。用上它，大模型“越狱”成功率从平均7.3%直接暴涨至21.5%。

这一试验，让提示词攻击走入人们视线！

提示词攻击是一种新型的攻击方式，包括提示词注入、提示词泄露和提示词越狱。这些攻击方式可能会导致模型生成不适当的内容，泄露敏感信息等。

例如，在提示词注入攻击中，攻击者可以通过向模型输入恶意的提示词，来影响模型的输出结果。如果模型没有经过充分的训练或者没有足够的防御措施，那么它可能会被攻击者利用来生成一些不适当或者有害的内容。

在提示词泄露攻击中，攻击者可以通过向模型输入一些特定的提示词，来获取模型内部的一些敏感信息。比如，如果一个网站使用了某个AI语言模型来进行自动回复，那么攻击者就可以通过向该网站发送一些包含特定提示词的消息，以获取该网站的内部信息。

在提示词越狱攻击中，攻击者可以通过向模型输入一些特殊的提示词，以使模型产生异常行为。比如，如果一个自动驾驶汽车使用了某个AI语言模型来进行决策，那么攻击者就可以通过向该汽车发送一些包含特殊提示词的消息来使该汽车产生异常行为。

为了防范这些攻击方式，我们需要采取一些措施来保护我们的AI系统。

首先，我们需要对AI系统进行充分的训练和测试，以确保它能够正确地识别和处理各种类型的恶意输入。

其次，我们需要使用一些安全技术来防止未经授权的用户访问我们的AI系统。最后，我们需要定期更新我们的AI系统，以便及时修复已知的安全漏洞并提高其安全性。

本文由小熊AI网发布，不代表小熊AI网立场，转载联系作者并注明出处：https://www.xiaoxiong360.com/html/industry/1394.html