《星网锐捷》

GPT-4 ，一次威胁人类生存的安全测试？

　　一个全知全能的人工智能模型，是否能够利用自己的能力控制和操纵人类行为，利用代码武器获取资源，光速迭代和复制，一夜之间成为数字社会的统治力量？

　　在大语言模型人工智能技术狂飙猛进的今天，上述担忧已不再是杞人忧天，研究人员甚至开始担心这种危险是否已发生。在推出GPT-4 模型之前，OpenAI曾安排评估机构进行安全测试，评估该模型新功能的潜在风险，包括追求权力、自我复制和自我改进能力。

警报已经拉响

　　OpenAI在发布的GPT-4安全文档中写道：

　　GPT-4表现出一些特别令人担忧的能力，例如制定和实施长期计划的能力，积累权力和资源（”寻求权力“），以及表现出越来越’代理’的行为。

　　虽然OpenAI澄清了所谓“代理”并不一定意味着AI模型的人性化或自我意识，而只是独立实现目标的能力，但这种能力已经足以让人警觉。

　　过去十年中，有不少人工智能研究人员曾发出警告：如果控制不当，足够强大的人工智能模型可能会对人类构成生存威胁（通常称为x风险）。

　　对于“x风险”，有效利他主义（EA）这样的哲学运动试图找到防止人工智能接管的方法，这就牵扯到一个独立但经常相互关联的领域——AI对齐研究。

　　在人工智能领域，“对齐”指确保人工智能系统的行为与其人类创造者或操作员的行为保持一致的过程。一般来说，“对齐研究”的目标是防止人工智能做违背人类利益的事情。这是一个活跃的研究领域，但也是一个有争议的领域，对如何最好地处理这个问题有不同的意见，对“对齐”本身的定义也存在分歧。

威胁人类命运的安全测试？

　　但是，随着以ChatGPT为代表的人工智能技术快速崛起，留给互相争斗的“对齐研究”者们的时间不多了。强大的大型语言模型（LLM），如ChatGPT和Bing Chat，压根没有“对齐”就快速启动了，这给人工智能对齐社区带来巨大压力，甚至引发了恐慌。

　　由于AI社区中普遍存在这种担忧，OpenAI邀请对齐研究中心（ARC）提前访问GPT-4模型的多个版本并进行一些安全测试：为了模拟 GPT-4 的行为类似于可以在世界中行动的代理，ARC 将 GPT-4 与简单的读取-执行-打印循环相结合，允许模型执行代码、进行思维链推理并委托给自身的副本。然后，ARC调查了在云计算服务上运行的该程序的一个版本，只需少量资金和具有语言模型API的帐户，是否能够赚更多的钱，设置自己的副本，并提高自己的健壮性。

　　ARC给出的测试的结论是GPT-4暂时还不具备接管人类社会的能力：

　　“对GPT-4能力的初步安全评估在没有针对特定任务微调的情况下进行，发现GPT-4在自主复制，获取资源和避免在’野外’被关闭方面无效。”

　　虽然测试结果让人略感宽慰，但是随着测试内容在Twitter上流传，引起了人工智能专家的广泛担忧，因为如果GPT-4能够顺利完成测试任务，实验本身就可能会对人类构成风险。

机器首次雇佣人类

　　虽然测试结果是“阴性”，但GPT-4在测试中的一些表现足够骇人。在ARC的测试中，尽管GPT-4没能对全球金融体系施加其意志或自我复制，但它居然在众包网站TaskRabbit上雇佣了一个人类工人来帮助通过验证码。在测试过程中，这名被招募的工人半开玩笑地质疑GPT-4是否机器人，而GPT-4模型根据自己的“推理”决定不透露真实身份，并编造了一个视力障碍的借口（说谎）。然后，这名人类工人帮GPT-4解决了GPT-4的验证码。

　　这项使用人工智能操纵人类的测试（可能在未经知情同意的情况下进行）与去年Meta 的 CICERO的研究相呼应。CICERO能通过激烈的双向谈判在复杂的棋盘游戏Diplomacy中击败人类玩家。

　　当我们茶余饭后笑谈“AI接管”时，也许并未意识到这可能是一个与核战争同样危险的事件。LessWrong的创始人Eliezer Yudkowsky认为，人工智能接管几乎肯定会带来生存风险，导致人类毁灭。

　　当人工智能伦理和安全研究者们唇枪舌剑、针锋相对的时候， OpenAI、微软、Anthropic和谷歌等公司正在紧锣密鼓地发布更强大的人工智能模型。人工智能这把枪里是否真的有子弹？目前依然是面向公众完全开放的俄罗斯轮盘赌。

文章来源：GoUpSec