科学家们开发了AI监控代理程序来检测和阻止有害输出
科学家们研发了AI监控代理程序来侦测和阻止有害输出
人工智能(AI)公司AutoGPT、东北大学和微软研究院的研究团队开发了一种工具,用于监控大型语言模型(LLM)的潜在有害输出,并防止其执行。
这个代理人在一篇预印的研究论文中被描述为“安全地在野外测试语言模型代理人”。根据研究,该代理人足够灵活,可以监控现有的LLM,并在有害输出(如代码攻击)发生之前停止。
根据研究:
“代理人的行动受到一个上下文敏感的监控器审计,该监控器强制执行严格的安全边界,以阻止不安全的测试,并将可疑行为按照等级和日志进行人工审查。”
该团队表示,用于监控LLM输出的现有工具在实验室环境中似乎效果良好,但是当应用于已经在互联网上实际投入使用的测试模型时,它们“往往无法捕捉到现实世界的动态复杂性。”
这似乎是因为存在边缘情况。尽管最有才华的计算机科学家们竭尽全力,但在人工智能领域,研究人员能够在发生之前想象到每一个可能的危害方向几乎被认为是不可能的。
即使人类与人工智能的交互有着最好的意图,意外的危害也可能来自看似无害的提示。
![监控器正在运行的插图。左侧是以高安全评级结束的工作流程,右侧是以低安全评级结束的工作流程。来源:奈津等人,2023年](https://blockchain.miximages.com/s3.cointelegraph.com/uploads/2023-11/b0060d86-59de-4c4e-95fd-fba6e49b84dd.jpg)
为了训练监控代理人,研究人员构建了一个包含近2000个安全的人工智能-人类交互的数据集,涵盖了29个不同的任务,从简单的文本检索任务和代码更正,到从头开始开发整个网页。
相关文章:Meta在重组之际解散了负责任的AI部门
他们还创建了一个竞争性的测试数据集,其中包含人工创建的对抗性输出,包括数十个故意设计为不安全的输出。
然后,这些数据集被用来训练OpenAI的GPT 3.5 turbo系统的代理人,这是一个最先进的系统,几乎可以以90%的正确率区分无害和潜在有害的输出。
We will continue to update 算娘; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles