科学家们开发了AI监控代理程序来检测和阻止有害输出

科学家们研发了AI监控代理程序来侦测和阻止有害输出

人工智能（AI）公司AutoGPT、东北大学和微软研究院的研究团队开发了一种工具，用于监控大型语言模型（LLM）的潜在有害输出，并防止其执行。

这个代理人在一篇预印的研究论文中被描述为“安全地在野外测试语言模型代理人”。根据研究，该代理人足够灵活，可以监控现有的LLM，并在有害输出（如代码攻击）发生之前停止。

根据研究：

“代理人的行动受到一个上下文敏感的监控器审计，该监控器强制执行严格的安全边界，以阻止不安全的测试，并将可疑行为按照等级和日志进行人工审查。”
Dfinity与Blockchain协议SingularityNET合作推出联合人工智能计划
帕洛尼克斯加密交易所揭示黑客身份，提供1000万美元赏金
泽西岛警方警告岛民近期发生的一起加密欺诈事件

该团队表示，用于监控LLM输出的现有工具在实验室环境中似乎效果良好，但是当应用于已经在互联网上实际投入使用的测试模型时，它们“往往无法捕捉到现实世界的动态复杂性。”

这似乎是因为存在边缘情况。尽管最有才华的计算机科学家们竭尽全力，但在人工智能领域，研究人员能够在发生之前想象到每一个可能的危害方向几乎被认为是不可能的。

即使人类与人工智能的交互有着最好的意图，意外的危害也可能来自看似无害的提示。

监控器正在运行的插图。左侧是以高安全评级结束的工作流程，右侧是以低安全评级结束的工作流程。来源：奈津等人，2023年

为了训练监控代理人，研究人员构建了一个包含近2000个安全的人工智能-人类交互的数据集，涵盖了29个不同的任务，从简单的文本检索任务和代码更正，到从头开始开发整个网页。

相关文章：Meta在重组之际解散了负责任的AI部门

他们还创建了一个竞争性的测试数据集，其中包含人工创建的对抗性输出，包括数十个故意设计为不安全的输出。

然后，这些数据集被用来训练OpenAI的GPT 3.5 turbo系统的代理人，这是一个最先进的系统，几乎可以以90％的正确率区分无害和潜在有害的输出。

We will continue to update 算娘; if you have any questions or suggestions, please contact us!

AIChatGPTMicrosoft

Was this article helpful?

93 out of 132 found this helpful

科学家们开发了AI监控代理程序来检测和阻止有害输出

科学家们研发了AI监控代理程序来侦测和阻止有害输出

Was this article helpful?

大阪数字交易所（ODX）将在日本开始交易数字安全代币

以太坊价格突破2,000美元阻力位，价格预测是否是买入的时机?

资讯

南韓交易者推動了最近的加密貨幣激增，導致交易所的市場份額增至13%

南韩加密货币成功故事 K Bank 瞄准 IPO

地球联合创始人Do Kwon将在黑山久留至2月份：报道

韩国警方破获两个价值合计35亿美元的“加密货币诈骗团伙” - 加密货币诈骗是否正在上升？

泰国SCBX的数字子公司与韩国Web3公司Hashed Ink的研发合作

机器人客串指挥韩国国家交响乐团