科学家们开发了AI监控代理程序来检测和阻止有害输出

科学家们研发了AI监控代理程序来侦测和阻止有害输出

人工智能(AI)公司AutoGPT、东北大学和微软研究院的研究团队开发了一种工具,用于监控大型语言模型(LLM)的潜在有害输出,并防止其执行。

这个代理人在一篇预印的研究论文中被描述为“安全地在野外测试语言模型代理人”。根据研究,该代理人足够灵活,可以监控现有的LLM,并在有害输出(如代码攻击)发生之前停止。

根据研究:

“代理人的行动受到一个上下文敏感的监控器审计,该监控器强制执行严格的安全边界,以阻止不安全的测试,并将可疑行为按照等级和日志进行人工审查。”

该团队表示,用于监控LLM输出的现有工具在实验室环境中似乎效果良好,但是当应用于已经在互联网上实际投入使用的测试模型时,它们“往往无法捕捉到现实世界的动态复杂性。”

这似乎是因为存在边缘情况。尽管最有才华的计算机科学家们竭尽全力,但在人工智能领域,研究人员能够在发生之前想象到每一个可能的危害方向几乎被认为是不可能的。

即使人类与人工智能的交互有着最好的意图,意外的危害也可能来自看似无害的提示。

监控器正在运行的插图。左侧是以高安全评级结束的工作流程,右侧是以低安全评级结束的工作流程。来源:奈津等人,2023年

为了训练监控代理人,研究人员构建了一个包含近2000个安全的人工智能-人类交互的数据集,涵盖了29个不同的任务,从简单的文本检索任务和代码更正,到从头开始开发整个网页。

相关文章:Meta在重组之际解散了负责任的AI部门

他们还创建了一个竞争性的测试数据集,其中包含人工创建的对抗性输出,包括数十个故意设计为不安全的输出。

然后,这些数据集被用来训练OpenAI的GPT 3.5 turbo系统的代理人,这是一个最先进的系统,几乎可以以90%的正确率区分无害和潜在有害的输出。

We will continue to update 算娘; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

市场行情

南韓交易者推動了最近的加密貨幣激增,導致交易所的市場份額增至13%

亚洲的交易商,尤其是在韩国,成为过去两个月来加密市场最近涨势的关键推动力

资讯

南韩加密货币成功故事 K Bank 瞄准 IPO

韩国成功的新型银行K银行以其创新的加密业务而闻名,宣布了首次公开募股(IPO)计划,进一步巩固其在银行业的领先地位,为社...

政策

地球联合创始人Do Kwon将在黑山久留至2月份:报道

美国和韩国都要求黑山将Do Kwon引渡回国,面对与Terra崩溃有关的指控

区块链

韩国警方破获两个价值合计35亿美元的“加密货币诈骗团伙” - 加密货币诈骗是否正在上升?

韩国警方已经关闭了两个涉嫌加密货币诈骗的网站,涉案金额合计35亿美元,据信已有数百名受害者被骗。

区块链

泰国SCBX的数字子公司与韩国Web3公司Hashed Ink的研发合作

这次合作是在SCBX的母公司的竞争对手KBank宣布一亿美元的Web3基金几周后达成的

区块链

机器人客串指挥韩国国家交响乐团

该机器人是通过使用“动作捕捉”技术进行训练的,该技术使用传感器附件来数字记录指挥者的指挥棒轨迹