Meta发布了“紫色月神”AI安全套件,以履行白宫的承诺
Meta推出“紫月AI安全套件”,履行白宫承诺
12月7日,Meta发布了一套工具,用于保护和基准测试生成式人工智能模型(AI)。据称为“紫色羊驼”的工具包旨在帮助开发人员安全和可靠地使用生成式AI工具,如Meta的开源模型Llama-2。
Announcing Purple Llama — A new project to help level the playing field for building safe & responsible generative AI experiences.
Purple Llama includes permissively licensed tools, evals & models to enable both research & commercial use.
More details ➡️ https://t.co/k4ezDvhpHp pic.twitter.com/6BGZY36eM2
- 以太坊价格预测:随着ETH超过2300美元,能否在12月31日达到3500美元?
- “现在买BitTorrent是不是太晚了?BTT价格上涨100%,电报的最新加密赌场吸引了大玩家”
- 加密货币交易所One Trading即将推出新的交易单位F.A.S.T
— AI at Meta (@AIatMeta) December 7, 2023
AI紫色团队合作
根据Meta的一篇博文,“紫色”在“紫色羊驼”中的含义指的是“红队合作”和“蓝队合作”的结合。
红队合作是一种范式,开发人员或内部测试人员故意攻击一个AI模型,以查看是否能够产生错误、故障或不良输出和交互。这使开发人员能够创建弹性策略来防御恶意攻击,并防范安全故障。
而蓝队合作则完全相反。在这种情况下,开发人员或测试人员针对红队合作的攻击作出回应,以确定在生产、消费或面向客户的模型中需要采取的缓解策略。
根据Meta的说法:
“我们认为,为了真正应对生成式AI所带来的挑战,我们需要采取攻击(红队)和防御(蓝队)的姿态。紫色团队合作由红队和蓝队责任组成,是一种协作方法,用于评估和减轻潜在风险。”
保护模型
Meta声称这是“全行业第一个针对大型语言模型(LLMs)进行网络安全安全评估的集合”,其中包括:
- 用于量化LLM网络安全风险的指标
- 评估不安全代码建议频率的工具
- 评估LLMs,使生成恶意代码或执行网络攻击变得更困难的工具
其主要思想是将该系统集成到模型流水线中,以减少不良输出和不安全代码,同时限制模型漏洞对网络犯罪分子和不良行为者的有用性。
Meta AI团队写道:“通过这个初步版本,我们的目标是提供一些工具,帮助解决白宫的承诺中所概述的风险。”
相关阅读: 拜登政府发布执行命令,制定新的AI安全标准
We will continue to update 算娘; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles