故意破解人工智能:研究人员如何帮助使人工智能更安全

News Ufl Edu
研究人员开发了头掩码零空间转向(HMNS)技术,旨在故意破坏人工智能模型以增强其内部安全防御。

内容摘要

佛罗里达大学CISE系的Sumit Kumar Jha教授及其团队正在通过故意发现和利用漏洞来加强人工智能安全性,这一过程被称为“故意破解人工智能”。他们的研究发表在论文《Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion》中,重点是探测大型语言模型(LLM)的内部决策路径,而不是仅仅依赖外部提示操纵。他们开发了一种名为头掩码零空间转向(HMNS)的方法,该方法可以识别LLM响应过程中活跃的组件(“头”),使其静默,并轻微调整其他组件以观察输出变化。这种内部压力测试应用于Meta和Microsoft的系统,在成功率和计算效率方面均优于行业基准的最先进方法。研究人员强调,这项工作无意于助长滥用,而是为了揭示故障模式,以便开发人员能够构建更强大的防御措施,这对于AI在医院和银行等关键基础设施中的广泛部署至关重要。

(来源:News Ufl Edu)