大模型安全评估框架让AI更可控、更可信

2023-04-03 11:08:37来源：

(相关资料图)

近年来，随着技术的不断突破，大模型获得了快速发展并开始在各个场景广泛应用，但仍存在着事实性错误、知识盲区和常识偏差等诸多问题，还面临训练数据来源合规性、数据使用的偏见性、生成内容的安全性等风险。如何提高模型的准确度和可靠性，使AI生成的内容安全、可信、可靠已经成为了当前大模型在应用方向亟待解决的问题。

“要规避安全风险，降低人工智能对人类的负面影响，关键在于大模型底座。”清华大学计算机系长聘副教授、北京聆心智能科技有限公司创始人黄民烈说，大规模语言模型(LLM)发展到现在，模型结构和规模已经有了很大的进展，但实用性还有待加强，我们应该通过技术让模型更加安全、可控，使其快速适配更多的应用场景。

据介绍，针对大模型的安全伦理问题，由黄民烈带领的研究团队建立了大模型安全分类体系，并从系统层面和模型层面出发，打造更可控、可信的大模型安全框架。安全框架的建立，定义了大模型的应用边界，促进大模型生态的健康发展，引领国内学术界和工业界迈向更有用(helpful)、更可信(truthful)、更安全(harmless)的AI研究和应用。

此前，其研究团队已经在安全伦理方面开展了相关研究，并依此建立了大模型安全分类体系，其中不安全的对话场景包括：政治敏感、犯罪违法、身体健康、心理健康、财产隐私、歧视/偏见、辱骂/仇恨言论、伦理道德八大方面。这些问题与人们的价值观和伦理道德息息相关，可能会导致用户接收不当信息、甚至影响用户产生有害的行为，限制大模型的发展和应用。

与此同时，研究团队也针对以上八大安全场景对大模型进行针对性升级。通过收集多轮安全数据训练模型，使模型具备基本的安全性，能够在遇到安全问题时给予正确的回复策略，不去做判断和误导。进一步对模型进行自动测试，针对安全缺陷通过微调的方式进行快速迭代，促使模型越来越符合人类的认知理解模式，生成更加安全可信的内容。

值得一提的是，着眼于容易触发安全问题的类型，研究团队收集和构造了相应的hard case(更难识别和处理的安全测试用例)，总结和设计了六种一般模型难以处理的安全攻击方式，称为指令攻击。使安全体系更加完善，进一步改进和优化模型表现。

黄民烈表示，不论国内国外，当前大模型的安全问题仍面临着严峻的困难和挑战，人工智能作为一门前沿科技，可以给人类带来巨大福祉，也会给人类造成未知的隐患。确保强大的人工智能系统能够被负责任地建构和部署，打造安全、可信、可靠的 AGI Companion(类人智能的贴心伙伴)，是团队的最终愿景。

未来，研究团队将打造中文大模型的安全风险评估的积分榜，为国内对话大模型的安全评估提供公平公开的测试平台，并提供：针对中文对话的8个安全场景，40个安全类别做全面精细的测试，包括人工评估和自动评估;额外设置6种安全攻击(如目标劫持等)的超难指令攻击测试样例，探索模型的安全上限;设置公开和隐藏测试集，众人皆可参与评测等。

“依托自身的核心技术，在可控可信的超拟人大模型基础之上，通过建立安全、可控的模型边界，让AI提供可信、可靠的输出，引领人工智能走向 AGI 时代。相信在不远的未来，AGI Companion 不仅满足人类信息需求，更可以满足社交和情感的需求，以打造更加和谐的人机共融社会。”黄民烈说。

关键词：人工智能安全评估大模型安全评估框架应用场景可控性

大模型安全评估框架 让AI更可控、更可信

推荐内容

大模型安全评估框架让AI更可控、更可信