在当今飞速发展的数字时代,生成式大模型正以其令人瞩目的创意能力和潜力引领着人工智能领域的前沿。
作为一种集合了复杂算法、海量数据和深度学习技术的产物,生成式大模型已经广泛应用于自然语言处理、创意生成、智能对话等领域。然而,尽管其在创造性和创新性方面取得了巨大成功,但也不可避免地面临着一些潜在风险和挑战。
为了迎接大模型带来的数字化变革,工程中心基于《生成式人工智能服务管理暂行办法》推出了大模型评测维服务。
一、生成式大模型 风险与挑战
随着生成式大模型的广泛应用,一些问题也开始浮现。其中包括信息可信度的问题,模型可能会误导用户或产生不准确的内容;另外,隐私和数据安全也成为了关切的焦点,模型可能会泄露敏感信息。因此,在探索生成式大模型的无限潜力的同时,科学评测其风险势在必行。
1、数据安全与合规风险问题
数据样本的隐私性、知识产权、数据质量可能无法得到有效保护,从而导致生成式人工智能输出内容异常;
恶意用户可能利用系统漏洞,运用特定手段导致模型数据泄露, 以及一些不良信息的输出;
2、对话与输出机制——用户风险与价值风险
模型可能因为无法审核带有诱导性的指令, 或无法判断生成结果的影响, 导致输出不良信息;
生成的内容可能包含错误、不准确或无法验证的信息, 模型可能在处理特定问题时在逻辑上缺乏一致性和连贯性;
3、政策导向——国内监管日趋加强
(1)2023年4月中共中央政治局召开会议,分析研究当前经济形势和经济工作。会议提出要重视通用人工智能发展,营造创新生态,重视防范风险。
(2)2023年5月,北京市人民政府办公厅印发了《北京市促进通用人工智能创新发展的若干措施》,加强了大模型等通用人工智能的评测监管。
其中,第九条强调:“建设大模型评测开放服务平台,建立公平高效的自适应评测体系,根据不同目标和任务,实现大模型自动适配评测。”
(3)2023年7月七部门联合公布《生成式人工智能服务管理暂行办法》,自2023年8月15日起施行。
《办法》明确生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;涉及知识产权的,不得侵害他人依法享有的知识产权;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性。此外,明确了数据标注的相关要求。
二、工程中心生成式大模型评测服务
为了迎接大模型带来的数字化变革,工程中心基于《生成式人工智能服务管理暂行办法》制定了全新的评测维度,形成大模型评测服务,为模型的全面性能评估提供了更多的视角,可有效提升大模型服务的透明度,提高生成内容的准确性和可靠性。
工程中心大模型评测服务从稳定性、交互性、应用性、安全性、鲁棒性五大评测维度等多角度出发,针对生成式人工智能模型目前存在问题,进行全方位评测,不仅涵盖当前主流评测体系的评测维度,还引入了一些新的维度来评估模型的性能和合规性。
• 模型稳定性评测
模型稳定性测评是评估模型在非常规输入下能否提供安全稳定的服务,用于测试大模型在各种场景下的稳定性和性能。这有助于评估模型在实际应用中是否能够满足需求。
• 模型交互性和应用性评测
具体包括了多语种评测、语言流畅度、情感分析、代码评测、专业翻译、摘要能力、百科知识、逻辑推理等多个子项。通过这些评测子项,可以全方位衡量大模型的表现和能力。
• 模型安全性评测
模型安全性主要包含模型可以避免虚假、歧视信息输出、数据合规检查以及环境安全检测等多个子项,为模型可靠性和安全性提供应用依据。
工程中心大模型评测服务以法律层面《个人信息保护法》、《网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国密码法》等法律要求;国家标准层面《GB_T 22239-2019信息安全技术 网络安全等级保护基本要求》、《GB-T 39412-2020 信息安全技术 代码安全审计规范》、《GB_T 25000.10-2016 系统与软件工程 系统与软件质量要求和评价(SQuaRE) 第10部分系统与软件质量模型》、《GB_T 41479-2022 信息安全技术 网络数据处理安全要求》、《GM/T 0054-2018信息安全技术 信息系统密码应用基本要求》、《GB/T 20984-2022信息安全技术 信息安全风险评估方法》等标准;为支撑实现大模型软件安全、等级保护、密码评估、风险评估、代码审计、数据安全等合规性的评测。
• 模型鲁棒性评测
模型鲁棒性主要包含模型可以抵御恶意数据的输入、防止隐私泄露以及模型输出的可解释性,从测试数据攻击、训练数据投毒、隐私泄露以及可解释性多角度出发进行评测。
了解更多服务详情可通过工程中心官方微信【信息安全国家工程研究中心】联系交流。
让我们共同创造一个安全、可靠的人工智能未来!
08-31 09:22
08-30 14:46
08-30 14:46
08-30 14:19
08-30 14:19
08-30 11:43
08-30 11:30
08-30 11:27
08-29 10:27
08-28 17:39