劳动报-AI技术与安全如何权衡?上海人工智能实验室首席科学家:45°平衡率

发布时间:2024-09-03

Image

人工智能技术的快速发展正在深刻改变我们的生活和工作方式,但随之而来的安全风险也不容忽视。上海人工智能实验室主任、首席科学家周伯文在2024世界人工智能大会上提出,当前AI技术能力提升与安全标识、安全赋能与评估测量之间存在严重失衡,需要探索一种名为“AI45度平衡率”的技术体系。

周伯文指出,目前AI技术能力提升呈现指数级增长,而安全标识、安全赋能与评估测量却呈现离散化、碎片化且后置的特性。这种失衡导致AI模型安全的提升远远落后于性能,投入上的巨大差异使得只有1%的AI发展考虑到了对齐或安全优先。因此,我们需要追求一种既能保证AI能力长期发展,又能确保安全可控的技术体系。

“AI45度平衡率”是指长期来看,AI技术应沿着45度的安全与性能平衡线发展。这意味着短期内可以有波动,但不能长期低于或高于45度,以避免阻碍技术和产业的健康发展。实现这一目标需要强技术驱动、全流程优化、多主体参与和敏捷治理。

上海正在探索一条以因果为核心的路径,将其命名为“可信AGI‘因果之梯’”。这一路径分为泛对齐、可干预、能反思三个递进阶段。泛对齐阶段主要包含当前最前沿的人类偏好对齐技术,但需要注意的是,这些安全对齐技术目前仅依赖于相关性,而不是真正的因果关系。可干预阶段则包含AI系统的动态干预,探究其因果安全技术,如人在回路、机器可解释性和对抗演练。能反思阶段要求AI系统不仅追求高效执行任务,还能审视自身行为的外在影响和潜在风险,确保性能同时保证安全和道德边界不被突破。

然而,实现“AI45度平衡率”面临诸多挑战。普华永道的研究显示,生成式AI可能带来网络攻击威胁加剧、企业敏感数据泄露、生成式AI投毒风险、隐私保护问题和安全合规风险等五大安全挑战。例如,黑客可以利用生成式AI快速整合各种网络攻击方式,便捷地将攻击方式“武器化”。再如,企业员工不当的输入行为可能导致敏感数据留存在生成式AI产品的数据库中。

面对这些挑战,企业需要采取综合的安全措施,包括增强数据泄露保护技术,对员工的上网行为进行限制,同时对员工进行安全培训,提高数据安全和保密警惕性。此外,企业还应评估当前的网络安全状态,明确是否具备足够的安全检测和防御能力来应对生成式AI带来的攻击。

周伯文强调,AI安全性是全球性公共福祉,需要国际社会共同努力和合作。我们应该与全球伙伴携手推进“AI45度发展”,共享AI安全技术,加强全球AI安全人才的交流与合作,平衡AI安全与能力的投入,共同构建开放、安全的通用人工智能创新生态和人才发展环境。

“AI45度平衡率”的提出为AI技术的健康发展指明了方向。它不仅关乎技术本身,更关乎人类社会的未来。企业和个人都应该认识到,在享受AI带来便利的同时,也要警惕潜在的风险,积极参与到AI技术的负责任发展中来。只有这样,我们才能真正实现AI技术的卓越与安全的完美融合,推动人工智能造福人类社会。