劳动报-AI技术与安全如何权衡？上海人工智能实验室首席科学家：45°平衡率

发布时间：2024-09-03

人工智能技术的快速发展正在深刻改变我们的生活和工作方式，但随之而来的安全风险也不容忽视。上海人工智能实验室主任、首席科学家周伯文在2024世界人工智能大会上提出，当前AI技术能力提升与安全标识、安全赋能与评估测量之间存在严重失衡，需要探索一种名为“AI45度平衡率”的技术体系。

周伯文指出，目前AI技术能力提升呈现指数级增长，而安全标识、安全赋能与评估测量却呈现离散化、碎片化且后置的特性。这种失衡导致AI模型安全的提升远远落后于性能，投入上的巨大差异使得只有1%的AI发展考虑到了对齐或安全优先。因此，我们需要追求一种既能保证AI能力长期发展，又能确保安全可控的技术体系。

“AI45度平衡率”是指长期来看，AI技术应沿着45度的安全与性能平衡线发展。这意味着短期内可以有波动，但不能长期低于或高于45度，以避免阻碍技术和产业的健康发展。实现这一目标需要强技术驱动、全流程优化、多主体参与和敏捷治理。

上海正在探索一条以因果为核心的路径，将其命名为“可信AGI‘因果之梯’”。这一路径分为泛对齐、可干预、能反思三个递进阶段。泛对齐阶段主要包含当前最前沿的人类偏好对齐技术，但需要注意的是，这些安全对齐技术目前仅依赖于相关性，而不是真正的因果关系。可干预阶段则包含AI系统的动态干预，探究其因果安全技术，如人在回路、机器可解释性和对抗演练。能反思阶段要求AI系统不仅追求高效执行任务，还能审视自身行为的外在影响和潜在风险，确保性能同时保证安全和道德边界不被突破。

然而，实现“AI45度平衡率”面临诸多挑战。普华永道的研究显示，生成式AI可能带来网络攻击威胁加剧、企业敏感数据泄露、生成式AI投毒风险、隐私保护问题和安全合规风险等五大安全挑战。例如，黑客可以利用生成式AI快速整合各种网络攻击方式，便捷地将攻击方式“武器化”。再如，企业员工不当的输入行为可能导致敏感数据留存在生成式AI产品的数据库中。

面对这些挑战，企业需要采取综合的安全措施，包括增强数据泄露保护技术，对员工的上网行为进行限制，同时对员工进行安全培训，提高数据安全和保密警惕性。此外，企业还应评估当前的网络安全状态，明确是否具备足够的安全检测和防御能力来应对生成式AI带来的攻击。

周伯文强调，AI安全性是全球性公共福祉，需要国际社会共同努力和合作。我们应该与全球伙伴携手推进“AI45度发展”，共享AI安全技术，加强全球AI安全人才的交流与合作，平衡AI安全与能力的投入，共同构建开放、安全的通用人工智能创新生态和人才发展环境。

“AI45度平衡率”的提出为AI技术的健康发展指明了方向。它不仅关乎技术本身，更关乎人类社会的未来。企业和个人都应该认识到，在享受AI带来便利的同时，也要警惕潜在的风险，积极参与到AI技术的负责任发展中来。只有这样，我们才能真正实现AI技术的卓越与安全的完美融合，推动人工智能造福人类社会。