苹果驳斥了关于其使用被盗数据训练Apple Intelligence的指控

发布时间：2024-09-18

苹果公司近日陷入了一场关于AI训练数据使用的争议。非营利性新闻工作室ProofNews发布调查报告称，苹果在训练其开源AI模型OpenELM时，使用了名为YouTube Subtitles的数据集，其中包括了超过48000个频道的173536个YouTube视频字幕内容，甚至包含12000多个平台已删除视频的字幕。这一发现引发了人们对苹果AI数据使用伦理的质疑。

面对指控，苹果迅速做出回应。公司通过科技媒体9to5Mac发表声明，强调OpenELM模型仅用于研究目的，并未用于任何商业Apple Intelligence功能。苹果表示，该模型的目的是为研究社区作贡献，推动开源大型语言模型的发展。同时，苹果也澄清了OpenELM与Apple Intelligence之间的界限，指出两者在数据使用和应用场景上存在明显区别。

然而，这并非苹果AI战略面临的唯一争议。在最近的全球开发者大会（WWDC）上，苹果宣布与OpenAI达成合作，将ChatGPT整合到Siri中。这一决定立即引发了特斯拉CEO埃隆·马斯克的强烈批评。马斯克在社交媒体上表示，如果苹果在操作系统中整合OpenAI，他将禁止苹果设备进入自己的公司，称这是“不可接受的安全侵犯”。

苹果似乎早已预料到AI上机可能引发的隐私争议。在发布会上，苹果特别强调了AI数据安全问题，并将其作为Apple Intelligence的一大优势。公司承诺提供“突破性的隐私保护”，并详细介绍了其隐私保护措施。苹果软件工程高级副总裁Craig Federighi解释道，当用户调用AI时，苹果会首先判断需要多少推理能力。如果部署在手机上的大模型足以回答问题，则直接在本地处理；如果需要更强的大模型，才会将数据发送给苹果的私有云。

为了降低数据泄露风险，苹果采用了多项措施。首先，苹果会用临时标识或随机标识符来“匿名”用户身份，与此前的iCloud Private Relay使用同一款IP屏蔽技术。其次，当用户信息需要上传到苹果的私有云服务器时，只会上传与用户需求相关的数据，并且数据使用仅限于满足用户的需求，不会有其他用途。此外，苹果的云服务器没有永久存储能力和保存日志的能力，这意味着当用户收到AI大模型的回应后，苹果无法保留这些数据。

尽管苹果做出了诸多努力，但AI时代的隐私保护仍面临巨大挑战。正如马斯克所担忧的，一旦用户数据进入AI系统，就可能面临泄露风险。三星集团去年就曾发生员工向ChatGPT输入内部源代码和会议记录，导致公司数据泄露的事件。微软推出的“回忆”功能也因可能成为黑客攻击目标而遭到质疑。

苹果的案例凸显了AI时代数据使用面临的伦理困境。科技公司在追求技术创新的同时，如何平衡数据使用与用户隐私保护，成为亟待解决的问题。苹果的做法或许提供了一些思路，如本地化处理、私有云服务、数据最小化等措施，但这些是否足够，仍有待时间检验。

随着AI技术的快速发展，数据使用伦理问题将愈发凸显。苹果的争议案例提醒我们，在享受AI带来便利的同时，也要警惕潜在的风险。科技公司、监管机构和用户都需要共同努力，建立更加安全、透明、负责任的AI生态系统，才能推动AI技术的健康发展。