Tech

Meta 暂停在欧洲用户数据上训练 AI 的计划，屈服于监管压力

Thursday, August 29 2024

Meta 已经确认将暂停计划，开始使用欧盟和英国用户的数据来训练其 AI 系统。

此举是为了应对爱尔兰数据保护委员会（DPC）的反对意见，DPC 是 Meta 在欧盟的主要监管机构，代表多个数据保护机构。英国信息委员会（ICO）也要求 Meta 暂停计划，直到能够解决其提出的担忧。

“DPC 欢迎 Meta 暂停其计划，在欧盟/欧洲经济区的 Facebook 和 Instagram 上共享的成年人公共内容对其大型语言模型进行训练，”DPC 在周五的一份声明中表示。“这个决定是在 DPC 与 Meta 之间进行了密切接触后做出的。在与其其他欧盟数据保护机构合作的过程中，DPC 将继续与 Meta 探讨这个问题。”

虽然 Meta 已经开始利用用户生成的内容来训练其在美国等市场的 AI，但欧洲严格的 GDPR 法规为 Meta（和其他公司）寻求改进其 AI 系统，包括使用用户生成的训练材料的大型语言模型，带来了障碍。

然而，上个月 Meta 开始通知用户其隐私政策的即将更改，其中指出将有权利使用 Facebook 和 Instagram 上的公共内容来训练其 AI，包括评论、与公司的互动、状态更新、照片及其相关标题。公司辩称需要这样做是为了反映“欧洲人的各种语言、地理和文化参考。”

这些变化原计划于 6 月 26 日生效，即 12 天后。但这些计划激发了非营利的隐私活动组织 NOYB（“none of your business”）向欧盟成员国提出了 11 项投诉，声称 Meta 违反了 GDPR 的各个方面。其中之一涉及关于选择加入还是退出的问题，即在个人数据处理确实发生时，用户应首先被要求征得他们的许可而不是要求他们拒绝采取行动。

为了证明其行为符合法规，Meta 正依赖于 GDPR 的一个名为“合法利益”的规定。这并不是 Meta 第一次以此法律依据为辩护，此前为了为欧洲用户的定向广告处理曾这样做。

总的来说，监管机构很可能会至少暂停 Meta 计划的改动，尤其是考虑到该公司让用户“选择退出”他们的数据使用变得多么困难。该公司表示，已发送了超过 20 亿通知，告知用户即将发生的变化，但不像其他重要的公共消息会被置于用户的头条消息中，例如去投票的提示，这些通知出现在用户的标准通知，例如朋友的生日、照片标记提醒、群组公告等旁边。因此，如果某人不经常查看他们的通知，很容易错过这个。

而那些看到通知的人并不会自动知道有一种方式可以提出反对意见或选择退出，因为它只是邀请用户点击查看 Meta 如何使用其信息。没有任何迹象表明这里有一个选择。

此外，用户在技术上无法“选择退出”他们的数据使用。相反，他们必须填写一个反对表格，在那里提出他们为什么不希望他们的数据被处理的理由 — 是否尊重这个请求完全取决于 Meta，尽管该公司表示将尊重每一个请求。

尽管反对表单是从通知中链接过去的，但那些主动寻找在其账户设置中的反对表单的人确实费了不少功夫。

在 Facebook 的网站上，他们必须首先点击右上角的个人资料照片；点击“设置和隐私”; 点击“隐私中心”; 向下滚动并点击“Meta 的生成 AI”部分; 再次向下滚动，经过一堆链接到一个名为“更多资源”的部分，第一个链接称为“Meta 如何使用信息进行生成 AI 模型”，他们需要阅读大约 1,100 个单词后才能找到公司的“提出反对意见”的表格的离散链接。在 Facebook 移动应用程序中也是类似的情况。

在本周早些时候，当被问及为什么这个过程需要用户提交反对意见表而不是选择加入时，Meta 的政策沟通经理 Matt Pollard 把 TechCrunch 引向了其现有的博客文章，其中写道：“我们相信这种法律依据（‘合法利益’）是在保持人们的权利的同时进行大规模处理公共数据以训练 AI 模型的最适当平衡。”

换句话说，让其选择加入可能不会产生足够的“规模”，即愿意提供其数据的人数。因此，绕过这个最佳方式是在用户的其他通知中发送一条孤立的通知; 对于那些独立寻找“选择退出”的人，“隐藏”反对表单在半打点击之后; 然后让他们理由他们的反对，而不是给他们直接的选择退出。

在周五的更新博客文章中，Meta 的全球隐私政策全球合作总监 Stefano Fratta 表示对来自 DPC 的请求感到“失望”。

“这对欧洲的创新、AI 开发的竞争和向欧洲人民提供 AI 拓展的好处产生了一次倒退，”Fratta 写道。“我们仍然对我们的方法遵守欧洲法律和法规保持高度的信心。AI 训练并不是我们服务的独特之处，而且我们比许多同行公司更透明。”

AI 军备竞赛

这一切并不新鲜，Meta 正处于一场 AI 军备竞赛中，这引发了人们对大科技公司持有我们所有信息的庞大数据库的关注。

今年早些时候，Reddit 透露，它已经签约将来的几年中从授权其数据给像 ChatGPT 制造商 OpenAI 和谷歌等公司中获得超过 2 亿美元。后者已经因依赖版权新闻内容来训练其生成 AI 模型而面临巨额罚款。

但这些努力也突显了公司为确保能在现有立法框架内利用这些数据而采取的措施; “加入”很少出现在议程上，而选择退出的过程往往是不必要的艰难的。就在上个月，有人发现 Slack 现有隐私政策中的一些可疑措辞，表明它将能够利用用户数据来训练其 AI 系统，用户只能通过向公司发送电子邮件来选择退出。

去年，Google 最终让在线发布商有了一种方式可以选择不让其网站用于训练其模型，他们可以向其网站注入一段代码。至于 OpenAI，它正在建立一个专门的工具，让内容创作者能够选择不让其生成 AI 智能进行训练; 这个工具应该在 2025 年前准备就绪。

虽然 Meta 暂时搁置在欧洲用户的公共内容上训练其 AI 的计划，但在与 DPC 和 ICO 协商后，很可能会以另一种形式再次出现 — 希望在这之后有不同的用户权限流程。

“为了更好地利用生成 AI 的潜力和带来的机遇，公众能够信任他们的隐私权利将从一开始就得到尊重是至关重要的，”ICO 的监管风险执行董事 Stephen Almond 在周五的一份声明中表示。“我们将继续监控主要生成 AI 发展者，包括 Meta，审核他们制定的保障措施，确保英国用户的信息权利得到保护。”

國際縱覽54 Year ago