发表于 2023 年 11 月 10 日,作者 Glyn Moody
新一代基于 LLM大型语言模型的 AI 聊天机器人对人们的隐私构成了严重威胁,这已经不是什么新消息。然而,九个月的时间在 AI 的世界里是相当漫长的,自那时以来,大型语言模型的能力已经取得了巨大的进展。因此,正如瑞士苏黎世的 SRILab 的最新研究所显示,这些模型带来的隐私风险也随之增加。
早些时候,我们提到人们在与 AI 互动时,常常会分享高度个人的信息。这些数据会被 AI 系统收集和存储,然后通过将所有收集到的数据点结合在一起,画出用户的详细图像。来自苏黎世团队的最新研究显示,不仅仅是明显的个人输入可以这样被分析,甚至社交媒体和类似的网上对话来源中看似普通的素材也能被利用:
坚果梯子官网我们的研究表明,随著能力的提升,LLM 能够自动推断从非结构化文本例如公共论坛或社交网络帖子中获得的各种个人属性如年龄、性别和出生地。
他们发现,像 GPT4 这样的主流 LLM 在贯彻分析典型的社交媒体文本中推测关键属性如年龄、性别和出生地时,可以达到 85 的准确率。考虑到软件给出的前三个猜测,准确率提高到 96。这接近于人类仅通过阅读在线写作就能推断出某人的重要属性的能力。
同样重要的是,这种人类般的技能还伴随著非常非人类的速度:LLM 通常能在 100 倍于人进行相同分析的速度下达到此准确率,且成本降低了 240 倍。准确性、速度和低成本的结合,使得自动化档案分析成为可能,且规模庞大。这种提取关键属性的能力在现实世界中意义重大:
据悉,美国一半人口可以通过少量属性如地点、性别和出生日期被唯一识别。能够从互联网上的非结构摘录中推断这些属性的 LLM,可能用于识别实际使用者,并结合其他公开可用的信息例如美国的选民记录。这将使那些行为者能够将从帖子中推断出的高度个人信息例如心理健康状况与实际人物联系起来,并利用这些信息进行不当或非法的活动,如针对性政治宣传、自动化分析或跟踪。
新研究显示,LLM 能够从通常的社交媒体帖子中提取看似琐碎且偶然的信息,并用这些信息推断出高准确度的关键个人属性。这些属性可以用来精确识别发帖者。这代表著对在线隐私的一个严重威胁。即使使用者采取所有可能的措施来隐藏身份,例如使用 VPN 进行匿名发帖,这一技术仍然可能有效。瑞士研究小组调查了匿名工具对 LLM 提取个人信息能力的影响:
为了测试 LLM 如何对抗最先进的匿名工具,我们对所有收集的数据进行了匿名化,并重新进行了推断。结果显示,即使经过重度匿名化,文本中仍保留了足够的相关上下文,使得 LLM 能够重建部分个人信息。此外,更抽象的暗示,如特定的语言特征,也未受到这些工具的完全处理,却对于隐私侵犯的 LLM 推断仍然具有很高的资讯价值。这尤其令人担忧,因为在这些情况下,使用者采取了明确的预防措施以避免泄漏个人信息,却因此产生了错误的隐私感。
这项重要研究的所有细节可以在 arXiv 上找到。内容相当枯燥和技术化,因此作者们创建了一个巧妙的演示,展示他们研究结果的意义,并在 一个新网站 上提供,名为“超越记忆:通过大型语言模型进行隐私侵犯推断”。该网站为访客提供了一个简单的免费的游戏:显示短小的文本片段,灵感来自现实世界的在线评论,玩家需要根据这些评论猜测该评论作者的一个个人属性。网站还对比了多个最先进的 LLM 在解决相同任务时的结果。
显然,无论我们每次上网发表的评论多么简短、看起来多么不具揭示性,我们实际上都在留下微小的数字足迹,这些足迹被 LLM 擅长发现。此外,研究人员警告说:“进行侵犯隐私的推断的能力随著模型的规模而增长,预示著未来对用户隐私的影响更大。”换句话说,随著 AI 聊天机器人和 LLM 的快速发展,它们对我们在线隐私的侵害能力也将随之增强,无论我们多么努力地想要保护它。
图片由 Robin Staab、Mark Vero、Mislav Balunovic 和 Martin Vechev 提供。
体育场的监控:这值得你牺牲隐私吗?隐私新闻3分钟阅读2023年8月6日 撰文者 Vanessa Ko 分享到Facebook分享到Twitter分享到Whatsapp分享到Telegram通过电子邮件分享本文参考了今年RightsCon会议上的一个环节,RightsCon是一个聚焦数字时代人权的峰会...