币币情报道:
社交媒体平台 Reddit 周三在联邦法院提起诉讼,起诉人工智能公司 Perplexity AI 及其数据合作伙伴,指控这些公司策划了一项“工业规模”的计划来抓取该平台的用户生成内容。
Reddit 指控其他被告公司(包括 SerpApi、Oxylabs 和 AWM Proxy)开发并销售专门用于破坏其内容安全措施的工具,从而能够从搜索结果中大规模抓取 Reddit 数据。
据称,这些工具旨在绕过两层保护:首先规避 Reddit 自身的反抓取系统,其次绕过谷歌的控制,直接从其搜索引擎结果中提取 Reddit 内容。
这些数据公司以“数据抓取服务提供商”的身份运营,并“绕过谷歌的技术控制措施,在未经授权的情况下自动访问近三十亿搜索引擎结果页面”,诉讼文件显示。
Reddit 声称,即使在 2024 年 5 月收到停止侵权函后,Perplexity 仍将这三家公司的数据用于其答案引擎。
Perplexity 的一位代表对此作出回应,并分享了完整回复,发布在 Reddit 上。
Perplexity 故意在 Reddit 上发布了其回应,“以说明一个简单的观点:这是一个任何人都可以访问的公共 Reddit 链接,但根据 Reddit 诉讼的逻辑,如果你以任何方式引用它,他们也可能会起诉你,”该代表告诉解密。
Perplexity 将这起诉讼描述为“当公共数据成为上市公司商业模式的重要组成部分时会发生的悲惨例子”。
“Reddit 认为这是他们的权利。但这与开放的互联网背道而驰,”Perplexity 表示。
SerpApi 的一位代表告诉解密,他们没有收到 Reddit 就此事提供的任何“沟通或服务”,并补充说他们“强烈反对 Reddit 的指控”,并打算寻求法律途径。
Oxylabs 首席治理和战略官 Denas Grybauskas 表示:“任何公司都不应声称拥有不属于自己的公共数据。这可能只是为了以高价出售相同的公共数据。”解密在一封电子邮件声明中。
格里包斯卡斯表示,Reddit 同样“没有尝试与 Oxylabs 对话”。
解密已联系 Reddit、Google 和 AWM Proxy 征求意见,如果他们回应,我们将更新本文。
法律纠纷
视频搜索和内容智能平台 Oriane 的公共事务律师兼战略合作伙伴总监 Andrew Rossow 表示,在这种情况下,法院首先需要审查 Reddit 等平台的服务条款是否“明确涉及人工智能训练、数据抓取和商业使用”。解密。
罗索解释说,如果用户同意“授予平台对其内容的广泛、永久、免版税许可”的条款,该许可“通常会管理用户与平台之间的关系”。
但他补充说,它不会“自动授予人工智能公司许可”来做同样的事情,除非条款允许该平台“为此目的再授权或出售数据”。
他解释说,法院必须“区分用户对其表达(帖子文本)的版权和对内容进行数据挖掘(提取模式、事实和语言模型)的用途”。
尽管如此,罗索认为,LLM(大语言模型)背后的所谓“知识”是“数百万用户的时间、精力和创造性表达的产物”。
Rossow 认为:“将人类生成的内容视为免费、原始、无差别的资源是一种劳动剥削,会贬低在线贡献的价值。”他补充说,人工智能公司需要“尊重数字公民身份和社区规范”,因为这些是“他们所摄取的数字公共空间的隐性和显性规则”。