

【编者按】在人工智能狂飙突进的当下,数据争夺战已进入白热化阶段。当科技巨头们争相用人类对话训练AI模型时,谁拥有网络言论的真正所有权?这场诉讼揭开了AI产业光鲜外表下的暗流涌动——创业公司为获取训练数据不惜突破法律边界,内容平台则誓死捍卫数字领土。这不仅关乎商业利益,更触及互联网公共性的本质:当我们在社交媒体畅所欲言时,我们的思想结晶究竟属于谁?这场诉讼或将重新定义数字时代的产权边界,也为所有内容创作者敲响警钟。
社交媒体平台Reddit于周三正式起诉人工智能公司Perplexity AI及其他三家实体,指控其参与"工业级规模、非法的"商业行为,通过"爬取"数百万Reddit用户评论牟取商业利益。
Reddit向纽约联邦法院提交的诉状直指总部位于旧金山的Perplexity,这家开发AI聊天机器人和"答案引擎"的初创公司,正与谷歌、ChatGPT等巨头在在线搜索领域展开激烈角逐。
同时被列为被告的还包括:立陶宛数据爬取公司Oxylabs UAB、被Reddit描述为"前俄罗斯僵尸网络"的网站域名AWMProxy,以及在其官网上将Perplexity列为客户的德州初创企业SerpApi。
这是Reddit自六月起诉另一家人工智能巨头Anthropic后,发起的第二起类似诉讼。
但周三的诉讼与众不同之处在于,它不仅针对AI公司,更剑指AI产业赖以获取训练数据的隐秘产业链。
"数据窃贼绕过技术防护盗取数据,再将其出售给渴求训练材料的客户。Reddit之所以成为主要目标,是因为这里汇聚了人类有史以来最庞大、最活跃的对话宝库。"Reddit首席法务官本·李在周三的声明中掷地有声。
诉状指控这些公司构成不正当竞争和不当得利,并指控部分企业违反美国版权法。
Perplexity回应称尚未收到诉状,但"将始终为用户自由公平获取公共知识的权利而战。我们坚持原则性与负责任的态度,通过精准AI提供真实答案,绝不会容忍任何对开放性和公共利益的威胁。"
SerpApi客户成功总监瑞安·谢弗通过邮件强硬表态:"我们坚决反对Reddit的指控,将在法庭上全力捍卫自身权益。"
Oxylabs发布声明称感到"震惊与失望",并"将毫不犹豫地对这些指控进行抗辩"。
该公司治理与战略官德纳斯·格里鲍斯卡斯直言:"Oxylabs的立场是,任何公司都不应声称对不属于他们的公共数据拥有所有权。这很可能只是想以虚高价格重复出售相同公共数据的企图。"
AWMProxy则始终未能取得联系置评。
尽管爬取公开网络数据是企业和研究机构的常见做法,但Reddit将被告公司比作"抢银行未遂的劫匪"——既然无法突破银行金库,就转而袭击运钞车。诉状指控被告不仅规避Reddit的反爬取措施,更"绕过谷歌管控,直接从谷歌搜索结果中抓取Reddit内容"。
本·李揭露:"由于无法直接爬取Reddit,他们便伪装身份、隐藏位置、掩饰网络爬虫,从谷歌搜索中窃取Reddit内容。Perplexity至少与其中一家数据窃贼保持合作,宁愿购买盗取的数据也不愿与Reddit达成合法协议。"
在起诉Anthropic的案件中,Reddit曾提出类似主张,指控对方无视停止使用其内容的请求。该案最初在加州高等法院审理,现已移交联邦法院并定于明年一月开庭。
与数字化图书和新闻文章一样,维基百科和Reddit等网站堪称文字材料的深海宝藏,为AI助手学习人类语言模式提供丰富养料。
Reddit此前已与谷歌、OpenAI等公司达成授权协议,这些企业通过付费获取Reddit每日超1亿用户的公开评论来训练其AI系统。
这些授权协议为这家成立20年的网络平台注入了强劲动力,助其在去年登陆华尔街完成IPO时赢得资本市场青睐。
马特·奥布莱恩
奥布莱恩为美联社报道科技与人工智能商业动态。
本文由 @海螺主编 发布在 海螺号,如有疑问,请联系我们。
文章链接:http://www.ghuyo.com/pp/5714.html