Reddit怒告AI公司Perplexity等企业:非法爬取用户评论达“工业级规模”!

综合作者 / 花爷 / 2026-01-15 17:55
"
    【编者按】在人工智能狂飙突进的当下,数据争夺战已进入白热化阶段。当科技巨头们争相用人类对话训练AI模型时,谁拥有网

  Reddit怒告AI公司Perplexity等企业:非法爬取用户评论达“工业级规模”!  第1张

  【编者按】在人工智能狂飙突进的当下,数据争夺战已进入白热化阶段。当科技巨头们争相用人类对话训练AI模型时,谁拥有网络言论的真正所有权?这场诉讼揭开了AI产业光鲜外表下的暗流涌动——创业公司为获取训练数据不惜突破法律边界,内容平台则誓死捍卫数字领土。这不仅关乎商业利益,更触及互联网公共性的本质:当我们在社交媒体畅所欲言时,我们的思想结晶究竟属于谁?这场诉讼或将重新定义数字时代的产权边界,也为所有内容创作者敲响警钟。

  社交媒体平台Reddit于周三正式起诉人工智能公司Perplexity AI及其他三家实体,指控其参与"工业级规模、非法的"商业行为,通过"爬取"数百万Reddit用户评论牟取商业利益。

  Reddit向纽约联邦法院提交的诉状直指总部位于旧金山的Perplexity,这家开发AI聊天机器人和"答案引擎"的初创公司,正与谷歌、ChatGPT等巨头在在线搜索领域展开激烈角逐。

  同时被列为被告的还包括:立陶宛数据爬取公司Oxylabs UAB、被Reddit描述为"前俄罗斯僵尸网络"的网站域名AWMProxy,以及在其官网上将Perplexity列为客户的德州初创企业SerpApi。

  这是Reddit自六月起诉另一家人工智能巨头Anthropic后,发起的第二起类似诉讼。

  但周三的诉讼与众不同之处在于,它不仅针对AI公司,更剑指AI产业赖以获取训练数据的隐秘产业链。

  "数据窃贼绕过技术防护盗取数据,再将其出售给渴求训练材料的客户。Reddit之所以成为主要目标,是因为这里汇聚了人类有史以来最庞大、最活跃的对话宝库。"Reddit首席法务官本·李在周三的声明中掷地有声。

  诉状指控这些公司构成不正当竞争和不当得利,并指控部分企业违反美国版权法。

  Perplexity回应称尚未收到诉状,但"将始终为用户自由公平获取公共知识的权利而战。我们坚持原则性与负责任的态度,通过精准AI提供真实答案,绝不会容忍任何对开放性和公共利益的威胁。"

  SerpApi客户成功总监瑞安·谢弗通过邮件强硬表态:"我们坚决反对Reddit的指控,将在法庭上全力捍卫自身权益。"

  Oxylabs发布声明称感到"震惊与失望",并"将毫不犹豫地对这些指控进行抗辩"。

  该公司治理与战略官德纳斯·格里鲍斯卡斯直言:"Oxylabs的立场是,任何公司都不应声称对不属于他们的公共数据拥有所有权。这很可能只是想以虚高价格重复出售相同公共数据的企图。"

  AWMProxy则始终未能取得联系置评。

  尽管爬取公开网络数据是企业和研究机构的常见做法,但Reddit将被告公司比作"抢银行未遂的劫匪"——既然无法突破银行金库,就转而袭击运钞车。诉状指控被告不仅规避Reddit的反爬取措施,更"绕过谷歌管控,直接从谷歌搜索结果中抓取Reddit内容"。

  本·李揭露:"由于无法直接爬取Reddit,他们便伪装身份、隐藏位置、掩饰网络爬虫,从谷歌搜索中窃取Reddit内容。Perplexity至少与其中一家数据窃贼保持合作,宁愿购买盗取的数据也不愿与Reddit达成合法协议。"

  在起诉Anthropic的案件中,Reddit曾提出类似主张,指控对方无视停止使用其内容的请求。该案最初在加州高等法院审理,现已移交联邦法院并定于明年一月开庭。

  与数字化图书和新闻文章一样,维基百科和Reddit等网站堪称文字材料的深海宝藏,为AI助手学习人类语言模式提供丰富养料。

  Reddit此前已与谷歌、OpenAI等公司达成授权协议,这些企业通过付费获取Reddit每日超1亿用户的公开评论来训练其AI系统。

  这些授权协议为这家成立20年的网络平台注入了强劲动力,助其在去年登陆华尔街完成IPO时赢得资本市场青睐。

  马特·奥布莱恩

  奥布莱恩为美联社报道科技与人工智能商业动态。

  本文由 @海螺主编 发布在 海螺号,如有疑问,请联系我们。

  文章链接:http://www.ghuyo.com/pp/5714.html

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读