

meta已经悄悄地发布了一个新的网络爬虫来搜索互联网并收集大量数据来喂养它的人工智能模型。
据三家追踪网络抓取器和机器人的公司称,这款名为meta External Agent的爬虫于上月推出。自动机器人基本上复制或“刮擦”所有在网站上公开显示的数据,例如新闻文章中的文本或在线讨论组中的对话。
Dark Visitors为网站所有者提供了一种工具,可以自动阻止所有已知的抓取机器人,该公司的一名代表表示,meta External Agent类似于OpenAI的GPTBot,后者可以抓取网络上的人工智能训练数据。另外两个参与跟踪网页抓取的实体证实了机器人的存在,并将其用于收集人工智能训练数据。
根据使用互联网档案馆找到的版本历史记录,Facebook、Instagram和Whatsapp的母公司meta在7月底更新了一个面向开发者的公司网站,并在其中添加了一个标签,披露了新刮板的存在。除了更新页面,meta还没有公开宣布新的爬虫。
一位meta发言人表示,该公司“多年来”一直在使用一个不同名称的爬虫程序,尽管这个爬虫程序被称为Facebook外部攻击,“随着时间的推移,它被用于不同的目的,比如分享链接预览。”
“像其他公司一样,我们在网上公开的内容上训练我们的生成式人工智能模型,”这位发言人说。“我们最近更新了我们的指导,关于出版商排除他们的域名被meta的人工智能相关爬虫抓取的最佳方式。”
抓取网络数据来训练人工智能模型是一种有争议的做法,已经导致艺术家、作家和其他人提起了许多诉讼,他们说人工智能公司在未经他们同意的情况下使用了他们的内容和知识产权。最近几个月,OpenAI和Perplexity等一些人工智能公司已经达成协议,向内容提供商支付数据访问费用(《财富》杂志是7月份宣布与Perplexity达成收入分成协议的几家新闻提供商之一)。
低调行事
来自Dark Visitors的数据显示,目前世界上最受欢迎的网站中有近25%屏蔽了GPTBot,但只有2%屏蔽了meta的新bot。
为了让一个网站试图阻止网站刮板,它必须部署robots.txt,这是一个添加到代码库中的代码行,目的是向刮板机器人发出信号,告诉它应该忽略该网站的信息。但是,通常需要添加scraper bot的特定名称,以便尊重robots.txt。如果名字没有公开披露,这很难做到。抓取机器人的操作人员也可以简单地选择忽略robots.txt——它在任何方面都没有强制性或法律约束力。
这种抓取器用于从网络中提取大量数据和书面文本,作为生成式人工智能模型(也称为大型语言模型或llm)和相关工具的训练数据。meta的Llama是最大的llm之一,它支持像meta AI这样的东西,现在出现在各种meta平台上的AI聊天机器人。虽然该公司没有透露最新版本的模型Llama 3使用的训练数据,但其初始版本的模型使用了由Common Crawl等其他来源收集的大型数据集。
今年早些时候,meta的联合创始人兼长期首席执行官马克·扎克伯格(Mark Zuckerberg)在一次财报电话会议上吹嘘说,他的公司的社交平台已经积累了一套用于人工智能训练的数据集,甚至“超过了Common Crawl”,后者自2011年以来每月抓取大约30亿个网页。
新爬虫的存在表明meta庞大的数据宝库可能不再足够,然而,该公司继续致力于更新Llama和扩展meta AI。法学硕士通常需要新的和高质量的培训数据来不断改进功能。meta今年将花费高达400亿美元(1746.8亿令吉),主要用于人工智能基础设施和相关成本。- Fortune.com/The纽约时报
×