
人们承诺的人工智能革命需要数据。大量的数据。OpenAI和谷歌已经开始使用YouTube视频来训练他们基于文本的人工智能模型。但YouTube的档案实际上包括什么?
我们马萨诸塞大学阿默斯特分校的数字媒体研究团队收集并分析了YouTube视频的随机样本,以了解更多有关该档案的信息。我们发表了一篇85页的关于这个数据集的论文,并为需要YouTube基本信息的研究人员和记者建立了一个名为TubeStats的网站。
现在,我们正在仔细研究一些更令人惊讶的发现,以更好地理解这些不起眼的视频如何成为强大的人工智能系统的一部分。我们发现,许多YouTube视频是供个人使用或供一小群人观看的,其中很大一部分是由13岁以下的儿童制作的。
YouTube冰山的大部分
大多数人对YouTube的体验都是由算法策划的:用户观看的视频中,多达70%是由该网站的算法推荐的。推荐视频通常是受欢迎的内容,如网红特技、新闻剪辑、解说视频、旅游视频和视频游戏评论,而不被推荐的内容则默默无闻。
YouTube上的一些内容模仿流行创作者的作品,或者符合现有的流派,但大部分都是私人的:家庭庆祝活动、配上音乐的自拍、家庭作业、没有背景的视频游戏片段,以及孩子们的舞蹈。YouTube不为人知的一面——估计有148亿个视频被制作并上传到该平台——人们对其知之甚少。
要阐明YouTube——以及一般的社交媒体——的这一方面是很困难的,因为大型科技公司对研究人员的敌意越来越大。
我们发现,YouTube上的许多视频从未被广泛分享过。我们记录了数千个短小的个人视频,这些视频的浏览量很少,但参与度很高——点赞和评论——这意味着观众人数不多,但参与度很高。这些显然是给一小群朋友和家人看的。YouTube的这种社交用途与试图最大化其受众的视频形成对比,这表明YouTube的另一种使用方式:作为一个以视频为中心的小团体社交网络。
其他视频似乎是为另一种较小的固定受众准备的:大流行时代的虚拟教学、学校董事会会议和工作会议的录制课程。虽然不是大多数人认为的社交用途,但它们同样暗示了它们的创作者对视频观众的期望与人们在他们的推荐中看到的内容的创作者不同。
人工智能机器的燃料
正是在这种更广泛的理解下,我们读到了《纽约时报》(New York Times)关于OpenAI和谷歌如何在寻找新的数据宝库以训练其大型语言模型的竞赛中转向YouTube的报道。YouTube文本的存档为基于文本的模型提供了一个非凡的数据集。
也有人猜测,视频本身可以用来训练人工智能文本到视频的模型,比如OpenAI的Sora,这在一定程度上是由OpenAI首席技术官米拉·穆拉蒂(Mira Murati)的回避性回答推动的。
《纽约时报》的报道引发了人们对YouTube的服务条款的担忧,当然,还有围绕人工智能的争论中普遍存在的版权问题。但还有另一个问题:谁能知道一个由世界各地的人们上传的140多亿个视频的档案到底包含了什么?目前还不完全清楚谷歌是否知道,或者它是否想知道。
孩子们也一样ntent创造者
我们惊讶地发现了数量惊人的儿童视频,或者显然是由儿童制作的。YouTube要求上传者至少13岁,但我们经常看到看起来比这个年龄小得多的孩子,他们通常在跳舞、唱歌或玩电子游戏。
在我们的初步研究中,我们的编码员确定,在至少有一个人的脸可见的随机视频中,有近五分之一的视频可能包括13岁以下的人。我们没有考虑那些明显是在父母或监护人同意下拍摄的视频。
我们目前的250个样本规模相对较小——我们正在编写一个更大的样本——但到目前为止的发现与我们过去所看到的一致。我们并不是要指责谷歌。互联网上的年龄验证是出了名的困难和令人担忧,我们无法确定这些视频是否经过父母或监护人的同意上传。但我们想强调的是,这些大公司的人工智能模型正在吸收什么。
覆盖面小,影响大
人们很容易认为OpenAI正在使用发布到平台上的高产网红视频或电视新闻节目来训练其模型,但之前对大型语言模型训练数据的研究表明,最受欢迎的内容并不总是对训练AI模型最有影响力的内容。在训练聊天机器人语言模型时,三个朋友之间几乎无人观看的对话可能比观看数百万次的音乐视频具有更大的语言学价值。
不幸的是,OpenAI和其他人工智能公司对他们的培训材料相当不透明:他们没有说明什么可以进去,什么不可以。大多数时候,研究人员可以通过人工智能系统输出中的偏差来推断训练数据的问题。但当我们看到训练数据时,往往会感到担忧。例如,人权观察组织于2024年6月10日发布的一份报告显示,一个流行的训练数据集包含许多可识别的儿童照片。
大型科技公司自我监管的历史充满了不断变化的门柱。OpenAI尤其因寻求原谅而非许可而臭名昭著,并因将利润置于安全之上而面临越来越多的批评。
对使用用户生成内容来训练人工智能模型的担忧通常集中在知识产权上,但也存在隐私问题。YouTube是一个巨大的、笨重的档案,不可能完全回顾。
可以想象,在专业制作的视频子集上训练的模型可以成为人工智能公司的第一个训练语料库。但如果没有强有力的政策,任何公司收集的内容都可能超过受欢迎的冰山一角,包括违反联邦贸易委员会儿童在线隐私保护规则的内容,该规则禁止公司在未通知的情况下收集13岁以下儿童的数据。
有了去年关于人工智能的行政命令,以及至少一项有希望的全面隐私立法提案,有迹象表明,美国对用户数据的法律保护可能会变得更加有力。
你是否无意中帮助培训了ChatGPT?
YouTube上传者的意图根本不像出书、为杂志写文章或在画廊展示画作的人那样一致或可预测。但即使YouTube的算法忽略了你的上传,它的浏览量也不会超过几个,它也可以用来训练ChatGPT和Gemini这样的模型。
就人工智能而言,你的家庭团聚视频可能与网红巨头Mr. Beast或CNN上传的视频一样重要。
Ryan McGrady和Ethan Zuckerman是马萨诸塞大学阿默斯特分校公共政策、信息与传播专业的副教授。
的有限公司谈话是一种独立而不存在的非营利来源的新闻,分析和评论的学术专家。