强化学习算法为训练更可靠的人工智能智能体提供了一种有效的方法

健康作者 / 花爷 / 2025-04-16 07:54
"
    从机器人到医学再到政治学,各个领域都在试图训练人工智能系统做出各种有意义的决策。例如,在拥挤的城市中,使用人工智

  Researchers develop an efficient way to train more reliable AI agents

  从机器人到医学再到政治学,各个领域都在试图训练人工智能系统做出各种有意义的决策。例如,在拥挤的城市中,使用人工智能系统智能控制交通可以帮助驾驶者更快地到达目的地,同时提高安全性或可持续性。

  不幸的是,教人工智能系统做出正确的决策并非易事。

  强化学习模型是这些人工智能决策系统的基础,但当它们被训练执行的任务出现哪怕很小的变化时,它们仍然经常失败。在交通的情况下,模型可能难以控制一组具有不同速度限制、车道数量或交通模式的交叉路口。

  为了提高具有可变性的复杂任务的强化学习模型的可靠性,麻省理工学院的研究人员引入了一种更有效的算法来训练它们。研究结果发表在arXiv预印本服务器上。

  该算法策略性地选择训练人工智能代理的最佳任务,使其能够有效地执行相关任务集合中的所有任务。在交通信号控制的情况下,每个任务可以是包括城市中所有十字路口的任务空间中的一个十字路口。

  通过关注对算法整体有效性贡献最大的少量交叉点,该方法在保持较低训练成本的同时最大化了性能。

  研究人员发现,在一系列模拟任务中,他们的技术比标准方法效率高5到50倍。这种效率的提高有助于算法以更快的方式学习更好的解决方案,最终提高人工智能代理的性能。

  “我们能够看到令人难以置信的性能改进,用一个非常简单的算法,通过跳出框框思考。“一个不太复杂的算法更有可能被社区采用,因为它更容易实施,也更容易被其他人理解,”资深作者Cathy Wu说,她是土木与环境工程(CEE)和数据、系统与社会研究所(IDSS)的托马斯·D.和弗吉尼亚·w·卡伯特职业发展副教授,也是信息与决策系统实验室(LIDS)的成员。

  她加入了论文的主要作者Jung-Hoon Cho,一个CEE研究生;Vindula Jayawardana,电气工程与计算机科学系(EECS)的研究生;以及IDSS研究生李思瑞。这项研究将在神经信息处理系统会议上发表。

  为了训练一种算法来控制城市中许多十字路口的交通灯,工程师通常会在两种主要方法中做出选择。她可以只使用十字路口的数据,独立地为每个十字路口训练一个算法,或者使用所有十字路口的数据训练一个更大的算法,然后将其应用于每个十字路口。

  但每种方法都有其缺点。为每个任务(例如给定的十字路口)训练一个单独的算法是一个耗时的过程,需要大量的数据和计算,而为所有任务训练一个算法通常会导致性能低于标准。

  吴和她的合作者在这两种方法之间寻找一个最佳点。

  对于他们的方法,他们选择一个任务子集,并为每个任务独立训练一个算法。重要的是,他们策略性地选择最有可能提高算法在所有任务上的整体性能的单个任务。

  他们利用了强化学习领域的一种常见技巧,称为零射击迁移学习,即将已经训练好的模型应用于新任务,而无需进一步训练。通过迁移学习,模型通常在新邻居任务上表现得非常好。

  “我们知道在所有任务上进行训练是理想的,但我们想知道我们是否可以在这些任务的子集上进行训练,将结果应用到所有任务上,并且仍然看到性能的提高,”吴说。

  为了确定他们应该选择哪些任务来最大化预期性能,研究人员开发了一种称为基于模型的迁移学习(MBTL)的算法。

  MBTL算法分为两部分。首先,它模拟了每个算法在独立训练一项任务时的表现。然后,它对每个算法的性能在转移到另一个任务时会降低的程度进行建模,这个概念被称为泛化性能。

  显式建模泛化性能允许MBTL估计新任务上的训练值。

  MBTL按顺序执行此操作,首先选择导致最高性能增益的任务,然后选择随后对整体性能提供最大边际改进的附加任务。

  由于MBTL只关注最有希望的任务,它可以显著提高训练过程的效率。

  当研究人员在模拟任务中测试这种技术时,包括控制交通信号、管理实时速度通知和执行几个经典的控制任务,它的效率是其他方法的5到50倍。

  这意味着他们可以通过训练少得多的数据得到相同的解决方案。例如,通过50倍的效率提升,MBTL算法可以只训练两个任务,并达到与使用100个任务数据的标准方法相同的性能。

  “从两种主要方法的角度来看,这意味着其他98个任务的数据是不必要的,或者所有100个任务的训练对算法来说是混乱的,所以性能最终比我们的更差,”吴说。

  使用MBTL,即使增加少量的额外训练时间也可以带来更好的性能。

  在未来,研究人员计划设计MBTL算法,可以扩展到更复杂的问题,如高维任务空间。他们也有兴趣将他们的方法应用于现实世界的问题,特别是在下一代移动系统中。

分享到
声明:本文为用户投稿或编译自英文资料,不代表本站观点和立场,转载时请务必注明文章作者和来源,不尊重原创的行为将受到本站的追责;转载稿件或作者投稿可能会经编辑修改或者补充,有异议可投诉至本站。

热文导读