强化学习(Reinforcement Learning, RL)是一种机器学习的范式,主要关注的是在特定环境中,如何通过智能体与环境的交互来学习最优行为或策略,以最大化某种累积奖励。
它与监督学习和无监督学习不同的是,强化学习不是从带标签的数据集中学习,而是通过智能体在环境中采取行动,并根据行动的结果(奖励或惩罚)来学习。
强化学习已被广泛用于多种领域,包括游戏(如 AlphaGo)、自动驾驶汽车、机器人控制、推荐系统等。
通过强化学习,机器可以自主学习如何在复杂环境中做出决策,以实现特定的目标。
然而,目前强化学习研究的一个痛点是,为了保证学习率能被合适地设定,现有算法需要对奖励或惩罚的规模需要被限制。
举例来说,对于现有的绝大数强化学习问题,一个默认的假设是奖励或惩罚对应的值位于 [-1, 1] 之间。在这种情况下,如果输入超范围的奖励或惩罚,算法无法正常的工作。贵茶数字化云雾白茶1号
受无尺度在线学习(scale free online learning)的启发,美国波士顿大学博士生陈鸣宇和所在团队提出了一套无尺度强化学习算法,巧妙地解决了上述问题。
详细来说,他们的算法在无需对奖励或惩罚的幅度假设下,实现了和已有算法相匹配的表现。
通过此提高了强化学习算法的通用性和适应性,使得同一套算法框架可以有效地应用于不同规模和复杂度的问题,从而扩大了强化学习在实际应用中的适用范围和效率。
在实际应用中,无尺度强化学习的可以用于动态调整的推荐系统,它能够实时处理用户行为数据,并不断更新推荐内容以适应用户兴趣的变化。
此外也可用于金融市场的实时交易分析系统,它能够处理高速流动且变化剧烈的市场数据,并即时调整交易策略。
一个更加重要的潜在应用前景在于机器人及自动驾驶技术领域。在这些应用场景中,鉴于安全性的关键性,必须确保避免机器人或自动驾驶车辆采取某些特定行为。
针对这一目标可以通过强化学习实现,即通过对不希望出现的行为施加惩罚来进行训练。
然而,如果对惩罚的幅度设定了限制,那么算法可能需要较长时间来彻底消除这类不期望的行为。
相比之下,本次算法能显著加快此过程,进而有效缩短训练周期并降低相关成本。
如前所述,本次课题的灵感源自于无尺度在线学习的启发。因此,他们旨在探索是否能将在线学习的成果延伸至强化学习领域。
这个想法在直觉上显得颇具挑战性:在线学习允许人们在与环境互动并采取行动后,获取关于奖励或惩罚的全面信息,包括那些不直接由人类行动引起的信息。
而在强化学习的情境下,人们获得的信息通常仅限于与所执行行动直接相关的奖励或惩罚贵茶数字化现货交易万荷秋。
此外,鉴于本次课题面临的是无尺度问题,奖励或惩罚的波动幅度可能非常大。
这就要求他们能够及时获取奖励或惩罚的信息,以便有效调整算法参数。在这样的背景下,他们对信息的需求远远超过了有尺度情境下的需求。
与许多研究工作一样,他们的起点是强化学习中最基本的模型之一:多臂老虎机问题(Multi-armed bandit)。对于这个特定的无尺度多臂老虎机问题,已有一些研究成果。
但当他们深入分析这些先前研究的论文时,发现现有算法的设计理念与在线学习的策略大致相同。
这种相似性导致它们的应用范围仅限于多臂老虎机问题,而难以扩展至更广泛的强化学习领域。
鉴于此,他们决定不再依赖现有的研究框架,而是从零开始,尝试开发全新的无尺度强化学习算法。
本次研究的首项进展源自一个直觉上的灵感:虽然强化学习无法全面获取奖励或惩罚的信息,但是能够通过一些巧妙的设计,使得奖励或惩罚每一部分的信息都有一定机会被观测到。
以多臂老虎机为例,对于算法生成的任何策略,可以引入一个偏差项,确保每个臂都有一定的概率被拉动。在这种情况下,每个臂对应的信息都能有一定概率被获取。
在这一思路指引下,该团队开发了两种针对多臂老虎机的新算法。
这两种算法显著优化了现有成果:让他们不仅提出了第一个对于无尺度多臂老虎机问题的 minimax 最优算法,还开发了第一个能够以高概率减小遗憾的算法。
在成功开发了针对多臂老虎机的算法之后,课题组将研究重心转移到了一般化强化学习问题上。
此时他们面临的挑战是:在强化学习的场景中,可能不存在一种策略能够确保奖励或惩罚的每一分信息都被观察到。
例如,在某个强化学习问题中,如果存在一个无法到达的状态,那么该状态相关的信息也就无法被获知。
面对这一问题,他们尝试了多种方法,但均未能达到令人满意的结论。
一个偶然中,课题组注意到一个常被忽略的要点:对强化学习问题来说,某个状态对应的奖励或惩罚信息的重要性,实际上与该状态的可达性有关。
简而言之,如果对所有可能的策略而言,某个状态始终无法到达,那么他们无需关注它的奖励或惩罚信息,因为这些信息并不会对策略的优化产生帮助。
受到这个洞察的启发,他们的问题转化为寻找一种能最大化状态可达性的策略。
如果能找到这样的策略,那么就可以将先前为多臂老虎机问题设计的算法扩展应用,从而完成无尺度强化学习算法的设计。
本次课题的最后一个挑战是:如何找到一种策略能够最大化状态的可达性。
这时,一篇名为《在线强化学习中样本复杂度的解决》(Settling the Sample Complexity of Online Reinforcement Learning)的论文为他们提供了关键的启示。贵茶数字化现货交易时间
该研究介绍了一种最新的无奖励强化学习算法(reward-free reinforcement learning)。于是,这个算法成了本次工作的决定性补充。
这让他们找到了一个可以被看作黑盒的工具,帮助课题组找到能探索到每一个状态的策略。通过与之前的进展结合,他们最终圆满完成了这项研究。
日前,相关论文以《无标度对抗强化学习》(Scale-free Adversarial Reinforcement Learning)为题发在 arXiv[1],陈鸣宇和 Xuezhou Zhang 是共同作者。
陈鸣宇补充称:“我一直在思考一个非常简单但经常被忽视的话题:如何让强化学习算法真正自动化?如何使得人类(博士生?)不需要再不断手动调整算法的参数?”
对他而言,本次项目更像是一个开始:他的短期计划在于将本文的结论扩展到更一般的场景上,如线性强化学习(Linear RL)、表征强化学习(representation RL)。
长期计划则是设计不需要任何假设的强化学习算法。他坚信这方面的工作,能增强强化学习算法的通用性和灵活性,并提高强化学习在现实世界应用中的范围和效能。
参考资料:
1.https://arxiv.org/pdf/2403.00930
排版:罗以