一文详谈机器学习的强化学习

强化学习属于机器学习中的一个子集，它使代理能够理解在特定环境中执行特定操作的相应结果。目前，相当一部分机器人就在使用强化学习掌握种种新能力。

强化学习是一种行为学习模型，由算法提供数据分析反馈，引导用户逐步获取最佳结果。

不同于使用样本数据集训练机器模型的各类监督学习，强化学习尝试通过反复试验掌握个中诀窍。通过一系列正确的决策，模型本身将得到逐步强化，慢慢掌控解决问题的更佳方法。

强化学习与人类在婴幼儿时期的学习过程非常相似。我们每个人的成长都离不开这种学习强化——正是在一次又一次跌倒与父母的帮扶之下，我们才最终站立起来。

这是一种基于经验的学习流程，机器会不断尝试、不断犯错，最终找到正确的解决思路。

我们只需要为机器模型提供最基本的“游戏规则”，余下的就完全交给模型自主探索。模型将从随机尝试开始，一步步建立起自己的复杂战术，通过无数次尝试达成任务、获得奖励。

事实证明，强化学习已经成为培养机器人想象力的重要方法之一。不同于普通人类，人工智能将从成千上万轮游戏中积累知识，而强大的计算机基础设施则为这类模型提供可靠的算力支持。

YouTube上的视频就是强化学习的应用实例。在观看当前视频之后，该平台会向你展示它认为你可能感兴趣的类似内容。如果你点开了推荐视频但却没有看完，机器会认为此次推荐失败，并在下一次尝试其他推荐方法。

强化学习的挑战

强化学习面对的核心挑战，在于如何规模模拟环境。模拟环境在很大程度上由有待执行的任务所决定。我们以国际象棋、围棋或者雅达利游戏为例，这类模拟环境相对简单也易于构建。但是，要想用同样的方法训练出安全可靠的自动驾驶汽车，就必须创建出非常逼真的街道原型环境，引入突然闯出的行人或者可能导致碰撞事故的各类因素。如果仿真度不够，那么模型在从训练环境转移到现实场景之后，就会出现一系列问题。

另一个难题，在于如何扩展及修改代理的神经网络。除了奖励与处罚之外，我们再无其他方法与该网络建立联系。这有可能引发严重的“健忘”症状，即网络在获取新信息后，会将一部分可能非常重要的旧知识清除出去。换句话说，我们需要想办法管理学习模型的“记忆”。

最后，我们还得防止机器代理“作弊”。有时候，机器模型能够获得良好的结果，但实现方式却与我们的预期相去甚远。一部分代理甚至会在不完成实际任务的情况下，通过“浑水摸鱼”拿到最大奖励。

强化学习的应用领域

游戏

机器学习之所以具有极高的知名度，主要源自它在解决各类游戏问题时展现出的惊人实力。

最著名的自然是AlphaGo与AlphaGo Zero。AlphaGo通过无数人类棋手的棋谱进行大量训练，凭借策略网络中的蒙特卡洛树价值研究与价值网络（MCTS）获得了超人的棋力。但研究人员随后又尝试了另一种更加纯粹的强化学习方法——从零开始训练机器模型。最终，新的代理AlphaGo Zero出现，其学习过程完全源自自主摸索、不添加任何人为数据，最终以100-0的碾压性优势战胜了前辈AlphaGo。

个性化推荐

新闻内容推荐是一项历史性难题，快速变化的新闻动态、随时可能转变的用户喜好再加上与用户留存率若即若离的点击率都让研究人员头痛不已。Guanjie等研究者发布的《DRN：用于新闻推荐的深度强化学习框架》一文，希望探讨如何将强化学习技术应用于新闻推荐系统以攻克这一重大挑战。

为此，他们构建起四种资源类别，分别为：1）用户资源；2）上下文资源（例如环境状态资源）；3）用户新闻资源；4）新闻资源（例如行动资源）。他们将这四种资源插入深度Q网络（DQN）以计算Q值。随后，他们以Q值为基础选择一份新闻列表进行推荐，并将用户对推荐内容的点击情况作为强化学习代理的重要奖励指标。

作者们还采用其他技术以解决相关难题，包括记忆重复、生存模型、Dueling Bandit Gradient Descent等方法。

计算机集群中的资源管理

如何设计算法以将有限的资源分配给不同任务同样是一项充满挑战的课题，而且往往需要人为启发的引导。

题为《使用深度强化学习实现资源管理》的论文介绍了如何使用强化学习让模型自动探索如何为保留的作业分配及调度计算机资源，借此最大程度降低平均作业（任务）的处理时长。

这种方法用“状态空间”来表现当前资源分配与作业的资源配置方式。而在行动空间方面，他们使用一种技巧，允许代理在各个时间阶段选择多项行动。奖励则是系统中所有作业的总和（-1/作业持续时间）。接下来，他们将强化学习算法与基准值相结合，借此计算策略梯度，找出最佳策略参数，凭借这些参数计算出能够实现目标最小化的行动概率分布。

交通灯控制

在题为《基于强化学习的多代理交通信号网络控制系统》一文中，研究人员尝试设计一种交通信号灯控制方案，借此解决交通拥堵问题。他们的方法仅在模拟环境下进行了测试，并表现出优于传统方法的性能水平，这也体现出在交通系统设计中引入多代理强化学习技术的潜在可行性。

他们在五个路口的交通网络中部署了五个代理，并在中央路口处部署强化学习代理以控制交通信号。他们将交通状态定义为8维向量，每个元素代表各条车道的相对交通流量。每个代理可以从8种选项中任选其一，各选项代表每个阶段的组合，奖励条件则是新的组合必须在交通流量延迟方面优于前一组合。作者们使用SQN计算{状态，行动}对的Q值。

机器人

强化学习在机器人技术领域的应用同样大放异彩。感兴趣的朋友请关注强化学习在机器人领域的研究成果。在这方面，研究人员们通过训练引导机器人学习策略，尝试将原始视频图像与机器人的行动映射起来。将RGB图像输入CNN进行计算，最终输出的则是各台驱动引擎的扭矩。强化学习组件负责根据训练数据中的状态分布总结出准确的转换策略。

网络系统配置

网络系统当中往往包含超过100项可配置参数，而参数调整过程则需要合格的操作人员持续进行跟踪与错误测试。

题为《强化在线网络系统自我配置能力的学习方法》的论文，介绍了研究人员如何在基于动态虚拟机的环境中自动重新配置多层网络系统内各项参数的首次尝试。

研究人员可以将重新配置的流程公式化为有限MDP（马尔科夫决策流程）的形式。其中的状态空间为系统配置，各参数的行动空间则包括{增加，减少，保持不变}。奖励被定义为预期响应时间与实测响应时间之差。作者使用Q学习算法执行这项任务。

当然，作者也使用了其他一些技术（例如策略初始化）以解决较大状态空间与复杂问题场景下的计算难度问题，因此并不能算单纯依靠强化学习与神经网络组合实现。但可以相信，这项开拓性工作为未来的探索铺平了道路。

化学

强化学习在优化化学反应方面同样表现出色。研究人员们发现，他们的模型已经摸索出极为先进的算法，《通过深度强化学习优化化学反应》一文还探讨了如何将这种算法推广到多种不同的潜在场景当中。

配合LSTM（长短期记忆网络）对策略特征进行建模，强化学习代理通过以{S，A，P，R}为特征的马尔科夫决策流程（MDP）优化了化学反应。其中的S代表一组实验条件（例如温度、pH等），A为可以调整的一切可能行动的集合，P为从当前实验条件转换至下一条件的概率，R则为状态奖励函数。

这套应用方案很好地演示了强化学习技术如何在相对稳定的环境下减少试错次数并缩短学习周期。

拍卖与广告

阿里巴巴公司的研究人员发表了《在广告展示中采用多代理强化学习进行实时竞拍》一文，表示其基于集群的分布式多代理解决方案（DCMAB）取得了可喜的成果，并计划在下一步研究中投放淘宝平台进行实际测试。

总体而言，淘宝广告平台负责为经销商提供可供竞拍的广告展示区域。目前大多数代理无法快速解决这个问题，因为交易者往往互相竞标，而且出价往往与其业务及决策密切相关。在这篇论文中，研究人员将商户与客户划分为不同的组以降低计算复杂性。各代理的状态空间表示代理本身的成本-收入状态，行动空间为（连续）竞标，奖励则为客户集群收入。

深度学习

近期，越来越多研究人员开始尝试将强化学习与其他深度学习架构相结合，并带来了令人印象深刻的成果。

其中最具影响力的成果之一，正是DeepMind将CNN与强化学习相结合做出的尝试。以此为基础，代理可以通过高维传感器“观察”环境，而后学习如何与之交互。

CNN配合强化学习已经成为人们探索新思路的有力组合。RNN是一种具有“记忆”的神经网络。与强化学习结合使用，RNN将为代理提供记忆能力。例如，研究人员将LSTM与强化学习进行组合，创建出一套深循环Q网络（DRQN）并学习如何游玩雅达利游戏。他们还使用LSTM加强化学习解决了化学反应优化问题。

DeepMind还展示了如何使用生成模型与强化学习生成程序。在这套模型中，以对抗方式训练而成的代理会将对抗信号作为改善行动的奖励，这种方式与GAN（生成对抗网络）将梯度传播至入口空间的方法有所不同。

总结：何时开始使用强化学习？

所谓强化，是指根据制定的决策配合奖励摸索最佳方法；这类能够随时与环境交互并从中学习。每做出一项正确行动，我们都将予以奖励；错误行动则对应惩罚。在行业当中，这类学习方法将有助于优化流程、模拟、监控、维护并有望催生出强大的自治型系统。

大家可以参考以下标准思考何时在何处使用强化学习技术：

• 需要对复杂甚至存在一定危险性的特定流程进行模拟时。

• 处理某些需要大量人类分析师及领域专家的特定问题时。强化学习方法能够模仿人类的推理过程，而非单纯预测最佳策略。

• 能够为学习算法提供良好的奖励定义时。你可以在每次交互中正确对模型进行校准，借此保证奖励总比惩罚多，帮助模型逐步摸索出正确的解决路线。

• 当缺少关于特定问题的充足数据时。除了工业领域之外，强化学习也广泛适用于教育、卫生、金融、图像以及文本识别等各个行业。

除了工业领域之外，强化学习也广泛适用于教育、卫生、金融、图像以及文本识别等各个行业。
责编AJX

阅读全文

机器人(200958) 机器人(200958)
机器学习(130423) 机器学习(130423)
强化学习(11109) 强化学习(11109)

使用Isaac Gym 来强化学习mycobot 抓取任务

使用Isaac Gym来强化学习mycobot抓取任务

2023-04-11 14:57:12

5344

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

2023-07-01 10:29:50

1002

杨强教授：从机器学习到迁移学习

杨强教授认为，DeepMind把端到端的深度学习应用在强化学习上，使得强化学习能够应付大数据，因此能在围棋上把人类完全击倒，它做到这样是通过完全的自学习、自我修炼、自我改正，然后一个一个迭代。杨强还指出，搜索和学习的结合才是人工智能的发展方向。未来，迁移学习会是这个问题的解决途径。

2016-04-29 14:44:46

6041

Facebook推出ReAgent AI强化学习工具包

Facebook近日推出ReAgent强化学习（reinforcement learning）工具包，首次通过收集离线反馈（offline feedback）来实现策略评估（policy evaluation）。

2019-10-19 09:38:41

1347

机器学习工程师必知的10大算法

`转一篇好资料机器学习算法可以分为三大类：监督学习、无监督学习和强化学习。监督学习可用于一个特定的数据集（训练集）具有某一属性（标签），但是其他数据没有标签或者需要预测标签的情况。无监督学习可用

2017-04-18 18:28:36

机器学习的未来

机器学习的未来在工业领域采用机器学习机器学习和大数据

2021-01-27 06:02:18

【下载】《机器学习》+《机器学习实战》

强化学习等.下载链接：[hide][/hide]2.机器学习实战简介：机器学习是人工智能研究领域中一个极其重要的研究方向，在现今的大数据时代背景下，捕获数据并从中萃取有价值的信息或模式，成为各行业求生存

2017-06-01 15:49:24

反向强化学习的思路

强化学习的另一种策略（二）

2019-04-03 12:10:44

最值得学习的机器学习编程语言

如果你对人工智能和机器学习感兴趣，而且正在积极地规划着自己的程序员职业生涯，那么你肯定面临着一个问题：你应该学习哪些编程语言，才能真正了解并掌握 AI 和机器学习？可供选择的语言很多，你需要通过战略

2021-03-02 06:22:38

深度学习DeepLearning实战

一：深度学习DeepLearning实战时间地点：1 月 15日— 1 月18 日二：深度强化学习核心技术实战时间地点： 1 月 27 日— 1 月30 日(第一天报到授课三天；提前环境部署电脑

2021-01-09 17:01:54

深度学习技术的开发与应用

深度策略梯度-DDPG,PPO等第一天9:00-12:0014:00-17:00一、强化学习概述1.强化学习介绍 2.强化学习与其它机器学习的不同3.强化学习发展历史4.强化学习典型应用5.强化学习

2022-04-21 14:57:39

深度强化学习实战

2021-01-10 13:42:26

#硬声创作季机器学习：第13章：强化学习②

化学机器学习

Mr_haohao发布于 2022-10-25 23:38:27

#硬声创作季 #机器学习机器学习-9.1.1 强化学习基本概念

机器机器学习

水管工发布于 2022-11-04 11:26:25

#硬声创作季 #机器学习机器学习-9.5.1 深度强化学习

机器机器学习

水管工发布于 2022-11-04 11:29:37

基于强化学习的飞行自动驾驶仪设计

针对强化学习在连续状态连续动作空间中的维度灾难问题，利用BP神经网络算法作为值函数逼近策略，设计了自动驾驶仪。并引入动作池机制，有效避免飞行仿真中危险动作的发生。首先

2013-06-25 16:27:22

45. 5 2 强化学习（深度强化学习） #硬声创作季

机器学习

充八万发布于 2023-07-07 01:56:26

强化学习在RoboCup带球任务中的应用刘飞

强化学习在RoboCup带球任务中的应用_刘飞

2017-03-14 08:00:00

将深度学习、强化学习和迁移学习有机结合的研究

界声誉卓著。在此前接受CSDN采访时，杨强介绍了他目前的主要工作致力于一个将深度学习、强化学习和迁移学习有机结合的Reinforcement Transfer Learning（RTL）体系的研究。那么，这个技术框架对工业界的实际应用有什么用的实际意义？在本文中，CSDN结合杨强的另外一个身份国内人工智能创业

2017-10-09 18:23:18

谷歌带你体验一把什么是机器学习

机器学习的本质是模式识别。一部分可以用于预测（有监督学习，无监督学习），另一类直接用于决策（强化学习），机器学习的一个核心任务即模式识别，我们通常可以用模式识别来对我们未来研究的系统进行归类，并预测各种可能的未来结果。

2017-10-13 10:56:43

1626

深度强化学习是什么？有什么优点？

与监督机器学习不同，在强化学习中，研究人员通过让一个代理与环境交互来训练模型。当代理的行为产生期望的结果时，它得到正反馈。例如，代理人获得一个点数或赢得一场比赛的奖励。简单地说，研究人员加强了代理人的良好行为。

2018-07-13 09:33:00

24321

将深度学习和强化学习相结合的深度强化学习DRL

深度强化学习DRL自提出以来，已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo，将深度强化学习DRL成推上新的热点和高度，成为人工智能历史上一个新的里程碑。因此，深度强化学习DRL非常值得研究。

2018-06-29 18:36:00

27596

人工智能强化学习的原理和目标

通俗的讲，就是当一个小孩学习有迷茫或困惑时，如果老师发现小孩方法或思路正确，就给他（她）正反馈（奖励或鼓励）；否则就给他（她）负反馈（教训或惩罚），激励小孩的潜能，强化他（她）自我学习能力，依靠自身的力量来主动学习和不断探索，最终让他（她）找到正确的方法或思路，以适应外部多变的环境。

2018-06-26 08:47:00

4323

萨顿科普了强化学习、深度强化学习，并谈到了这项技术的潜力和发展方向

萨顿在专访中（再次）科普了强化学习、深度强化学习，并谈到了这项技术的潜力，以及接下来的发展方向：预测学习

2017-12-27 09:07:15

10857

基于分层强化学习的多Agent路径规划

针对路径规划算法收敛速度慢及效率低的问题，提出了一种基于分层强化学习及人工势场的多Agent路径规划算法。首先，将多Agent的运行环境虚拟为一个人工势能场，根据先验知识确定每点的势能值，它代表最优

2017-12-27 14:32:02

基于LCS和LS-SVM的多机器人强化学习

本文提出了一种LCS和LS-SVM相结合的多机器人强化学习方法，LS-SVM获得的最优学习策略作为LCS的初始规则集。LCS通过与环境的交互，能更快发现指导多机器人强化学习的规则，为强化学习系统

2018-01-09 14:43:49

强化学习的风储合作决策

在风储配置给定前提下，研究风电与储能系统如何有机合作的问题。核心在于风电与储能组成混合系统参与电力交易，通过合作提升其市场竞争的能力。针对现有研究的不足，在具有过程化样本的前提下，引入强化学习算法

2018-01-27 10:20:50

如何深度强化学习人工智能和深度学习的进阶

传统上，强化学习在人工智能领域占据着一个合适的地位。但强化学习在过去几年已开始在很多人工智能计划中发挥更大的作用。

2018-03-03 14:16:56

3924

【重磅】DeepMind发布通用强化学习新范式，自主机器人可学会任何任务

SAC-X是一种通用的强化学习方法，未来可以应用于机器人以外的更广泛领域

2018-03-19 14:45:48

1746

简单随机搜索：无模型强化学习的高效途径

让我们在强化学习社区感兴趣的问题上应用随机搜索。深度强化学习领域一直把大量时间和精力用于由OpenAI维护的、基于MuJoCo模拟器的一套基准测试中。这里，最优控制问题指的是让一个有腿机器

2018-04-01 09:35:00

4193

强化学习新方法，机器人究竟是怎么学习新动作的呢？

用强化学习方法教机器人（模拟器里的智能体），能学会的动作花样繁多，细致到拿东西、豪放到奔跑都能搞定，还可以给机器人设置一个明确的目的。但是，总难免上演一些羞耻或惊喜play。

2018-04-13 11:00:32

9514

强化学习究竟是什么？它与机器学习技术有什么联系？

Q-learning和SARSA是两种最常见的不理解环境强化学习算法，这两者的探索原理不同，但是开发原理是相似的。Q-learning是一种离线学习算法，智能体需要从另一项方案中学习到行为a*的价值

2018-04-15 10:32:22

12973

人工智能机器学习之强化学习

强化学习是智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大，强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价

2018-05-30 06:53:00

1234

利用强化学习探索多巴胺对学习的作用

当我们使用虚拟的计算机屏幕和随机选择的图像来模拟一个非常相似的测试时，我们发现，我们的“元强化学习智能体”（meta-RL agent）似乎是以类似于Harlow实验中的动物的方式在学习，甚至在被显示以前从未见过的全新图像时也是如此。

2018-05-16 09:03:39

4475

强化学习在自动驾驶的应用

自动驾驶汽车首先是人工智能问题，而强化学习是机器学习的一个重要分支，是多学科多领域交叉的一个产物。今天人工智能头条给大家介绍强化学习在自动驾驶的一个应用案例，无需3D地图也无需规则，让汽车从零开始在二十分钟内学会自动驾驶。

2018-07-10 09:00:29

4676

AI核心领域——强化学习的缺陷

前段时间，OpenAI的游戏机器人在Dota2的比赛中赢了人类的5人小组，取得了团队胜利，是强化学习攻克的又一游戏里程碑。

2018-07-13 08:56:01

4439

强化学习的经典基础性缺陷可能限制它解决很多复杂问题

这些都是除了从零学习之外的强化学习方法。特别是元学习和零次学习体现了人在学习一种新技能时更有可能的做法，与纯强化学习有差别。一个元学习智能体会利用先验知识快速学习棋类游戏，尽管它不明白游戏规则

2018-07-14 08:42:28

7602

什么是强化学习？纯强化学习有意义吗？强化学习有什么的致命缺陷？

强化学习是人工智能基本的子领域之一，在强化学习的框架中，智能体通过与环境互动，来学习采取何种动作能使其在给定环境中的长期奖励最大化，就像在上述的棋盘游戏寓言中，你通过与棋盘的互动来学习。

2018-07-15 10:56:37

17106

强化学习泡沫之后，人工智能的终极答案是什么？

结合 DL 与 RL 的深度强化学习（Deep Reinforcement Learning, DRL）迅速成为人工智能界的焦点。

2018-08-09 10:12:43

5789

强化学习环境研究，智能体玩游戏为什么厉害

强化学习作为一种常用的训练智能体的方法，能够完成很多复杂的任务。在强化学习中，智能体的策略是通过将奖励函数最大化训练的。奖励在智能体之外，各个环境中的奖励各不相同。深度学习的成功大多是有密集并且有效的奖励函数，例如电子游戏中不断增加的“分数”。

2018-08-18 11:38:57

3363

强化学习和监督式学习, 非监督式学习的区别

而这时，强化学习会在没有任何标签的情况下，通过先尝试做出一些行为得到一个结果，通过这个结果是对还是错的反馈，调整之前的行为，就这样不断的调整，算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。

2018-08-21 09:18:25

19123

谷歌推出新的基于Tensorflow的强化学习框架，称为Dopamine

强化学习（RL）研究在过去几年取得了许多重大进展。强化学习的进步使得 AI 智能体能够在一些游戏上超过人类，值得关注的例子包括 DeepMind 攻破 Atari 游戏的 DQN，在围棋中获得瞩目的 AlphaGo 和 AlphaGo Zero，以及在 Dota2 对战人类职业玩家的Open AI Five。

2018-08-31 09:20:49

3498

Google强化学习框架，要满足哪三大特性

强化学习是一种非常重要 AI 技术，它能使用奖励（或惩罚）来驱动智能体（agents）朝着特定目标前进，比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手，它也是 DeepMind 的深度

2018-09-03 14:06:30

2653

基于目标图像的视觉强化学习算法，让机器人可以同时学习多个任务

强化学习是一种训练主体最大化奖励的学习机制，对于目标条件下的强化学习来说可以将奖励函数设为当前状态与目标状态之间距离的反比函数，那么最大化奖励就对应着最小化与目标函数的距离。

2018-09-24 10:11:00

6779

用PopArt进行多任务深度强化学习

按照以往的做法，如果研究人员要用强化学习算法对奖励进行剪枝，以此克服奖励范围各不相同的问题，他们首先会把大的奖励设为+1，小的奖励为-1，然后对预期奖励做归一化处理。虽然这种做法易于学习，但它也改变了智能体的目标。

2018-09-16 09:32:03

5336

AlphaGo首席研究员谈强化学习十大黄金法则！

Silver的演讲中提出的强化学习10大要点涵盖涉及算法评估、状态控制、建模函数等方面的心得和建议，非常值得开发者和机器学习爱好者参考学习。一起看看他是怎么说的吧！

2018-09-17 08:41:19

3067

基于强化学习的MADDPG算法原理及实现

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之间的交互。

2018-11-02 16:18:15

21017

如何构建强化学习模型来训练无人车算法

本文作者通过简单的方式构建了强化学习模型来训练无人车算法，可以为初学者提供快速入门的经验。

2018-11-12 14:47:39

4570

量化深度强化学习算法的泛化能力

OpenAI 近期发布了一个新的训练环境 CoinRun，它提供了一个度量智能体将其学习经验活学活用到新情况的能力指标，而且还可以解决一项长期存在于强化学习中的疑难问题——即使是广受赞誉的强化算法在训练过程中也总是没有运用监督学习的技术。

2019-01-01 09:22:00

2122

如何测试强化学习智能体适应性

强化学习（RL）能通过奖励或惩罚使智能体实现目标，并将它们学习到的经验转移到新环境中。

2018-12-24 09:29:56

2949

深度强化学习能让机器人拥有人一样的意识

了一种人工智能系统，即通过深度强化学习来学习走路，简单来说，就是教“一个四足机器人来穿越熟悉和不熟悉的地形”。

2019-01-03 09:50:13

3286

对NAS任务中强化学习的效率进行深入思考

在一些情况下，我们会用策略函数（policy，总得分，也就是搭建的网络在测试集上的精度（accuracy），通过强化学习（Reinforcement Learning）这种通用黑盒算法来优化。然而，因为强化学习本身具有数据利用率低的特点，这个优化的过程往往需要大量的计算资源。

2019-01-28 09:54:22

4705

谷歌、DeepMind重磅推出PlaNet 强化学习新突破

Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet)，这是一个纯粹基于模型的智能体，能从图像输入中学习世界模型，完成多项规划任务，数据效率平均提升50倍，强化学习又一突破。

2019-02-17 09:30:28

3036

利用强化学习来更好地进行商品搜索的项目

逆强化学习 (IRL) 方法从数据中学习一个奖励函数，然后根据这个奖励函数训练一个策略。IRL 放松了数据的 i.i.d. 假设，但仍然假设环境是静态的。当环境 (即淘宝平台) 发生变化时，学习策略可能会失败。上述问题使得这些方法在构建虚拟淘宝时不太实用。

2019-03-05 09:06:52

3726

深度强化学习是否已经到达尽头?

近日，Reddit一位网友根据近期OpenAI Five、AlphaStar的表现，提出“深度强化学习是否已经到达尽头”的问题。

2019-05-10 16:34:59

2313

开辟新篇章!谷歌机器学习又有新进展!

在谷歌最新的论文中，研究人员提出了“非政策强化学习”算法OPC，它是强化学习的一种变体，它能够评估哪种机器学习模型将产生最好的结果。

2019-06-22 11:16:29

2280

谷歌发布非政策强化学习算法OPC的最新研究机器学习即将开辟新篇章？

在谷歌最新的论文中，研究人员提出了“非政策强化学习”算法OPC，它是强化学习的一种变体，它能够评估哪种机器学习模型将产生最好的结果。数据显示，OPC比基线机器学习算法有着显著的提高，更加稳健可靠。

2019-06-22 11:17:08

3374

强化学习应用中对话系统的用户模拟器

近几年来，强化学习在任务导向型对话系统中得到了广泛的应用，对话系统通常被统计建模成为一个马尔科夫决策过程（Markov Decision Process）模型，通过随机优化的方法来学习对话策略。

2019-08-06 14:16:29

1836

深度强化学习你知道是什么吗

强化学习非常适合实现自主决策，相比之下监督学习与无监督学习技术则无法独立完成此项工作。

2019-12-10 14:34:57

1092

懒惰强化学习算法在发电调控REG框架的应用

惰性是人类的天性，然而惰性能让人类无需过于复杂的练习就能学习某项技能，对于人工智能而言，是否可有基于惰性的快速学习的方法？本文提出一种懒惰强化学习(Lazy reinforcement learning, LRL) 算法。

2020-01-16 17:40:00

745

深度强化学习的笔记资料免费下载

本文档的主要内容详细介绍的是深度强化学习的笔记资料免费下载。

2020-03-10 08:00:00

谷歌发明自主学习机器人结合了深度学习和强化学习两种类型的技术

）的研究人员联合发表了一篇论文，详细介绍了他们构建的一个通过 AI 技术自学走路的机器人。该机器人结合了深度学习和强化学习两种不同类型的 AI 技术，具备直接放置于真实环境中进行训练的条件。

2020-03-17 15:15:30

1354

人工智能的强化学习要点

强化学习（RL）是现代人工智能领域中最热门的研究主题之一，其普及度还在不断增长。让我们看一下开始学习RL需要了解的5件事。

2020-05-04 18:14:00

3117

深度强化学习的概念和工作原理的详细资料说明

深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度学习DL有监督和非监督之分，都已经得到广泛的研究和应用。强化学习RL是通过对未知环境一边探索一边建立环境模型以及学习得到一个最优策略。强化学习是机器学习中一种快速、高效且不可替代的学习算法。

2020-05-16 09:20:40

3150

深度强化学习到底是什么？它的工作原理是怎么样的

2020-06-13 11:39:40

5529

复杂应用中运用人工智能核心强化学习

近期，有不少报道强化学习算法在 GO、Dota 2 和 Starcraft 2 等一系列游戏中打败了专业玩家的新闻。强化学习是一种机器学习类型，能够在电子游戏、机器人、自动驾驶等复杂应用中运用人工智能。

2020-07-27 08:50:15

715

基于PPO强化学习算法的AI应用案例

Viet Nguyen就是其中一个。这位来自德国的程序员表示自己只玩到了第9个关卡。因此，他决定利用强化学习AI算法来帮他完成未通关的遗憾。

2020-07-29 09:30:16

2429

详谈机器学习及其三大分类

本节概述机器学习及其三个分类（监督学习、非监督学习和强化学习）。首先，与机器学习相关的术语有人工智能（Artificial Intelligence，AI）、机器学习（Machine Learning，ML）、强化学习、深度学习等，这里对这些术语进行简单的整理。

2020-08-14 12:24:47

23092

83篇文献、万字总结强化学习之路

深度强化学习是深度学习与强化学习相结合的产物，它集成了深度学习在视觉等感知问题上强大的理解能力，以及强化学习的决策能力，实现了...

2020-12-10 18:32:50

374

DeepMind发布强化学习库RLax

RLax（发音为“ relax”）是建立在JAX之上的库，它公开了用于实施强化学习智能体的有用构建块。。报道：深度强化学习实验室作者：DeepRL ...

2020-12-10 18:43:23

499

强化学习在智能对话上的应用介绍

本文主要介绍深度强化学习在任务型对话上的应用，两者的结合点主要是将深度强化学习应用于任务型对话的策略学习上来源：腾讯技术工程微信号

2020-12-10 19:02:45

781

从五个方面详谈机器学习和深度学习的区别

继系列上一篇所以，机器学习和深度学习的区别是什么？浅谈后，今天继续深入探讨两者的更多区别。

2021-03-01 15:44:42

15804

机器学习中的无模型强化学习算法及研究综述

强化学习（ Reinforcement learning，RL）作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式，通过与环境进行交互来学习，最终将累积收益最大化。常用的强化学习算法分为

2021-04-08 11:41:58

模型化深度强化学习应用研究综述

深度强化学习（DRL）作为机器学习的重要分攴，在 Alphago击败人类后受到了广泛关注。DRL以种试错机制与环境进行交互，并通过最大化累积奖赏最终得到最优策略。强化学习可分为无模型强化学习和模型

2021-04-12 11:01:52

当机器人遇见强化学习，会碰出怎样的火花？

当机器人遇见强化学习，会碰出怎样的火花？一名叫 Cassie 的机器人，给出了生动演绎。最近，24 岁的中国南昌小伙李钟毓和其所在团队，用强化学习教 Cassie 走路，目前它已学会蹲伏走路

2021-04-13 09:35:09

2164

强化学习的双权重最小二乘Sarsa算法

强化学习是人工智能领域中的一个研究热点。在求解强化学习问题时，传统的最小二乘法作为一类特殊的函数逼近学习方法，具有收敛速度快、充分利用样本数据的优势。通过对最小二乘时序差分算法

2021-04-23 15:03:03

基于深度强化学习的路口单交叉信号控制

利用深度强化学习技术实现路口信号控制是智能交通领域的硏究热点。现有硏究大多利用强化学习来全面刻画交通状态以及设计有效强化学习算法以解决信号配时问题，但这些研究往往忽略了信号灯状态对动作选择的影响以及

2021-04-23 15:30:53

基于强化学习的壮语词标注方法

目前壮语智能信息处理研究处于起步阶段，缺乏自动词性标注方法。针对壮语标注语料匮乏、人工标注费时费力而机器标注性能较差的现状，提出一种基于强化学习的壮语词性标注方法。依据壮语的文法特点和中文宾州

2021-05-14 11:29:35

基于深度强化学习仿真集成的压边力控制模型

压边为改善板料拉深制造的成品质量，釆用深度强化学习的方法进行拉深过程旳压边力优化控制。提岀一种基于深度强化学习与有限元仿真集成的压边力控制模型，结合深度神经网络的感知能力与强化学习的决策能力，进行

2021-05-27 10:32:39

一种新型的多智能体深度强化学习算法

一种新型的多智能体深度强化学习算法

2021-06-23 10:42:47

基于深度强化学习的无人机控制律设计方法

基于深度强化学习的无人机控制律设计方法

2021-06-23 14:59:10

基于强化学习的虚拟场景角色乒乓球训练

基于强化学习的虚拟场景角色乒乓球训练

2021-06-27 11:34:33

使用Matlab进行强化学习电子版资源下载

使用Matlab进行强化学习电子版资源下载

2021-07-16 11:17:09

《自动化学报》—多Agent深度强化学习综述

多Agent 深度强化学习综述来源：《自动化学报》，作者梁星星等摘要近年来,深度强化学习(Deep reinforcement learning,DRL) 在诸多复杂序贯决策问题中取得巨大

2022-01-18 10:08:01

1226

Oneflow 实现强化学习玩 Flappy Bird 小游戏

本文主要内容是如何用Oenflow去复现强化学习玩 Flappy Bird 小游戏这篇论文的算法关键部分，还有记录复现过程中一些踩过的坑。

2022-01-26 18:19:34

GTC2022大会黄仁勋：NVIDIA NVCell强化学习模型正在执行芯片布局

GTC2022大会黄仁勋：NVIDIA NVCell强化学习模型正在执行芯片布局，具备语言监督的多模态学习为计算机视觉开拓了新维度。

2022-03-23 15:23:55

1720

强化学习的基础知识和6种基本算法解释

来源：DeepHub IMBA 强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。监督学习(SL) ：关注在给

2022-12-20 14:00:02

828

ESP32上的深度强化学习

电子发烧友网站提供《ESP32上的深度强化学习.zip》资料免费下载

2022-12-27 10:31:45

7个流行的强化学习算法及代码实现

作者：Siddhartha Pramanik 来源：DeepHub IMBA 目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。这些算法

2023-02-03 20:15:06

747

强化学习与智能驾驶决策规划

本文介绍了强化学习与智能驾驶决策规划。智能驾驶中的决策规划模块负责将感知模块所得到的环境信息转化成具体的驾驶策略，从而指引车辆安全、稳定的行驶。真实的驾驶场景往往具有高度的复杂性及不确定性。如何制定

2023-02-08 14:05:16

1441

基于多智能体强化学习的自主移动机器人实时订单调度

订单调度，提出了一种使用多agent强化学习的方法，其中AMRagent根据各自的观察学习对订单进行投标。在机器人仿真环境中研究了该方法。结果表明，与常用的调度规则相比，该算法的订单分配效率更高。

2023-04-11 10:59:24

机器学习笔记之优化-拉格朗日乘子法和对偶分解

优化是机器学习中的关键步骤。在这个机器学习系列中，我们将简要介绍优化问题，然后探讨两种特定的优化方法，即拉格朗日乘子和对偶分解。这两种方法在机器学习、强化学习和图模型中非常流行。

2023-05-30 16:47:17

1339

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习。

2023-06-09 09:23:23

355

强化学习的基础知识和6种基本算法解释

来源：DeepHubIMBA强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。监督学习(SL)：关注在给定标记训练数据

2023-01-05 14:54:05

419

7个流行的强化学习算法及代码实现

作者：SiddharthaPramanik来源：DeepHubIMBA目前流行的强化学习算法包括Q-learning、SARSA、DDPG、A2C、PPO、DQN和TRPO。这些算法已被用于在游戏

2023-02-06 15:06:38

665

人工智能强化学习开源分享

电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载

2023-06-20 09:27:28

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联合回归与深度

2023-07-19 14:35:02

模拟矩阵在深度强化学习智能控制系统中的应用

讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵，来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果，从而优化控制策略和提高系统的性能

2023-09-04 14:26:36

296

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

扩散模型（diffusion model）在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习（RL）中来解决序列决策问题

2023-10-02 10:45:02

403

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋上击败世界第一李世石的 AlphaGo、在《星际争霸2》中以 10：1 击败了人类顶级职业玩家

2023-10-30 11:36:40

1051

已全部加载完成

搜索历史

一文详谈机器学习的强化学习

评论