强化学习（RL）基本概念 - 好文

强化学习不像监督学习那样有自己明确的目标，强化学习可以看成是一个记分的系统，记住及其获得低分和高分的行为，然后不断要求机器能取得高分的同时避免低分。你也可以把它当成分数导向的系统，跟监督学习的标签一样。

整个强化学习系统由智能体（Agent）、观察（Observation）、奖赏（Reward）、动作（Action）和环境（Environment）
五部分组成，系统示意图如下图所示。

我们根据环境将机器分为两种：不理解环境（model-free RL）和理解环境的（model-base RL）.

不理解环境（Model-free learning）——对地球一无所知…
1.机器人不懂得环境是什么样子，它会通过自己在环境中不断试错，以获得行为上的改变。
2.这类模型常用的有Q-learning（Valued-based Approach,Learning an Critic）,Policy
Gradients（Policy-based Approach,Learning an Actor）.

理解环境的（Model-base learning）——先验知识，如：地球由几大洲、几大洋组成…
1.机器人会通过先验的知识来先理解这个真实世界是怎么样子的，然后用一个模型来模拟现实世界的反馈，这样它就可以在它自己虚拟的世界中玩耍了。
2.与Model-free中的玩耍方式一样，但Model-base有两个世界，不仅能在现实世界中玩耍，也能在自己虚拟的世界中玩耍。
3.这类模型常用的有Table Lookup Model,Linear Exception Model,Linear Gaussian
Model,Guassian Process Model,Deep Belief Network Model…
4.最大的特色—想象力
，Model-free只能在一次行动之后静静得等待现实世界给的反馈然后再采取行动，而Model-base可以采用想象力预判接下来发生的所有情况，然后根据这些想象的情况选择最好的那种，并根据这种情况来采取下一步的策略。

References:
[1] 强化学习（RL）原理以及数学模型
<https://blog.csdn.net/qq_39422642/article/details/79095237>
[2] 王威老师《深度学习》课件

©qingdujun
2018-6-9 于北京怀柔

热门工具换一换