强化学习不像监督学习那样有自己明确的目标,强化学习可以看成是一个记分的系统,记住及其获得低分和高分的行为,然后不断要求机器能取得高分的同时避免低分。你也可以把它当成分数导向的系统,跟监督学习的标签一样。

整个强化学习系统由智能体(Agent)、观察(Observation)、奖赏(Reward)、动作(Action)和环境(Environment)
五部分组成,系统示意图如下图所示。






我们根据环境将机器分为两种:不理解环境(model-free RL) 和理解环境的(model-base RL).

不理解环境 (Model-free learning)——对地球一无所知…
1.机器人不懂得环境是什么样子,它会通过自己在环境中不断试错,以获得行为上的改变。
2.这类模型常用的有Q-learning(Valued-based Approach,Learning an Critic),Policy
Gradients(Policy-based Approach,Learning an Actor).

理解环境的 (Model-base learning)——先验知识,如:地球由几大洲、几大洋组成…
1.机器人会通过先验的知识来先理解这个真实世界是怎么样子的,然后用一个模型来模拟现实世界的反馈,这样它就可以在它自己虚拟的世界中玩耍了。
2.与Model-free中的玩耍方式一样,但Model-base有两个世界,不仅能在现实世界中玩耍,也能在自己虚拟的世界中玩耍。
3.这类模型常用的有Table Lookup Model,Linear Exception Model,Linear Gaussian
Model,Guassian Process Model,Deep Belief Network Model…
4.最大的特色—想象力
,Model-free只能在一次行动之后静静得等待现实世界给的反馈然后再采取行动,而Model-base可以采用想象力预判接下来发生的所有情况,然后根据这些想象的情况选择最好的那种,并根据这种情况来采取下一步的策略。

References:
[1] 强化学习(RL)原理以及数学模型
<https://blog.csdn.net/qq_39422642/article/details/79095237>
[2] 王威老师《深度学习》课件



©qingdujun
2018-6-9 于 北京 怀柔


友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信