强化学习 | Vozhuo's Blog

深度强化学习之DQN系列

基础（Q-Learning） Q即为Q（s,a），就是在某一时刻的 s 状态下，采取动作a动作能够获得奖励的期望。环境会根据智能体的动作反馈相应的奖励 r。算法的主要思想就是将状态（state）与动作（action）构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。Q-Learning的算法如下： ...

深度强化学习总览

概念强化学习的基本思想是通过最大化智能体（Agent）从环境中获得的累计奖赏值，以学习到完成目标的最优策略。强化学习中的基本要素包括： ...

机器学习之强化学习

强化学习是机器学习的子领域之一。智能体（Agent）通过与环境（Environment）互动，来学习采取何种行动（Action）能使其在给定环境中的奖励（Reward）最大化。 ...