MLRLMLRL强化学习(RL)入门
Exisfar强化学习(RL)入门
RL算法必须通过环境提供的反馈来学习。
体现强化学习本质的通用训练循环框架
通过标准化接口交互(所有RL库都遵循此设计):
env = YourEnv() agent = YourAlgo()
for episode in range(1000): obs, info = env.reset() done = False while not done: action = agent.predict(obs) next_obs, reward, terminated, truncated, info = env.step(action) agent.learn(obs, action, reward, terminated, next_obs) obs = next_obs
|
Agent, Algorithm, Environment之间的关系
Agent 使用 Algorithm 在 Environment 中通过试错学习最优策略。
- 环境是规则验证场(提供反馈)
- 算法是学习规则(如何改进)
- 智能体是执行单元(做决策)
graph LR A[Agent] -->|执行动作| B[Environment] B -->|返回状态/奖励| A A -->|学习| C[Algorithm] C -->|更新策略| A
style A fill:#f9f,stroke:#333 style B fill:#bbf,stroke:#333 style C fill:#9f9,stroke:#333
|