🏃 训练环境
📊 训练统计
回合数
0
总奖励
0
平均奖励
0
成功率
0%
Reinforcement Learning Arena - 训练智能体通过奖励学习最优策略
智能体 (Agent): 学习做决策的实体
环境 (Environment): 智能体交互的世界
状态 (State): 环境的当前情况
动作 (Action): 智能体可以执行的操作
奖励 (Reward): 环境对动作的反馈信号
策略 (Policy): 从状态到动作的映射
价值函数 (Value Function): 预测未来累积奖励
Q-Learning: Off-policy,学习最优Q值,探索性强
SARSA: On-policy,学习当前策略的Q值,更保守
PPO: 策略梯度方法,适合连续动作空间
应用场景: ChatGPT等大语言模型的对齐训练
核心思想: 用人类偏好作为奖励信号,训练模型生成更符合人类期望的输出
三个阶段: