1 周之前 · 6b961ef0e2
--- a/docs/guguji_biped_rl_guide.md
+++ b/docs/guguji_biped_rl_guide.md
@@ -235,6 +235,7 @@ ros2 launch guguji_ros2 gazebo.launch.py gui:=false pause:=true
 
				 4. 训练出基础平衡模型后，用 `forward_transition_ppo.yaml` 做轻微前进过渡。
			
 
				 5. 观察 `/joint_states` 和 `/tf`，检查机器人是否会频繁倒地，是否开始出现轻微向前趋势。
			
 
				 6. 调整奖励和关节范围后，再切到 `walk_ppo.yaml`。
			
 
				+7. `walk_ppo.yaml` 现在已经支持自动课程学习，会按 `0.18 -> 0.22 -> 0.26 m/s` 逐段抬升目标速度。
			
 
				 
			
 
				 ## 11. 怎么快速比较“这轮训练到底有没有更往前走”
			
 
				 
			
@@ -258,6 +259,29 @@ python3 scripts/evaluate_forward_progress.py \
 
				 
			
 
				 这样你后面对比不同 walking 配置时，不需要每次肉眼猜模型是不是更会往前走，终端里会直接给出量化结果。
			
 
				 
			
 
				+## 12. walking 阶段为什么建议用三段速度课程
			
 
				+
			
 
				+如果一上来就把 `task.target_forward_velocity` 顶到较高值，双足机器人很容易出现两种情况：
			
 
				+
			
 
				+- 原地乱摆腿，但身体没有稳定前移
			
 
				+- 为了追速度直接前扑，episode 很短
			
 
				+
			
 
				+所以现在的 `configs/walk_ppo.yaml` 已经内置三段课程：
			
 
				+
			
 
				+- `0.18 m/s`
			
 
				+- `0.22 m/s`
			
 
				+- `0.26 m/s`
			
 
				+
			
 
				+训练时直接运行一次：
			
 
				+
			
 
				+```bash
			
 
				+cd /home/corvin/Project/guguji_simulation/guguji_rl
			
 
				+source .venv/bin/activate
			
 
				+python3 scripts/train.py --config configs/walk_ppo.yaml
			
 
				+```
			
 
				+
			
 
				+`train.py` 会自动把这三段串起来训练，并把每一段的模型分别保存到输出目录下的阶段子目录中。
			
 
				+
			
 
				 ## 10. 训练完成后怎么在 ROS 2 里持续控制
			
 
				 
			
 
				 训练完成后，建议分成两步：
			
--- a/guguji_rl/README.md
+++ b/guguji_rl/README.md
@@ -28,6 +28,7 @@
 
				 3. 先跑 `balance_ppo.yaml` 训练站立平衡
			
 
				 4. 再跑 `forward_transition_ppo.yaml` 做轻微前进过渡训练
			
 
				 5. 最后再跑 `walk_ppo.yaml` 训练正式前进
			
 
				+6. `walk_ppo.yaml` 现在已经内置了 `0.18 -> 0.22 -> 0.26` 的 walking 课程阶段
			
 
				 6. 训练出模型后，先用 `evaluate_forward_progress.py` 看前进效果，再用 `run_policy.py` 在 ROS 2 系统中持续推理控制
			
 
				 7. 每轮训练结束后，`train.py` 会自动输出一次 `delta_x / mean_vx` 前进评估
			
 
				 
			
@@ -100,3 +101,18 @@ python3 scripts/train.py \
 
				   --config configs/forward_transition_ppo.yaml \
			
 
				   --init-model outputs/<你的平衡实验目录>/final_model.zip
			
 
				 ```
			
 
				+
			
 
				+对于 `walk_ppo.yaml`，现在不需要你手动分三次启动训练。
			
 
				+只要直接运行一次：
			
 
				+
			
 
				+```bash
			
 
				+cd /home/corvin/Project/guguji_simulation/guguji_rl
			
 
				+source .venv/bin/activate
			
 
				+python3 scripts/train.py --config configs/walk_ppo.yaml
			
 
				+```
			
 
				+
			
 
				+`train.py` 会自动按下面三段课程顺序继续训练，并把每段的模型单独保存到对应子目录：
			
 
				+
			
 
				+- `0.18 m/s`
			
 
				+- `0.22 m/s`
			
 
				+- `0.26 m/s`
			
--- a/guguji_rl/configs/walk_ppo.yaml
+++ b/guguji_rl/configs/walk_ppo.yaml
@@ -14,31 +14,35 @@ robot:
 
				     - right_ankle_pitch_joint
			
 
				     - right_ankle_joint
			
 
				   command_topic_prefix: /guguji/command
			
 
				-  # walking 首版仍然采用“名义站姿 + 残差动作”的方式，
			
 
				-  # 这样可以直接沿用 transition 阶段已经学到的稳定姿态能力。
			
 
				+  # 这一轮先把名义站姿改成“轻微屈膝 + 踝关节回正”的准备姿态，
			
 
				+  # 这样双腿更容易迈起来，而不是笔直站住后原地小幅摆动。
			
 
				   nominal_joint_positions:
			
 
				-    left_hip_pitch_joint: 0.0
			
 
				-    left_knee_pitch_joint: 0.0
			
 
				-    left_ankle_pitch_joint: 0.0
			
 
				+    left_hip_pitch_joint: 0.04
			
 
				+    left_knee_pitch_joint: 0.18
			
 
				+    left_ankle_pitch_joint: -0.10
			
 
				     left_ankle_joint: 0.0
			
 
				-    right_hip_pitch_joint: 0.0
			
 
				-    right_knee_pitch_joint: 0.0
			
 
				-    right_ankle_pitch_joint: 0.0
			
 
				+    right_hip_pitch_joint: 0.04
			
 
				+    right_knee_pitch_joint: 0.18
			
 
				+    right_ankle_pitch_joint: -0.10
			
 
				     right_ankle_joint: 0.0
			
 
				-  # 这一轮改成“参考步态 + 残差动作”：
			
 
				-  # 先让双腿有明确的交替摆动节奏，再由策略学习如何稳住并把步态转成前进。
			
 
				+  # 这一轮继续保留“参考步态 + 残差动作”，
			
 
				+  # 但把残差动作再压小一点，让参考步态主导迈腿，PPO 主要负责微调。
			
 
				   reference_gait:
			
 
				     enabled: true
			
 
				-    period: 0.80
			
 
				-    # 让摆动期更短、支撑期更长，更像真正向前走时的步态节奏。
			
 
				-    stance_ratio: 0.62
			
 
				-    hip_pitch_amplitude: 0.28
			
 
				-    knee_pitch_amplitude: 0.36
			
 
				-    knee_pitch_bias: 0.08
			
 
				-    ankle_pitch_amplitude: 0.18
			
 
				-  # 参考步态已经会主动摆腿，所以残差动作幅度可以适当收小一点。
			
 
				-  action_scale: 0.18
			
 
				-  action_smoothing: 0.72
			
 
				+    period: 0.72
			
 
				+    # 支撑期稍长，保证落脚稳定；摆动期稍快，用于保持清晰的迈腿节奏。
			
 
				+    stance_ratio: 0.60
			
 
				+    hip_pitch_amplitude: 0.34
			
 
				+    hip_pitch_bias: 0.04
			
 
				+    knee_pitch_amplitude: 0.46
			
 
				+    knee_pitch_bias: 0.12
			
 
				+    swing_knee_scale: 1.10
			
 
				+    ankle_pitch_amplitude: 0.22
			
 
				+    ankle_pitch_bias: -0.05
			
 
				+    push_off_ankle_scale: 0.22
			
 
				+  # 把残差动作进一步收小，这样就算旧策略权重带来偏置，也不容易把机器人直接打翻。
			
 
				+  action_scale: 0.08
			
 
				+  action_smoothing: 0.82
			
 
				 
			
 
				 ros:
			
 
				   joint_state_topic: /joint_states
			
@@ -51,7 +55,7 @@ sim:
 
				   # walking 训练继续使用 service_step，便于一步动作对应一步奖励。
			
 
				   step_mode: service_step
			
 
				   control_dt: 0.05
			
 
				-  # 仍然略高于上一版 walking，用于放大迈步动作的实际位移。
			
 
				+  # 这一版把一步动作在 Gazebo 中的作用时间略微收回一点，优先保稳定。
			
 
				   service_step_iterations: 22
			
 
				   reset_settle_seconds: 1.0
			
 
				   reset_hold_steps: 6
			
@@ -68,49 +72,67 @@ sim:
 
				   launch_hint: ros2 launch guguji_ros2 gazebo.launch.py pause:=true
			
 
				 
			
 
				 task:
			
 
				-  # 参考步态接入后，把目标速度继续往上推，逼着策略把摆腿转成前进位移。
			
 
				-  target_forward_velocity: 0.22
			
 
				+  # 这里保留最终阶段的目标速度；真正训练时会由下面的 curriculum_stages
			
 
				+  # 先走 0.18 -> 0.22，再抬到 0.26，避免一开始就把 walking 强度顶太高。
			
 
				+  target_forward_velocity: 0.26
			
 
				   target_base_height: null
			
 
				   # 允许稍大一点机体摆动，为迈步时的动态平衡留空间。
			
 
				   max_roll_rad: 0.90
			
 
				   max_pitch_rad: 0.90
			
 
				   min_base_height: 0.21
			
 
				-  termination_grace_steps: 12
			
 
				+  termination_grace_steps: 18
			
 
				 
			
 
				 rewards:
			
 
				-  # 参考步态已经负责“先迈起来”，这里的奖励更聚焦于“迈起来以后要往前走”。
			
 
				+  # 奖励函数这轮更偏向“真正前进”，同时保留基础稳定性约束。
			
 
				   alive_bonus: 0.6
			
 
				-  velocity_tracking_scale: 4.2
			
 
				-  velocity_tracking_sigma: 0.09
			
 
				-  forward_progress_scale: 5.0
			
 
				-  hip_alternation_scale: 0.4
			
 
				-  hip_target_separation: 0.35
			
 
				+  velocity_tracking_scale: 4.8
			
 
				+  velocity_tracking_sigma: 0.10
			
 
				+  forward_progress_scale: 6.0
			
 
				+  hip_alternation_scale: 0.5
			
 
				+  hip_target_separation: 0.36
			
 
				   hip_antiphase_sigma: 0.18
			
 
				-  knee_flexion_scale: 0.3
			
 
				-  knee_target: 0.22
			
 
				-  knee_flexion_sigma: 0.12
			
 
				+  knee_flexion_scale: 0.35
			
 
				+  knee_target: 0.28
			
 
				+  knee_flexion_sigma: 0.15
			
 
				   upright_scale: 1.6
			
 
				   height_scale: 0.9
			
 
				-  action_rate_penalty_scale: 0.006
			
 
				+  action_rate_penalty_scale: 0.004
			
 
				   joint_limit_penalty_scale: 0.05
			
 
				-  lateral_velocity_penalty_scale: 0.10
			
 
				-  backward_velocity_penalty_scale: 2.5
			
 
				-  stall_penalty_scale: 4.0
			
 
				-  stall_velocity_threshold: 0.08
			
 
				+  lateral_velocity_penalty_scale: 0.08
			
 
				+  backward_velocity_penalty_scale: 2.8
			
 
				+  stall_penalty_scale: 4.6
			
 
				+  stall_velocity_threshold: 0.10
			
 
				   fall_penalty: -15.0
			
 
				 
			
 
				 training:
			
 
				   algorithm: ppo
			
 
				-  # 继续做 10000 步验证，看这版更激进的前进奖励能否带来明显位移。
			
 
				+  # 这里的 total_timesteps 是“无课程模式”的兜底值；
			
 
				+  # 只要 curriculum_stages 非空，train.py 就会按阶段自己的 timesteps 顺序训练。
			
 
				   total_timesteps: 10000
			
 
				   max_episode_steps: 500
			
 
				   seed: 42
			
 
				-  device: auto
			
 
				-  # 由于参考步态接入后控制结构变化较大，这里仍然沿用最新 walking 模型作为初始化，
			
 
				-  # 但把学习率压得更低，让策略以“细修”的方式适应新节奏。
			
 
				-  init_model_path: outputs/walk_ppo_20260412_181640/final_model.zip
			
 
				-  # 显著降低学习率，并增大 rollout 长度，避免刚才那种更新过猛导致的退化。
			
 
				-  learning_rate: 0.00008
			
 
				+  device: cuda
			
 
				+  # 从当前最新的 walking 模型继续训，避免把已经学到的基础摆腿能力丢掉。
			
 
				+  init_model_path: outputs/walk_ppo_20260412_183147/final_model.zip
			
 
				+  # 课程学习的这一步不希望探索噪声太大，否则旧策略刚学到的迈腿节奏会被打散。
			
 
				+  initial_log_std: -2.2
			
 
				+  # walking 改成三段式课程：
			
 
				+  # 先让机器人适应 0.18 的低速稳定前进，再逐步爬到 0.22 和 0.26。
			
 
				+  curriculum_stages:
			
 
				+    - name: walk_v018
			
 
				+      target_forward_velocity: 0.18
			
 
				+      total_timesteps: 3000
			
 
				+      initial_log_std: -2.3
			
 
				+    - name: walk_v022
			
 
				+      target_forward_velocity: 0.22
			
 
				+      total_timesteps: 3000
			
 
				+      initial_log_std: -2.25
			
 
				+    - name: walk_v026
			
 
				+      target_forward_velocity: 0.26
			
 
				+      total_timesteps: 4000
			
 
				+      initial_log_std: -2.2
			
 
				+  # 学习率再收一点，避免在新步态逻辑下前几轮就把稳定性学坏。
			
 
				+  learning_rate: 0.00006
			
 
				   n_steps: 256
			
 
				   batch_size: 128
			
 
				   gamma: 0.99
			
--- a/guguji_rl/guguji_rl/config.py
+++ b/guguji_rl/guguji_rl/config.py
@@ -6,6 +6,9 @@ from typing import Any
 
				 
			
 
				 import yaml
			
 
				 
			
 
				+MODULE_ROOT = Path(__file__).resolve().parents[1]
			
 
				+PROJECT_ROOT = MODULE_ROOT.parent
			
 
				+
			
 
				 
			
 
				 DEFAULT_CONFIG: dict[str, Any] = {
			
 
				     'experiment': {
			
@@ -21,9 +24,13 @@ DEFAULT_CONFIG: dict[str, Any] = {
 
				             'period': 0.9,
			
 
				             'stance_ratio': 0.62,
			
 
				             'hip_pitch_amplitude': 0.0,
			
 
				+            'hip_pitch_bias': 0.0,
			
 
				             'knee_pitch_amplitude': 0.0,
			
 
				             'knee_pitch_bias': 0.0,
			
 
				+            'swing_knee_scale': 1.0,
			
 
				             'ankle_pitch_amplitude': 0.0,
			
 
				+            'ankle_pitch_bias': 0.0,
			
 
				+            'push_off_ankle_scale': 0.0,
			
 
				         },
			
 
				     },
			
 
				     'ros': {
			
@@ -75,16 +82,18 @@ DEFAULT_CONFIG: dict[str, Any] = {
 
				         'stall_velocity_threshold': 0.0,
			
 
				         'fall_penalty': -10.0,
			
 
				     },
			
 
				-    'training': {
			
 
				-        'algorithm': 'ppo',
			
 
				-        'total_timesteps': 200000,
			
 
				-        'max_episode_steps': 400,
			
 
				-        'seed': 42,
			
 
				-        'device': 'auto',
			
 
				-        'init_model_path': None,
			
 
				-        'learning_rate': 3e-4,
			
 
				-        'n_steps': 1024,
			
 
				-        'batch_size': 256,
			
 
				+        'training': {
			
 
				+            'algorithm': 'ppo',
			
 
				+            'total_timesteps': 200000,
			
 
				+            'max_episode_steps': 400,
			
 
				+            'seed': 42,
			
 
				+            'device': 'auto',
			
 
				+            'init_model_path': None,
			
 
				+            'initial_log_std': None,
			
 
				+            'curriculum_stages': [],
			
 
				+            'learning_rate': 3e-4,
			
 
				+            'n_steps': 1024,
			
 
				+            'batch_size': 256,
			
 
				         'gamma': 0.99,
			
 
				         'gae_lambda': 0.95,
			
 
				         'clip_range': 0.2,
			
@@ -122,8 +131,10 @@ def load_config(config_path: str | Path) -> dict[str, Any]:
 
				     config = _deep_update(copy.deepcopy(DEFAULT_CONFIG), user_config)
			
 
				     config['meta'] = {
			
 
				         'config_path': str(config_path),
			
 
				-        'project_root': str(config_path.parents[2]),
			
 
				-        'rl_root': str(config_path.parents[1]),
			
 
				+        # 不再假设配置文件一定放在仓库里的固定层级，
			
 
				+        # 这样外部临时配置、导出的实验配置也可以直接拿来训练。
			
 
				+        'project_root': str(PROJECT_ROOT),
			
 
				+        'rl_root': str(MODULE_ROOT),
			
 
				     }
			
 
				     return config
			
 
				 
			
--- a/guguji_rl/guguji_rl/envs/gazebo_biped_env.py
+++ b/guguji_rl/guguji_rl/envs/gazebo_biped_env.py
@@ -135,43 +135,52 @@ class GazeboBipedEnv(gym.Env):
 
				             return offsets
			
 
				 
			
 
				         hip_amplitude = float(self.reference_gait_config.get('hip_pitch_amplitude', 0.0))
			
 
				+        hip_bias = float(self.reference_gait_config.get('hip_pitch_bias', 0.0))
			
 
				         knee_amplitude = float(self.reference_gait_config.get('knee_pitch_amplitude', 0.0))
			
 
				         knee_bias = float(self.reference_gait_config.get('knee_pitch_bias', 0.0))
			
 
				+        swing_knee_scale = float(self.reference_gait_config.get('swing_knee_scale', 1.0))
			
 
				         ankle_amplitude = float(self.reference_gait_config.get('ankle_pitch_amplitude', 0.0))
			
 
				+        ankle_bias = float(self.reference_gait_config.get('ankle_pitch_bias', 0.0))
			
 
				+        push_off_ankle_scale = float(self.reference_gait_config.get('push_off_ankle_scale', 0.0))
			
 
				         stance_ratio = float(self.reference_gait_config.get('stance_ratio', 0.62))
			
 
				         stance_ratio = float(np.clip(stance_ratio, 0.05, 0.95))
			
 
				 
			
 
				-        def gait_profile(phase: float) -> tuple[float, float]:
			
 
				-            """返回该相位下的髋关节目标形状和膝关节摆动形状。"""
			
 
				+        def gait_profile(phase: float) -> tuple[float, float, float]:
			
 
				+            """返回该相位下的髋、膝、踝参考轨迹形状。"""
			
 
				             phase = phase % 1.0
			
 
				             if phase < stance_ratio:
			
 
				                 stance_progress = phase / stance_ratio
			
 
				-                # 支撑期：腿缓慢向后划，形成推地趋势。
			
 
				-                hip_profile = -1.0 + 2.0 * stance_progress
			
 
				-                knee_profile = 0.0
			
 
				+                # 支撑期：落脚时腿应在身体前方，随后逐渐向后划过身体，
			
 
				+                # 这样才更容易把机体“送”向前方，而不是原地踏步。
			
 
				+                hip_profile = 1.0 - 2.0 * stance_progress
			
 
				+                knee_profile = 0.18 * math.sin(math.pi * stance_progress)
			
 
				+                push_off_progress = max((stance_progress - 0.60) / 0.40, 0.0)
			
 
				+                ankle_profile = -0.70 * hip_profile + push_off_ankle_scale * push_off_progress
			
 
				             else:
			
 
				                 swing_progress = (phase - stance_ratio) / (1.0 - stance_ratio)
			
 
				-                # 摆动期：腿更快地向前回摆，并伴随膝关节抬腿。
			
 
				-                hip_profile = 1.0 - 2.0 * swing_progress
			
 
				-                knee_profile = math.sin(math.pi * swing_progress)
			
 
				-            return hip_profile, knee_profile
			
 
				+                # 摆动期：腿从身体后方快速回摆到前方，同时膝关节明显抬起，
			
 
				+                # 这样 Gazebo 里能更容易看到“迈腿”的效果。
			
 
				+                hip_profile = -1.0 + 2.0 * swing_progress
			
 
				+                knee_profile = swing_knee_scale * math.sin(math.pi * swing_progress)
			
 
				+                ankle_profile = -0.45 * hip_profile - 0.25 * math.sin(math.pi * swing_progress)
			
 
				+            return hip_profile, knee_profile, ankle_profile
			
 
				 
			
 
				-        left_hip_profile, left_knee_profile = gait_profile(self.gait_phase)
			
 
				-        right_hip_profile, right_knee_profile = gait_profile(self.gait_phase + 0.5)
			
 
				+        left_hip_profile, left_knee_profile, left_ankle_profile = gait_profile(self.gait_phase)
			
 
				+        right_hip_profile, right_knee_profile, right_ankle_profile = gait_profile(self.gait_phase + 0.5)
			
 
				 
			
 
				         for index, joint_name in enumerate(self.joint_names):
			
 
				             if joint_name == 'left_hip_pitch_joint':
			
 
				-                offsets[index] = hip_amplitude * left_hip_profile
			
 
				+                offsets[index] = hip_bias + hip_amplitude * left_hip_profile
			
 
				             elif joint_name == 'right_hip_pitch_joint':
			
 
				-                offsets[index] = hip_amplitude * right_hip_profile
			
 
				+                offsets[index] = hip_bias + hip_amplitude * right_hip_profile
			
 
				             elif joint_name == 'left_knee_pitch_joint':
			
 
				                 offsets[index] = knee_bias + knee_amplitude * left_knee_profile
			
 
				             elif joint_name == 'right_knee_pitch_joint':
			
 
				                 offsets[index] = knee_bias + knee_amplitude * right_knee_profile
			
 
				             elif joint_name == 'left_ankle_pitch_joint':
			
 
				-                offsets[index] = -ankle_amplitude * left_hip_profile
			
 
				+                offsets[index] = ankle_bias + ankle_amplitude * left_ankle_profile
			
 
				             elif joint_name == 'right_ankle_pitch_joint':
			
 
				-                offsets[index] = -ankle_amplitude * right_hip_profile
			
 
				+                offsets[index] = ankle_bias + ankle_amplitude * right_ankle_profile
			
 
				 
			
 
				         return offsets
			
 
				 
			
--- a/guguji_rl/guguji_rl/ros2_interface.py
+++ b/guguji_rl/guguji_rl/ros2_interface.py
@@ -287,13 +287,28 @@ class GugujiRos2Interface:
 
				             f'x: {qx} y: {qy} z: {qz} w: {qw} '
			
 
				             '}'
			
 
				         )
			
 
				-        self._run_ign_service(
			
 
				-            service_name=f'/world/{self._world_name}/set_pose',
			
 
				-            request_type='ignition.msgs.Pose',
			
 
				-            response_type='ignition.msgs.Boolean',
			
 
				-            request_payload=set_pose_payload,
			
 
				-            timeout_ms=5000,
			
 
				-        )
			
 
				+        last_error: RuntimeError | None = None
			
 
				+        for attempt_index in range(3):
			
 
				+            try:
			
 
				+                # Gazebo Fortress 在长时间训练时偶尔会让 set_pose 服务响应变慢，
			
 
				+                # 这里给更宽裕的超时，并在失败时做短暂重试，避免整轮训练被偶发抖动打断。
			
 
				+                self._run_ign_service(
			
 
				+                    service_name=f'/world/{self._world_name}/set_pose',
			
 
				+                    request_type='ignition.msgs.Pose',
			
 
				+                    response_type='ignition.msgs.Boolean',
			
 
				+                    request_payload=set_pose_payload,
			
 
				+                    timeout_ms=12000,
			
 
				+                )
			
 
				+                last_error = None
			
 
				+                break
			
 
				+            except RuntimeError as error:
			
 
				+                last_error = error
			
 
				+                self.control_world(pause=True, timeout=5.0)
			
 
				+                time.sleep(0.2 * (attempt_index + 1))
			
 
				+
			
 
				+        if last_error is not None:
			
 
				+            raise last_error
			
 
				+
			
 
				         time.sleep(0.2)
			
 
				         self.control_world(pause=pause_after_reset, timeout=5.0)
			
 
				 
			
--- a/guguji_rl/scripts/train.py
+++ b/guguji_rl/scripts/train.py
@@ -1,9 +1,11 @@
 
				 from __future__ import annotations
			
 
				 
			
 
				 import argparse
			
 
				+import copy
			
 
				 import sys
			
 
				 from datetime import datetime
			
 
				 from pathlib import Path
			
 
				+from typing import Any
			
 
				 
			
 
				 SCRIPT_ROOT = Path(__file__).resolve().parents[1]
			
 
				 if str(SCRIPT_ROOT) not in sys.path:
			
@@ -61,6 +63,62 @@ def resolve_input_path(path_str: str) -> Path:
 
				     return SCRIPT_ROOT / path
			
 
				 
			
 
				 
			
 
				+def maybe_override_policy_log_std(model: object, initial_log_std: float | None) -> None:
			
 
				+    """可选地缩小 PPO 的初始探索方差，适合课程学习后的精修阶段。"""
			
 
				+    if initial_log_std is None:
			
 
				+        return
			
 
				+    policy = getattr(model, 'policy', None)
			
 
				+    if policy is None or not hasattr(policy, 'log_std'):
			
 
				+        raise RuntimeError('当前策略对象不支持直接设置 log_std。')
			
 
				+
			
 
				+    # 这里直接把每个动作维度的对数标准差统一改成同一个值，
			
 
				+    # 方便在“已有步态基础上继续训练”时降低探索噪声，减少无意义的乱踢。
			
 
				+    policy.log_std.data.fill_(float(initial_log_std))
			
 
				+    print(f'已将策略初始 log_std 设为: {float(initial_log_std):.3f}')
			
 
				+
			
 
				+
			
 
				+def sanitize_stage_name(stage_name: str) -> str:
			
 
				+    sanitized = ''.join(
			
 
				+        character if character.isalnum() or character in {'-', '_'} else '_'
			
 
				+        for character in stage_name.strip()
			
 
				+    )
			
 
				+    return sanitized.strip('_') or 'stage'
			
 
				+
			
 
				+
			
 
				+def build_curriculum_stage_configs(config: dict[str, Any]) -> list[tuple[str | None, dict[str, Any]]]:
			
 
				+    """把课程学习阶段展开成一组可直接训练的独立配置。"""
			
 
				+    raw_stages = config['training'].get('curriculum_stages') or []
			
 
				+    if not raw_stages:
			
 
				+        single_stage_config = copy.deepcopy(config)
			
 
				+        single_stage_config['training'].pop('curriculum_stages', None)
			
 
				+        return [(None, single_stage_config)]
			
 
				+
			
 
				+    stage_configs: list[tuple[str | None, dict[str, Any]]] = []
			
 
				+    for stage_index, raw_stage in enumerate(raw_stages, start=1):
			
 
				+        if not isinstance(raw_stage, dict):
			
 
				+            raise RuntimeError('training.curriculum_stages 里的每个阶段都必须是字典。')
			
 
				+
			
 
				+        stage_config = copy.deepcopy(config)
			
 
				+        stage_config['training'].pop('curriculum_stages', None)
			
 
				+
			
 
				+        raw_name = str(raw_stage.get('name') or f'stage_{stage_index}')
			
 
				+        stage_name = f'{stage_index:02d}_{sanitize_stage_name(raw_name)}'
			
 
				+
			
 
				+        # 课程阶段目前主要控制“目标前进速度 + 本阶段训练步数 + 探索方差”。
			
 
				+        # 这样 walking 阶段就能从慢到快逐段抬升，而不用一次把目标速度顶太高。
			
 
				+        if 'target_forward_velocity' in raw_stage:
			
 
				+            stage_config['task']['target_forward_velocity'] = float(raw_stage['target_forward_velocity'])
			
 
				+        if 'total_timesteps' in raw_stage:
			
 
				+            stage_config['training']['total_timesteps'] = int(raw_stage['total_timesteps'])
			
 
				+        if 'initial_log_std' in raw_stage:
			
 
				+            stage_config['training']['initial_log_std'] = float(raw_stage['initial_log_std'])
			
 
				+
			
 
				+        stage_config['experiment']['name'] = f"{config['experiment']['name']}_{stage_name}"
			
 
				+        stage_configs.append((stage_name, stage_config))
			
 
				+
			
 
				+    return stage_configs
			
 
				+
			
 
				+
			
 
				 def main() -> int:
			
 
				     args = parse_args()
			
 
				 
			
@@ -95,65 +153,103 @@ def main() -> int:
 
				     run_dir.mkdir(parents=True, exist_ok=True)
			
 
				     # 保存一份展开后的配置，便于后面复现实验。
			
 
				     save_yaml(config, run_dir / 'resolved_config.yaml')
			
 
				-
			
 
				-    env = Monitor(GazeboBipedEnv(config))
			
 
				-    checkpoint_callback = CheckpointCallback(
			
 
				-        save_freq=max(int(config['training']['checkpoint_freq']), 1),
			
 
				-        save_path=str(run_dir / 'checkpoints'),
			
 
				-        name_prefix='guguji_ppo',
			
 
				-    )
			
 
				-
			
 
				-    policy_kwargs = {
			
 
				-        'net_arch': list(config['training']['policy_net_arch']),
			
 
				-    }
			
 
				+    stage_configs = build_curriculum_stage_configs(config)
			
 
				 
			
 
				     print(f"训练设备: {config['training']['device']}")
			
 
				     print(f"输出目录: {run_dir}")
			
 
				+    model = None
			
 
				+    final_model_path = run_dir / 'final_model'
			
 
				+    final_stage_config = config
			
 
				 
			
 
				-    # 先用 MLP + PPO 跑通训练闭环，后面你可以再逐步增大网络规模。
			
 
				-    model = PPO(
			
 
				-        policy='MlpPolicy',
			
 
				-        env=env,
			
 
				-        verbose=1,
			
 
				-        seed=int(config['training']['seed']),
			
 
				-        learning_rate=float(config['training']['learning_rate']),
			
 
				-        n_steps=int(config['training']['n_steps']),
			
 
				-        batch_size=int(config['training']['batch_size']),
			
 
				-        gamma=float(config['training']['gamma']),
			
 
				-        gae_lambda=float(config['training']['gae_lambda']),
			
 
				-        clip_range=float(config['training']['clip_range']),
			
 
				-        ent_coef=float(config['training']['ent_coef']),
			
 
				-        vf_coef=float(config['training']['vf_coef']),
			
 
				-        device=config['training']['device'],
			
 
				-        tensorboard_log=str(run_dir / 'tensorboard'),
			
 
				-        policy_kwargs=policy_kwargs,
			
 
				-    )
			
 
				+    for stage_index, (stage_name, stage_config) in enumerate(stage_configs, start=1):
			
 
				+        stage_dir = run_dir if stage_name is None else run_dir / stage_name
			
 
				+        stage_dir.mkdir(parents=True, exist_ok=True)
			
 
				+        # 每个阶段都单独保存一份实际生效的配置，后面你回看实验会很方便。
			
 
				+        save_yaml(stage_config, stage_dir / 'resolved_config.yaml')
			
 
				 
			
 
				-    init_model_path = config['training'].get('init_model_path')
			
 
				-    if init_model_path:
			
 
				-        resolved_init_model_path = resolve_input_path(str(init_model_path))
			
 
				-        # 这里不是直接 load 整个 PPO 对象，而是把旧模型参数灌入新模型。
			
 
				-        # 好处是：我们仍然使用当前配置文件里的超参数，只复用之前学到的策略权重。
			
 
				-        model.set_parameters(str(resolved_init_model_path), exact_match=False, device=config['training']['device'])
			
 
				-        print(f"已加载课程初始化模型: {resolved_init_model_path}")
			
 
				-
			
 
				-    model.learn(
			
 
				-        total_timesteps=int(config['training']['total_timesteps']),
			
 
				-        callback=checkpoint_callback,
			
 
				-        progress_bar=True,
			
 
				-    )
			
 
				-    final_model_path = run_dir / 'final_model'
			
 
				-    model.save(final_model_path)
			
 
				-    env.close()
			
 
				+        if stage_name is not None:
			
 
				+            print(
			
 
				+                f'开始课程阶段 {stage_index}/{len(stage_configs)}: {stage_name} '
			
 
				+                f'(target_forward_velocity={stage_config["task"]["target_forward_velocity"]:.2f}, '
			
 
				+                f'timesteps={int(stage_config["training"]["total_timesteps"])})'
			
 
				+            )
			
 
				+
			
 
				+        env = Monitor(GazeboBipedEnv(stage_config))
			
 
				+        checkpoint_callback = CheckpointCallback(
			
 
				+            save_freq=max(int(stage_config['training']['checkpoint_freq']), 1),
			
 
				+            save_path=str(stage_dir / 'checkpoints'),
			
 
				+            name_prefix='guguji_ppo',
			
 
				+        )
			
 
				+
			
 
				+        try:
			
 
				+            if model is None:
			
 
				+                policy_kwargs = {
			
 
				+                    'net_arch': list(stage_config['training']['policy_net_arch']),
			
 
				+                }
			
 
				+                # 先用 MLP + PPO 跑通训练闭环，后面你可以再逐步增大网络规模。
			
 
				+                model = PPO(
			
 
				+                    policy='MlpPolicy',
			
 
				+                    env=env,
			
 
				+                    verbose=1,
			
 
				+                    seed=int(stage_config['training']['seed']),
			
 
				+                    learning_rate=float(stage_config['training']['learning_rate']),
			
 
				+                    n_steps=int(stage_config['training']['n_steps']),
			
 
				+                    batch_size=int(stage_config['training']['batch_size']),
			
 
				+                    gamma=float(stage_config['training']['gamma']),
			
 
				+                    gae_lambda=float(stage_config['training']['gae_lambda']),
			
 
				+                    clip_range=float(stage_config['training']['clip_range']),
			
 
				+                    ent_coef=float(stage_config['training']['ent_coef']),
			
 
				+                    vf_coef=float(stage_config['training']['vf_coef']),
			
 
				+                    device=stage_config['training']['device'],
			
 
				+                    tensorboard_log=str(run_dir / 'tensorboard'),
			
 
				+                    policy_kwargs=policy_kwargs,
			
 
				+                )
			
 
				+
			
 
				+                init_model_path = stage_config['training'].get('init_model_path')
			
 
				+                if init_model_path:
			
 
				+                    resolved_init_model_path = resolve_input_path(str(init_model_path))
			
 
				+                    # 这里不是直接 load 整个 PPO 对象，而是把旧模型参数灌入新模型。
			
 
				+                    # 好处是：我们仍然使用当前配置文件里的超参数，只复用之前学到的策略权重。
			
 
				+                    model.set_parameters(
			
 
				+                        str(resolved_init_model_path),
			
 
				+                        exact_match=False,
			
 
				+                        device=stage_config['training']['device'],
			
 
				+                    )
			
 
				+                    print(f"已加载课程初始化模型: {resolved_init_model_path}")
			
 
				+            else:
			
 
				+                model.set_env(env)
			
 
				+
			
 
				+            maybe_override_policy_log_std(model, stage_config['training'].get('initial_log_std'))
			
 
				+            model.learn(
			
 
				+                total_timesteps=int(stage_config['training']['total_timesteps']),
			
 
				+                callback=checkpoint_callback,
			
 
				+                progress_bar=True,
			
 
				+                reset_num_timesteps=(stage_index == 1),
			
 
				+            )
			
 
				+
			
 
				+            stage_model_path = stage_dir / 'final_model'
			
 
				+            model.save(stage_model_path)
			
 
				+            final_model_path = stage_model_path
			
 
				+            final_stage_config = stage_config
			
 
				+
			
 
				+            if stage_name is not None:
			
 
				+                print(f'课程阶段完成，模型已保存到: {stage_model_path.with_suffix(".zip")}')
			
 
				+        finally:
			
 
				+            env.close()
			
 
				+
			
 
				+    if final_model_path != run_dir / 'final_model' and model is not None:
			
 
				+        # 在课程学习模式下，额外在 run 根目录保存一份最终模型，方便统一引用。
			
 
				+        model.save(run_dir / 'final_model')
			
 
				+        final_model_path = run_dir / 'final_model'
			
 
				 
			
 
				     print(f'训练完成，模型已保存到: {run_dir / "final_model.zip"}')
			
 
				 
			
 
				-    evaluation_config = config['evaluation']
			
 
				+    evaluation_config = final_stage_config['evaluation']
			
 
				     if bool(evaluation_config.get('auto_forward_progress', True)) and not args.skip_auto_eval:
			
 
				         try:
			
 
				             # 每轮训练结束后自动做一次前进评估，方便你快速看 delta_x / mean_vx。
			
 
				             summary = evaluate_forward_progress(
			
 
				-                config=config,
			
 
				+                config=final_stage_config,
			
 
				                 model_path=final_model_path,
			
 
				                 episodes=int(evaluation_config['forward_progress_episodes']),
			
 
				                 max_steps=int(evaluation_config['forward_progress_max_steps']),