1 week ago · 019c6618f6
--- a/.gitignore
+++ b/.gitignore
@@ -9,3 +9,8 @@
 
															 # Python 运行缓存
														
 
															 __pycache__/
														
 
															 *.pyc
														
 
															+
														
 
															+# 强化学习训练工程缓存与输出
														
 
															+/guguji_rl/.venv/
														
 
															+/guguji_rl/outputs/
														
 
															+/guguji_rl/.pytest_cache/
														
--- a/README.md
+++ b/README.md
@@ -64,6 +64,12 @@ ros2 launch guguji_ros2 gazebo.launch.py
 
															 ros2 launch guguji_ros2 gazebo.launch.py gui:=false
														
 
															 ```
														
 
															+如果你准备做强化学习训练，建议让 Gazebo 以暂停模式启动：
														
 
															+
														
 
															+```bash
														
 
															+ros2 launch guguji_ros2 gazebo.launch.py gui:=false pause:=true
														
 
															+```
														
 
															+
														
 
															 ## Fortress 调试接口
														
 
															 `gazebo.launch.py` 现在已经接通了下面几类接口：
														
@@ -72,6 +78,16 @@ ros2 launch guguji_ros2 gazebo.launch.py gui:=false
 
															 - `/joint_states`：Gazebo 真实关节状态
														
 
															 - `/tf`：Gazebo 真实模型/连杆位姿
														
 
															 - `/guguji/command/<joint_name>`：每个关节的位置控制命令，消息类型为 `std_msgs/msg/Float64`
														
 
															+- `/world/default/control`：Gazebo 世界控制服务，可用于 reset / pause / step
														
 
															+
														
 
															+## 强化学习工程
														
 
															+
														
 
															+仓库根目录下新增了 `guguji_rl/`，用于放置强化学习训练和策略运行代码。这样做是为了把：
														
 
															+
														
 
															+- ROS 2 / Gazebo 仿真代码
														
 
															+- Python 强化学习依赖与训练输出
														
 
															+
														
 
															+分开管理，后续会更容易调试。
														
 
															 ## 控制示例
														
--- a/docs/guguji_biped_rl_guide.md
+++ b/docs/guguji_biped_rl_guide.md
@@ -0,0 +1,268 @@
 
															+# guguji 双足机器人强化学习训练指南
														
 
															+
														
 
															+这份文档面向“第一次做双足机器人强化学习”的场景，目标是帮助你把当前已经能在 ROS 2 Humble + Gazebo Fortress 中运行的机器人，逐步推进到“可以用强化学习训练行走策略，并在 ROS 2 系统中在线运行策略”。
														
 
															+
														
 
															+## 1. 总体目标
														
 
															+
														
 
															+你的完整目标可以拆成四层：
														
 
															+
														
 
															+1. 仿真层：
														
 
															+   机器人能在 Gazebo Fortress 中稳定启动，并提供关节命令、关节状态、TF、世界 reset 接口。
														
 
															+2. 环境层：
														
 
															+   把 Gazebo + ROS 2 封装成 Gymnasium 环境，形成 `reset()` / `step(action)` / `reward` / `done` 这套强化学习接口。
														
 
															+3. 训练层：
														
 
															+   用 PPO 等算法训练策略，让机器人先学会站稳，再学会前进。
														
 
															+4. 部署层：
														
 
															+   训练好的策略作为一个在线推理程序，在 ROS 2 系统里读取状态并发布关节命令。
														
 
															+
														
 
															+## 2. 目录应该怎么放
														
 
															+
														
 
															+我建议采用你现在仓库里的这种分层方式：
														
 
															+
														
 
															+- `guguji_ros2_ws/src/guguji_ros2`
														
 
															+  负责机器人模型、Gazebo 启动、ROS 2 话题和仿真接口。
														
 
															+- `guguji_rl`
														
 
															+  负责强化学习训练代码、算法依赖、配置文件、训练输出。
														
 
															+
														
 
															+这样做的好处：
														
 
															+
														
 
															+- ROS 2 包保持干净，不会混进大量训练依赖。
														
 
															+- 强化学习代码可以单独建虚拟环境。
														
 
															+- 你以后调试时可以快速区分“仿真问题”和“算法问题”。
														
 
															+
														
 
															+## 3. 当前已经帮你准备好的能力
														
 
															+
														
 
															+当前代码已经具备下面这些训练所需的基础接口：
														
 
															+
														
 
															+- `/joint_states`
														
 
															+  Gazebo 真实关节状态
														
 
															+- `/tf`
														
 
															+  Gazebo 真实模型 / 连杆位姿
														
 
															+- `/clock`
														
 
															+  仿真时钟
														
 
															+- `/guguji/command/<joint_name>`
														
 
															+  每个关节的位置命令接口
														
 
															+- `/world/default/control`
														
 
															+  Gazebo 世界控制服务，可用于 reset / pause / step
														
 
															+
														
 
															+这些接口已经足够构成一个最小的强化学习训练环境。
														
 
															+
														
 
															+## 4. 训练流程建议
														
 
															+
														
 
															+对于双足机器人，不建议一上来就直接训练“向前走”。更稳妥的路线是课程式训练。
														
 
															+
														
 
															+### 阶段 A：接口验证
														
 
															+
														
 
															+目标：
														
 
															+
														
 
															+- 确认环境能 reset
														
 
															+- 确认发关节命令后 `/joint_states` 会变化
														
 
															+- 确认 `/tf` 可以读到机器人底座位姿
														
 
															+
														
 
															+你可以先运行：
														
 
															+
														
 
															+```bash
														
 
															+source /opt/ros/humble/setup.bash
														
 
															+cd /home/corvin/Project/guguji_simulation/guguji_ros2_ws
														
 
															+source install/setup.bash
														
 
															+ros2 launch guguji_ros2 gazebo.launch.py gui:=false
														
 
															+```
														
 
															+
														
 
															+另开一个终端执行：
														
 
															+
														
 
															+```bash
														
 
															+cd /home/corvin/Project/guguji_simulation/guguji_rl
														
 
															+source .venv/bin/activate
														
 
															+python3 scripts/check_env.py --config configs/balance_ppo.yaml
														
 
															+```
														
 
															+
														
 
															+如果你准备正式训练，建议把 Gazebo 改成下面这种启动方式：
														
 
															+
														
 
															+```bash
														
 
															+ros2 launch guguji_ros2 gazebo.launch.py gui:=false pause:=true
														
 
															+```
														
 
															+
														
 
															+这样训练程序可以通过世界控制服务精确推进仿真步数，训练会更稳定。
														
 
															+
														
 
															+### 阶段 B：站立平衡
														
 
															+
														
 
															+目标：
														
 
															+
														
 
															+- 让机器人学会不摔倒
														
 
															+- 把姿态稳定在较小的 `roll / pitch`
														
 
															+- 尽量保持基座高度稳定
														
 
															+
														
 
															+建议先用：
														
 
															+
														
 
															+- `configs/balance_ppo.yaml`
														
 
															+- `task.target_forward_velocity = 0.0`
														
 
															+
														
 
															+这个阶段的关键不是“走”，而是“活着且稳定”。
														
 
															+
														
 
															+### 阶段 C：原地摆腿 / 重心转移
														
 
															+
														
 
															+目标：
														
 
															+
														
 
															+- 在不摔倒的前提下学会左右腿配合
														
 
															+- 逐渐形成可重复的步态雏形
														
 
															+
														
 
															+这个阶段可以继续沿用 balance 配置，但逐步：
														
 
															+
														
 
															+- 增大关节可动范围
														
 
															+- 减小对动作变化的惩罚
														
 
															+- 允许更积极的姿态变化
														
 
															+
														
 
															+### 阶段 D：前进训练
														
 
															+
														
 
															+目标：
														
 
															+
														
 
															+- 跟踪目标前进速度
														
 
															+- 尽量减少横向漂移
														
 
															+- 保持基座稳定
														
 
															+
														
 
															+建议从较低目标速度开始，例如：
														
 
															+
														
 
															+- `0.10 m/s`
														
 
															+- `0.15 m/s`
														
 
															+- `0.25 m/s`
														
 
															+
														
 
															+不要一开始就追求很快，否则双足很容易学成“扑倒式前冲”。
														
 
															+
														
 
															+## 5. 奖励函数应该怎么理解
														
 
															+
														
 
															+当前代码中已经实现了一套适合入门调试的奖励结构：
														
 
															+
														
 
															+- `alive_bonus`
														
 
															+  只要没倒就给基础奖励
														
 
															+- `velocity_tracking`
														
 
															+  鼓励前进速度接近目标值
														
 
															+- `upright`
														
 
															+  鼓励机器人保持正立
														
 
															+- `height`
														
 
															+  鼓励基座高度不要塌陷
														
 
															+- `action_rate_penalty`
														
 
															+  惩罚动作变化过快
														
 
															+- `joint_limit_penalty`
														
 
															+  惩罚关节长期打到极限
														
 
															+- `lateral_velocity_penalty`
														
 
															+  惩罚横向乱漂
														
 
															+- `fall_penalty`
														
 
															+  一旦倒下，给予额外负奖励
														
 
															+
														
 
															+对于第一次做双足 RL，建议你先只调这几类奖励，不要一下把奖励做得太复杂。
														
 
															+
														
 
															+## 6. 训练算法为什么先选 PPO
														
 
															+
														
 
															+我给你准备的是 PPO 路线，原因是：
														
 
															+
														
 
															+- 对连续动作控制比较常见
														
 
															+- 文档和教程多
														
 
															+- 在单机器人、低并发、Gazebo 这类较慢环境里更容易先跑通
														
 
															+
														
 
															+但你也要注意：Gazebo 单实例训练速度会比较慢，远慢于 Isaac Gym / Mujoco 这类高并发模拟器。
														
 
															+
														
 
															+所以更现实的预期是：
														
 
															+
														
 
															+- 先用 Gazebo 跑通“训练管线”
														
 
															+- 先学会平衡和低速前进
														
 
															+- 真正想追求高效率训练时，再考虑并行环境或更快的模拟器
														
 
															+
														
 
															+## 7. CPU 和 GPU 怎么选
														
 
															+
														
 
															+你的机器上已经有 CUDA 驱动，但显卡显存只有 2GB 左右，因此建议这样使用：
														
 
															+
														
 
															+- 初期调试：
														
 
															+  用 `training.device: cpu`
														
 
															+- 小网络正式训练：
														
 
															+  用 `training.device: auto` 或 `cuda`
														
 
															+- 如果显存不够：
														
 
															+  降低 `policy_net_arch`、`batch_size`
														
 
															+
														
 
															+当前配置文件已经支持：
														
 
															+
														
 
															+- `cpu`
														
 
															+- `cuda`
														
 
															+- `auto`
														
 
															+
														
 
															+不需要改训练代码，只要改 YAML 或命令行参数。
														
 
															+
														
 
															+## 8. 已准备好的代码结构
														
 
															+
														
 
															+### 仿真接口
														
 
															+
														
 
															+- `guguji_ros2_ws/src/guguji_ros2/launch/gazebo.launch.py`
														
 
															+  Gazebo Fortress 启动与桥接
														
 
															+- `guguji_ros2_ws/src/guguji_ros2/urdf/guguji.urdf`
														
 
															+  Gazebo 插件、关节控制器、关节状态和位姿发布器
														
 
															+
														
 
															+### 强化学习工程
														
 
															+
														
 
															+- `guguji_rl/guguji_rl/ros2_interface.py`
														
 
															+  ROS 2 / Gazebo 接口封装
														
 
															+- `guguji_rl/guguji_rl/envs/gazebo_biped_env.py`
														
 
															+  Gymnasium 环境
														
 
															+- `guguji_rl/guguji_rl/rewards.py`
														
 
															+  奖励函数
														
 
															+- `guguji_rl/scripts/train.py`
														
 
															+  PPO 训练
														
 
															+- `guguji_rl/scripts/evaluate.py`
														
 
															+  加载策略并运行
														
 
															+- `guguji_rl/scripts/run_policy.py`
														
 
															+  把训练好的策略作为在线控制程序持续运行
														
 
															+- `guguji_rl/scripts/check_env.py`
														
 
															+  环境检查
														
 
															+
														
 
															+## 9. 推荐的第一轮实践步骤
														
 
															+
														
 
															+1. 启动 Gazebo 仿真，确认机器人正常出现。
														
 
															+2. 运行 `check_env.py`，确认 reset / step / reward 能跑通。
														
 
															+3. 训练 `balance_ppo.yaml`，不要急着训练 walking。
														
 
															+4. 观察 `/joint_states` 和 `/tf`，检查机器人是否会频繁倒地。
														
 
															+5. 调整奖励和关节范围后，再切到 `walk_ppo.yaml`。
														
 
															+
														
 
															+## 10. 训练完成后怎么在 ROS 2 里持续控制
														
 
															+
														
 
															+训练完成后，建议分成两步：
														
 
															+
														
 
															+1. 用 `evaluate.py` 做短时回放，确认模型文件没有问题。
														
 
															+2. 用 `run_policy.py` 持续运行策略，让它在当前 Gazebo / ROS 2 系统里不断读取状态并发布关节命令。
														
 
															+
														
 
															+示例命令：
														
 
															+
														
 
															+```bash
														
 
															+cd /home/corvin/Project/guguji_simulation/guguji_rl
														
 
															+source .venv/bin/activate
														
 
															+python3 scripts/run_policy.py \
														
 
															+  --config configs/walk_ppo.yaml \
														
 
															+  --model outputs/<你的实验目录>/final_model.zip \
														
 
															+  --deterministic
														
 
															+```
														
 
															+
														
 
															+## 11. 后续你最可能会继续改的地方
														
 
															+
														
 
															+你后面大概率会集中修改这些点：
														
 
															+
														
 
															+- `guguji_rl/guguji_rl/rewards.py`
														
 
															+  调奖励项和权重
														
 
															+- `guguji_rl/guguji_rl/envs/gazebo_biped_env.py`
														
 
															+  调 observation、done 条件、动作映射
														
 
															+- `guguji_rl/configs/*.yaml`
														
 
															+  调训练超参数、设备、目标速度
														
 
															+- `guguji_ros2_ws/src/guguji_ros2/urdf/guguji.urdf`
														
 
															+  调关节范围、PD 增益、Gazebo 控制器参数
														
 
															+
														
 
															+## 12. 现实建议
														
 
															+
														
 
															+对双足机器人来说，第一次做强化学习最难的通常不是“算法”，而是下面三件事：
														
 
															+
														
 
															+- 动作空间是否合理
														
 
															+- 奖励函数是否稳定
														
 
															+- reset 是否干净且可重复
														
 
															+
														
 
															+所以你的第一目标不要设成“尽快走得很像人”，而是：
														
 
															+
														
 
															+- 先站住
														
 
															+- 再学会规律摆腿
														
 
															+- 最后再追求前进速度和稳定性
														
 
															+
														
 
															+这条路线更稳，也更适合第一次上手。
														
--- a/guguji_rl/README.md
+++ b/guguji_rl/README.md
@@ -0,0 +1,68 @@
 
															+# guguji_rl
														
 
															+
														
 
															+`guguji_rl` 是 `guguji_simulation` 仓库里的强化学习训练工程。
														
 
															+
														
 
															+## 为什么单独放在仓库根目录
														
 
															+
														
 
															+我把训练代码放在 `guguji_ros2_ws` 外面，原因是：
														
 
															+
														
 
															+- `guguji_ros2_ws/src/guguji_ros2` 继续专注于机器人描述、Gazebo 启动和 ROS 2 接口
														
 
															+- `guguji_rl` 专注于 Python 强化学习依赖，例如 `stable-baselines3`、`gymnasium`、`torch`
														
 
															+- 这样后续你更容易分别调试“机器人仿真问题”和“训练算法问题”
														
 
															+
														
 
															+## 当前实现内容
														
 
															+
														
 
															+- `configs/`：训练配置，支持 CPU / GPU 切换
														
 
															+- `guguji_rl/ros2_interface.py`：ROS 2 与 Gazebo 的训练接口
														
 
															+- `guguji_rl/envs/gazebo_biped_env.py`：Gymnasium 环境封装
														
 
															+- `guguji_rl/rewards.py`：奖励函数
														
 
															+- `scripts/train.py`：PPO 训练入口
														
 
															+- `scripts/evaluate.py`：加载训练好的策略并在 Gazebo 中运行
														
 
															+- `scripts/run_policy.py`：把训练好的策略作为在线控制程序持续运行
														
 
															+- `scripts/check_env.py`：训练前自检脚本
														
 
															+
														
 
															+## 建议工作流
														
 
															+
														
 
															+1. 先启动 Gazebo 仿真
														
 
															+2. 再运行 `check_env.py` 检查 ROS 2 / Gazebo 训练接口
														
 
															+3. 先跑 `balance_ppo.yaml` 训练站立平衡
														
 
															+4. 再跑 `walk_ppo.yaml` 训练前进
														
 
															+5. 训练出模型后，先用 `evaluate.py` 做回放，再用 `run_policy.py` 在 ROS 2 系统中持续推理控制
														
 
															+
														
 
															+## 安装依赖
														
 
															+
														
 
															+建议在独立虚拟环境中安装：
														
 
															+
														
 
															+```bash
														
 
															+cd /home/corvin/Project/guguji_simulation/guguji_rl
														
 
															+python3 -m venv .venv
														
 
															+source .venv/bin/activate
														
 
															+pip install -U pip
														
 
															+pip install -r requirements.txt
														
 
															+```
														
 
															+
														
 
															+如果要用 GPU，请先确认 `torch.cuda.is_available()` 为 `True`，然后在配置文件里把 `training.device` 设为 `cuda` 或 `auto`。
														
 
															+
														
 
															+## 训练时推荐的 Gazebo 启动方式
														
 
															+
														
 
															+如果你准备正式开始训练，建议这样启动 Gazebo：
														
 
															+
														
 
															+```bash
														
 
															+source /opt/ros/humble/setup.bash
														
 
															+cd /home/corvin/Project/guguji_simulation/guguji_ros2_ws
														
 
															+source install/setup.bash
														
 
															+ros2 launch guguji_ros2 gazebo.launch.py gui:=false pause:=true
														
 
															+```
														
 
															+
														
 
															+这样训练环境可以通过 `/world/default/control` 精确推进仿真步数，更适合强化学习。
														
 
															+
														
 
															+## 在线运行训练好的策略
														
 
															+
														
 
															+```bash
														
 
															+cd /home/corvin/Project/guguji_simulation/guguji_rl
														
 
															+source .venv/bin/activate
														
 
															+python3 scripts/run_policy.py \
														
 
															+  --config configs/walk_ppo.yaml \
														
 
															+  --model outputs/<你的实验目录>/final_model.zip \
														
 
															+  --deterministic
														
 
															+```
														
--- a/guguji_rl/configs/balance_ppo.yaml
+++ b/guguji_rl/configs/balance_ppo.yaml
@@ -0,0 +1,74 @@
 
															+experiment:
														
 
															+  name: balance_ppo
														
 
															+
														
 
															+robot:
														
 
															+  model_name: guguji
														
 
															+  urdf_path: guguji_ros2_ws/src/guguji_ros2/urdf/guguji.urdf
														
 
															+  joint_names:
														
 
															+    - left_hip_pitch_joint
														
 
															+    - left_knee_pitch_joint
														
 
															+    - left_ankle_pitch_joint
														
 
															+    - left_ankle_joint
														
 
															+    - right_hip_pitch_joint
														
 
															+    - right_knee_pitch_joint
														
 
															+    - right_ankle_pitch_joint
														
 
															+    - right_ankle_joint
														
 
															+  command_topic_prefix: /guguji/command
														
 
															+
														
 
															+ros:
														
 
															+  joint_state_topic: /joint_states
														
 
															+  tf_topic: /tf
														
 
															+  clock_topic: /clock
														
 
															+  world_control_service: /world/default/control
														
 
															+
														
 
															+sim:
														
 
															+  world_name: default
														
 
															+  # 强化学习训练更适合用 service_step，能让每一步更可控、更容易复现。
														
 
															+  step_mode: service_step
														
 
															+  control_dt: 0.05
														
 
															+  service_step_iterations: 50
														
 
															+  reset_settle_seconds: 1.0
														
 
															+  action_publish_delay: 0.01
														
 
															+  post_step_wait_seconds: 0.01
														
 
															+  # 训练时建议 Gazebo 以 pause 模式启动，再由训练程序按步推进仿真。
														
 
															+  launch_hint: ros2 launch guguji_ros2 gazebo.launch.py gui:=false pause:=true
														
 
															+
														
 
															+task:
														
 
															+  target_forward_velocity: 0.0
														
 
															+  target_base_height: null
														
 
															+  max_roll_rad: 0.60
														
 
															+  max_pitch_rad: 0.60
														
 
															+  min_base_height: 0.14
														
 
															+
														
 
															+rewards:
														
 
															+  alive_bonus: 1.0
														
 
															+  velocity_tracking_scale: 1.5
														
 
															+  velocity_tracking_sigma: 0.30
														
 
															+  upright_scale: 2.0
														
 
															+  height_scale: 1.0
														
 
															+  action_rate_penalty_scale: 0.03
														
 
															+  joint_limit_penalty_scale: 0.05
														
 
															+  lateral_velocity_penalty_scale: 0.10
														
 
															+  fall_penalty: -15.0
														
 
															+
														
 
															+training:
														
 
															+  algorithm: ppo
														
 
															+  total_timesteps: 200000
														
 
															+  max_episode_steps: 400
														
 
															+  seed: 42
														
 
															+  device: auto
														
 
															+  learning_rate: 0.0003
														
 
															+  n_steps: 1024
														
 
															+  batch_size: 256
														
 
															+  gamma: 0.99
														
 
															+  gae_lambda: 0.95
														
 
															+  clip_range: 0.2
														
 
															+  ent_coef: 0.0
														
 
															+  vf_coef: 0.5
														
 
															+  policy_net_arch: [256, 256]
														
 
															+  checkpoint_freq: 20000
														
 
															+  output_root: guguji_rl/outputs
														
 
															+
														
 
															+evaluation:
														
 
															+  episodes: 3
														
 
															+  deterministic: true
														
--- a/guguji_rl/configs/walk_ppo.yaml
+++ b/guguji_rl/configs/walk_ppo.yaml
@@ -0,0 +1,74 @@
 
															+experiment:
														
 
															+  name: walk_ppo
														
 
															+
														
 
															+robot:
														
 
															+  model_name: guguji
														
 
															+  urdf_path: guguji_ros2_ws/src/guguji_ros2/urdf/guguji.urdf
														
 
															+  joint_names:
														
 
															+    - left_hip_pitch_joint
														
 
															+    - left_knee_pitch_joint
														
 
															+    - left_ankle_pitch_joint
														
 
															+    - left_ankle_joint
														
 
															+    - right_hip_pitch_joint
														
 
															+    - right_knee_pitch_joint
														
 
															+    - right_ankle_pitch_joint
														
 
															+    - right_ankle_joint
														
 
															+  command_topic_prefix: /guguji/command
														
 
															+
														
 
															+ros:
														
 
															+  joint_state_topic: /joint_states
														
 
															+  tf_topic: /tf
														
 
															+  clock_topic: /clock
														
 
															+  world_control_service: /world/default/control
														
 
															+
														
 
															+sim:
														
 
															+  world_name: default
														
 
															+  # 走路训练也建议采用 service_step，便于稳定做 step / reward 对齐。
														
 
															+  step_mode: service_step
														
 
															+  control_dt: 0.05
														
 
															+  service_step_iterations: 50
														
 
															+  reset_settle_seconds: 1.2
														
 
															+  action_publish_delay: 0.01
														
 
															+  post_step_wait_seconds: 0.01
														
 
															+  # 训练时建议 Gazebo 以 pause 模式启动，再由训练程序按步推进仿真。
														
 
															+  launch_hint: ros2 launch guguji_ros2 gazebo.launch.py gui:=false pause:=true
														
 
															+
														
 
															+task:
														
 
															+  target_forward_velocity: 0.25
														
 
															+  target_base_height: null
														
 
															+  max_roll_rad: 0.65
														
 
															+  max_pitch_rad: 0.65
														
 
															+  min_base_height: 0.12
														
 
															+
														
 
															+rewards:
														
 
															+  alive_bonus: 1.0
														
 
															+  velocity_tracking_scale: 3.0
														
 
															+  velocity_tracking_sigma: 0.25
														
 
															+  upright_scale: 1.5
														
 
															+  height_scale: 0.8
														
 
															+  action_rate_penalty_scale: 0.04
														
 
															+  joint_limit_penalty_scale: 0.05
														
 
															+  lateral_velocity_penalty_scale: 0.15
														
 
															+  fall_penalty: -20.0
														
 
															+
														
 
															+training:
														
 
															+  algorithm: ppo
														
 
															+  total_timesteps: 500000
														
 
															+  max_episode_steps: 500
														
 
															+  seed: 42
														
 
															+  device: auto
														
 
															+  learning_rate: 0.0003
														
 
															+  n_steps: 1024
														
 
															+  batch_size: 256
														
 
															+  gamma: 0.99
														
 
															+  gae_lambda: 0.95
														
 
															+  clip_range: 0.2
														
 
															+  ent_coef: 0.0
														
 
															+  vf_coef: 0.5
														
 
															+  policy_net_arch: [256, 256]
														
 
															+  checkpoint_freq: 50000
														
 
															+  output_root: guguji_rl/outputs
														
 
															+
														
 
															+evaluation:
														
 
															+  episodes: 3
														
 
															+  deterministic: true
														
--- a/guguji_rl/guguji_rl/__init__.py
+++ b/guguji_rl/guguji_rl/__init__.py
@@ -0,0 +1 @@
 
															+"""guguji reinforcement learning package."""
														
--- a/guguji_rl/guguji_rl/config.py
+++ b/guguji_rl/guguji_rl/config.py
@@ -0,0 +1,112 @@
 
															+from __future__ import annotations
														
 
															+
														
 
															+import copy
														
 
															+from pathlib import Path
														
 
															+from typing import Any
														
 
															+
														
 
															+import yaml
														
 
															+
														
 
															+
														
 
															+DEFAULT_CONFIG: dict[str, Any] = {
														
 
															+    'experiment': {
														
 
															+        'name': 'guguji_rl_experiment',
														
 
															+    },
														
 
															+    'robot': {
														
 
															+        'model_name': 'guguji',
														
 
															+        'urdf_path': 'guguji_ros2_ws/src/guguji_ros2/urdf/guguji.urdf',
														
 
															+        'joint_names': [],
														
 
															+        'command_topic_prefix': '/guguji/command',
														
 
															+    },
														
 
															+    'ros': {
														
 
															+        'joint_state_topic': '/joint_states',
														
 
															+        'tf_topic': '/tf',
														
 
															+        'clock_topic': '/clock',
														
 
															+        'world_control_service': '/world/default/control',
														
 
															+    },
														
 
															+    'sim': {
														
 
															+        'world_name': 'default',
														
 
															+        'step_mode': 'realtime',
														
 
															+        'control_dt': 0.05,
														
 
															+        'service_step_iterations': 50,
														
 
															+        'reset_settle_seconds': 1.0,
														
 
															+        'action_publish_delay': 0.01,
														
 
															+        'post_step_wait_seconds': 0.01,
														
 
															+    },
														
 
															+    'task': {
														
 
															+        'target_forward_velocity': 0.0,
														
 
															+        'target_base_height': None,
														
 
															+        'max_roll_rad': 0.6,
														
 
															+        'max_pitch_rad': 0.6,
														
 
															+        'min_base_height': 0.12,
														
 
															+    },
														
 
															+    'rewards': {
														
 
															+        'alive_bonus': 1.0,
														
 
															+        'velocity_tracking_scale': 1.0,
														
 
															+        'velocity_tracking_sigma': 0.3,
														
 
															+        'upright_scale': 1.0,
														
 
															+        'height_scale': 1.0,
														
 
															+        'action_rate_penalty_scale': 0.02,
														
 
															+        'joint_limit_penalty_scale': 0.02,
														
 
															+        'lateral_velocity_penalty_scale': 0.05,
														
 
															+        'fall_penalty': -10.0,
														
 
															+    },
														
 
															+    'training': {
														
 
															+        'algorithm': 'ppo',
														
 
															+        'total_timesteps': 200000,
														
 
															+        'max_episode_steps': 400,
														
 
															+        'seed': 42,
														
 
															+        'device': 'auto',
														
 
															+        'learning_rate': 3e-4,
														
 
															+        'n_steps': 1024,
														
 
															+        'batch_size': 256,
														
 
															+        'gamma': 0.99,
														
 
															+        'gae_lambda': 0.95,
														
 
															+        'clip_range': 0.2,
														
 
															+        'ent_coef': 0.0,
														
 
															+        'vf_coef': 0.5,
														
 
															+        'policy_net_arch': [256, 256],
														
 
															+        'checkpoint_freq': 20000,
														
 
															+        'output_root': 'guguji_rl/outputs',
														
 
															+    },
														
 
															+    'evaluation': {
														
 
															+        'episodes': 3,
														
 
															+        'deterministic': True,
														
 
															+    },
														
 
															+}
														
 
															+
														
 
															+
														
 
															+def _deep_update(base: dict[str, Any], override: dict[str, Any]) -> dict[str, Any]:
														
 
															+    for key, value in override.items():
														
 
															+        if isinstance(value, dict) and isinstance(base.get(key), dict):
														
 
															+            _deep_update(base[key], value)
														
 
															+        else:
														
 
															+            base[key] = value
														
 
															+    return base
														
 
															+
														
 
															+
														
 
															+def load_config(config_path: str | Path) -> dict[str, Any]:
														
 
															+    config_path = Path(config_path).resolve()
														
 
															+    with config_path.open('r', encoding='utf-8') as file:
														
 
															+        user_config = yaml.safe_load(file) or {}
														
 
															+
														
 
															+    config = _deep_update(copy.deepcopy(DEFAULT_CONFIG), user_config)
														
 
															+    config['meta'] = {
														
 
															+        'config_path': str(config_path),
														
 
															+        'project_root': str(config_path.parents[2]),
														
 
															+        'rl_root': str(config_path.parents[1]),
														
 
															+    }
														
 
															+    return config
														
 
															+
														
 
															+
														
 
															+def resolve_project_path(config: dict[str, Any], relative_path: str | Path) -> Path:
														
 
															+    relative_path = Path(relative_path)
														
 
															+    if relative_path.is_absolute():
														
 
															+        return relative_path
														
 
															+    return Path(config['meta']['project_root']) / relative_path
														
 
															+
														
 
															+
														
 
															+def save_yaml(data: dict[str, Any], output_path: str | Path) -> None:
														
 
															+    output_path = Path(output_path)
														
 
															+    output_path.parent.mkdir(parents=True, exist_ok=True)
														
 
															+    with output_path.open('w', encoding='utf-8') as file:
														
 
															+        yaml.safe_dump(data, file, sort_keys=False, allow_unicode=True)
														
--- a/guguji_rl/guguji_rl/envs/__init__.py
+++ b/guguji_rl/guguji_rl/envs/__init__.py
@@ -0,0 +1,3 @@
 
															+from .gazebo_biped_env import GazeboBipedEnv
														
 
															+
														
 
															+__all__ = ['GazeboBipedEnv']
														
--- a/guguji_rl/guguji_rl/envs/gazebo_biped_env.py
+++ b/guguji_rl/guguji_rl/envs/gazebo_biped_env.py
@@ -0,0 +1,209 @@
 
															+from __future__ import annotations
														
 
															+
														
 
															+import time
														
 
															+from typing import Any
														
 
															+
														
 
															+import gymnasium as gym
														
 
															+import numpy as np
														
 
															+
														
 
															+from ..config import resolve_project_path
														
 
															+from ..math_utils import quaternion_xyzw_to_euler
														
 
															+from ..rewards import BipedRewardCalculator, RewardContext
														
 
															+from ..ros2_interface import GugujiRos2Interface, RobotStateSnapshot
														
 
															+from ..urdf_utils import JointLimit, parse_joint_limits
														
 
															+
														
 
															+
														
 
															+class GazeboBipedEnv(gym.Env):
														
 
															+    """把 Gazebo + ROS 2 机器人封装成 Gymnasium 环境。"""
														
 
															+
														
 
															+    metadata = {'render_modes': []}
														
 
															+
														
 
															+    def __init__(self, config: dict[str, Any]) -> None:
														
 
															+        super().__init__()
														
 
															+        self.config = config
														
 
															+        self.robot_config = config['robot']
														
 
															+        self.ros_config = config['ros']
														
 
															+        self.sim_config = config['sim']
														
 
															+        self.task_config = config['task']
														
 
															+        self.training_config = config['training']
														
 
															+
														
 
															+        urdf_path = resolve_project_path(config, self.robot_config['urdf_path'])
														
 
															+        self.joint_limits: list[JointLimit] = parse_joint_limits(
														
 
															+            urdf_path,
														
 
															+            self.robot_config['joint_names'],
														
 
															+        )
														
 
															+        self.joint_names = [joint_limit.name for joint_limit in self.joint_limits]
														
 
															+        self.joint_lower = np.array([joint.lower for joint in self.joint_limits], dtype=np.float32)
														
 
															+        self.joint_upper = np.array([joint.upper for joint in self.joint_limits], dtype=np.float32)
														
 
															+        self.joint_mid = np.array([joint.midpoint for joint in self.joint_limits], dtype=np.float32)
														
 
															+        self.joint_half_range = np.array([joint.half_range for joint in self.joint_limits], dtype=np.float32)
														
 
															+
														
 
															+        self.interface = GugujiRos2Interface(
														
 
															+            joint_names=self.joint_names,
														
 
															+            command_topic_prefix=self.robot_config['command_topic_prefix'],
														
 
															+            joint_state_topic=self.ros_config['joint_state_topic'],
														
 
															+            tf_topic=self.ros_config['tf_topic'],
														
 
															+            clock_topic=self.ros_config['clock_topic'],
														
 
															+            world_control_service=self.ros_config['world_control_service'],
														
 
															+            model_name=self.robot_config['model_name'],
														
 
															+        )
														
 
															+        self.interface.wait_for_world_control_service()
														
 
															+        self.reward_calculator = BipedRewardCalculator(config['rewards'])
														
 
															+
														
 
															+        # 动作空间采用每个关节一个归一化动作，后面再映射回真实关节角度范围。
														
 
															+        self.action_space = gym.spaces.Box(
														
 
															+            low=-1.0,
														
 
															+            high=1.0,
														
 
															+            shape=(len(self.joint_names),),
														
 
															+            dtype=np.float32,
														
 
															+        )
														
 
															+        # 观测里包含关节位置/速度、上一时刻动作，以及基座姿态和速度信息。
														
 
															+        self.observation_space = gym.spaces.Box(
														
 
															+            low=-np.inf,
														
 
															+            high=np.inf,
														
 
															+            shape=(len(self.joint_names) * 3 + 5,),
														
 
															+            dtype=np.float32,
														
 
															+        )
														
 
															+
														
 
															+        self.previous_action = np.zeros(len(self.joint_names), dtype=np.float32)
														
 
															+        self.previous_snapshot: RobotStateSnapshot | None = None
														
 
															+        self.current_snapshot: RobotStateSnapshot | None = None
														
 
															+        self.step_count = 0
														
 
															+        self.target_base_height = self.task_config['target_base_height']
														
 
															+
														
 
															+    def _normalized_joint_position(self, joint_position: np.ndarray) -> np.ndarray:
														
 
															+        return (joint_position - self.joint_mid) / self.joint_half_range
														
 
															+
														
 
															+    def _action_to_joint_targets(self, action: np.ndarray) -> np.ndarray:
														
 
															+        clipped_action = np.clip(action, -1.0, 1.0)
														
 
															+        # 将 [-1, 1] 的策略输出缩放到 URDF 关节极限范围内。
														
 
															+        joint_targets = self.joint_mid + clipped_action * self.joint_half_range
														
 
															+        return np.clip(joint_targets, self.joint_lower, self.joint_upper).astype(np.float32)
														
 
															+
														
 
															+    def _get_target_base_height(self, snapshot: RobotStateSnapshot) -> float:
														
 
															+        if self.target_base_height is None:
														
 
															+            self.target_base_height = float(snapshot.base_position[2])
														
 
															+        return float(self.target_base_height)
														
 
															+
														
 
															+    def _build_observation(
														
 
															+        self,
														
 
															+        snapshot: RobotStateSnapshot,
														
 
															+        previous_snapshot: RobotStateSnapshot,
														
 
															+        previous_action: np.ndarray,
														
 
															+    ) -> np.ndarray:
														
 
															+        dt = max(snapshot.sim_time - previous_snapshot.sim_time, self.sim_config['control_dt'], 1e-3)
														
 
															+        velocity = (snapshot.base_position - previous_snapshot.base_position) / dt
														
 
															+        roll, pitch, _ = quaternion_xyzw_to_euler(snapshot.base_quaternion)
														
 
															+        observation = np.concatenate(
														
 
															+            [
														
 
															+                self._normalized_joint_position(snapshot.joint_position),
														
 
															+                snapshot.joint_velocity,
														
 
															+                previous_action,
														
 
															+                np.array(
														
 
															+                    [
														
 
															+                        snapshot.base_position[2],
														
 
															+                        roll,
														
 
															+                        pitch,
														
 
															+                        velocity[0],
														
 
															+                        self.task_config['target_forward_velocity'],
														
 
															+                    ],
														
 
															+                    dtype=np.float32,
														
 
															+                ),
														
 
															+            ],
														
 
															+            dtype=np.float32,
														
 
															+        )
														
 
															+        return observation
														
 
															+
														
 
															+    def _publish_zero_action(self) -> None:
														
 
															+        zero_target = {joint_name: 0.0 for joint_name in self.joint_names}
														
 
															+        self.interface.publish_joint_targets(zero_target)
														
 
															+
														
 
															+    def _advance_simulation(self) -> None:
														
 
															+        if self.sim_config['step_mode'] == 'service_step':
														
 
															+            # service_step 更适合训练：先发动作，再精确推进固定步数。
														
 
															+            time.sleep(float(self.sim_config['action_publish_delay']))
														
 
															+            self.interface.step_world(int(self.sim_config['service_step_iterations']))
														
 
															+            time.sleep(float(self.sim_config['post_step_wait_seconds']))
														
 
															+        else:
														
 
															+            # realtime 更接近交互式调试，但训练时可重复性会差一些。
														
 
															+            time.sleep(float(self.sim_config['control_dt']))
														
 
															+
														
 
															+    def _terminated(self, snapshot: RobotStateSnapshot) -> bool:
														
 
															+        roll, pitch, _ = quaternion_xyzw_to_euler(snapshot.base_quaternion)
														
 
															+        if abs(roll) > float(self.task_config['max_roll_rad']):
														
 
															+            return True
														
 
															+        if abs(pitch) > float(self.task_config['max_pitch_rad']):
														
 
															+            return True
														
 
															+        if float(snapshot.base_position[2]) < float(self.task_config['min_base_height']):
														
 
															+            return True
														
 
															+        return False
														
 
															+
														
 
															+    def reset(self, *, seed: int | None = None, options: dict[str, Any] | None = None):
														
 
															+        super().reset(seed=seed)
														
 
															+        pause_after_reset = self.sim_config['step_mode'] == 'service_step'
														
 
															+        self.interface.reset_world(pause_after_reset=pause_after_reset)
														
 
															+        self._publish_zero_action()
														
 
															+        time.sleep(float(self.sim_config['reset_settle_seconds']))
														
 
															+
														
 
															+        if pause_after_reset:
														
 
															+            self.interface.step_world(int(self.sim_config['service_step_iterations']))
														
 
															+
														
 
															+        snapshot = self.interface.wait_for_snapshot()
														
 
															+        self._get_target_base_height(snapshot)
														
 
															+        self.current_snapshot = snapshot
														
 
															+        self.previous_snapshot = snapshot
														
 
															+        self.previous_action = np.zeros(len(self.joint_names), dtype=np.float32)
														
 
															+        self.step_count = 0
														
 
															+
														
 
															+        observation = self._build_observation(snapshot, snapshot, self.previous_action)
														
 
															+        info = {
														
 
															+            'reset': True,
														
 
															+            'target_base_height': float(self.target_base_height),
														
 
															+            'target_forward_velocity': float(self.task_config['target_forward_velocity']),
														
 
															+        }
														
 
															+        return observation, info
														
 
															+
														
 
															+    def step(self, action: np.ndarray):
														
 
															+        if self.current_snapshot is None or self.previous_snapshot is None:
														
 
															+            raise RuntimeError('环境尚未 reset，不能直接 step。')
														
 
															+
														
 
															+        self.step_count += 1
														
 
															+        action = np.asarray(action, dtype=np.float32)
														
 
															+        joint_targets = self._action_to_joint_targets(action)
														
 
															+        self.interface.publish_joint_targets(joint_targets)
														
 
															+        self._advance_simulation()
														
 
															+
														
 
															+        self.previous_snapshot = self.current_snapshot
														
 
															+        self.current_snapshot = self.interface.wait_for_snapshot()
														
 
															+        terminated = self._terminated(self.current_snapshot)
														
 
															+        truncated = self.step_count >= int(self.training_config['max_episode_steps'])
														
 
															+
														
 
															+        reward, reward_terms = self.reward_calculator.compute(
														
 
															+            RewardContext(
														
 
															+                current=self.current_snapshot,
														
 
															+                previous=self.previous_snapshot,
														
 
															+                action=action,
														
 
															+                previous_action=self.previous_action,
														
 
															+                joint_limits=self.joint_limits,
														
 
															+                target_forward_velocity=float(self.task_config['target_forward_velocity']),
														
 
															+                target_base_height=float(self.target_base_height),
														
 
															+                control_dt=float(self.sim_config['control_dt']),
														
 
															+                terminated=terminated,
														
 
															+            )
														
 
															+        )
														
 
															+        # 训练时保留奖励分项，方便后面定位“为什么学不会走”。
														
 
															+        observation = self._build_observation(
														
 
															+            self.current_snapshot,
														
 
															+            self.previous_snapshot,
														
 
															+            self.previous_action,
														
 
															+        )
														
 
															+        self.previous_action = action.copy()
														
 
															+
														
 
															+        info = {
														
 
															+            'joint_targets': joint_targets.tolist(),
														
 
															+            'reward_terms': reward_terms,
														
 
															+        }
														
 
															+        return observation, reward, terminated, truncated, info
														
 
															+
														
 
															+    def close(self) -> None:
														
 
															+        self.interface.close()
														
--- a/guguji_rl/guguji_rl/math_utils.py
+++ b/guguji_rl/guguji_rl/math_utils.py
@@ -0,0 +1,30 @@
 
															+from __future__ import annotations
														
 
															+
														
 
															+import math
														
 
															+from typing import Iterable
														
 
															+
														
 
															+import numpy as np
														
 
															+
														
 
															+
														
 
															+def quaternion_xyzw_to_euler(quaternion: Iterable[float]) -> tuple[float, float, float]:
														
 
															+    x, y, z, w = quaternion
														
 
															+
														
 
															+    sinr_cosp = 2.0 * (w * x + y * z)
														
 
															+    cosr_cosp = 1.0 - 2.0 * (x * x + y * y)
														
 
															+    roll = math.atan2(sinr_cosp, cosr_cosp)
														
 
															+
														
 
															+    sinp = 2.0 * (w * y - z * x)
														
 
															+    if abs(sinp) >= 1.0:
														
 
															+        pitch = math.copysign(math.pi / 2.0, sinp)
														
 
															+    else:
														
 
															+        pitch = math.asin(sinp)
														
 
															+
														
 
															+    siny_cosp = 2.0 * (w * z + x * y)
														
 
															+    cosy_cosp = 1.0 - 2.0 * (y * y + z * z)
														
 
															+    yaw = math.atan2(siny_cosp, cosy_cosp)
														
 
															+
														
 
															+    return roll, pitch, yaw
														
 
															+
														
 
															+
														
 
															+def safe_array(values: Iterable[float], dtype=np.float32) -> np.ndarray:
														
 
															+    return np.asarray(list(values), dtype=dtype)
														
--- a/guguji_rl/guguji_rl/rewards.py
+++ b/guguji_rl/guguji_rl/rewards.py
@@ -0,0 +1,74 @@
 
															+from __future__ import annotations
														
 
															+
														
 
															+from dataclasses import dataclass
														
 
															+
														
 
															+import numpy as np
														
 
															+
														
 
															+from .math_utils import quaternion_xyzw_to_euler
														
 
															+from .ros2_interface import RobotStateSnapshot
														
 
															+from .urdf_utils import JointLimit
														
 
															+
														
 
															+
														
 
															+@dataclass
														
 
															+class RewardContext:
														
 
															+    current: RobotStateSnapshot
														
 
															+    previous: RobotStateSnapshot
														
 
															+    action: np.ndarray
														
 
															+    previous_action: np.ndarray
														
 
															+    joint_limits: list[JointLimit]
														
 
															+    target_forward_velocity: float
														
 
															+    target_base_height: float
														
 
															+    control_dt: float
														
 
															+    terminated: bool
														
 
															+
														
 
															+
														
 
															+class BipedRewardCalculator:
														
 
															+    def __init__(self, reward_config: dict) -> None:
														
 
															+        self.reward_config = reward_config
														
 
															+
														
 
															+    def compute(self, context: RewardContext) -> tuple[float, dict[str, float]]:
														
 
															+        dt = max(context.current.sim_time - context.previous.sim_time, context.control_dt, 1e-3)
														
 
															+        delta_position = context.current.base_position - context.previous.base_position
														
 
															+        forward_velocity = float(delta_position[0] / dt)
														
 
															+        lateral_velocity = float(delta_position[1] / dt)
														
 
															+
														
 
															+        roll, pitch, _ = quaternion_xyzw_to_euler(context.current.base_quaternion)
														
 
															+        upright_reward = np.exp(-4.0 * (roll * roll + pitch * pitch))
														
 
															+        height_error = context.current.base_position[2] - context.target_base_height
														
 
															+        height_reward = np.exp(-8.0 * height_error * height_error)
														
 
															+
														
 
															+        sigma = max(float(self.reward_config['velocity_tracking_sigma']), 1e-6)
														
 
															+        velocity_error = forward_velocity - context.target_forward_velocity
														
 
															+        velocity_tracking = np.exp(-(velocity_error * velocity_error) / (2.0 * sigma * sigma))
														
 
															+
														
 
															+        action_rate_penalty = float(np.mean(np.square(context.action - context.previous_action)))
														
 
															+
														
 
															+        joint_limit_penalty = 0.0
														
 
															+        for index, joint_limit in enumerate(context.joint_limits):
														
 
															+            normalized = abs((context.current.joint_position[index] - joint_limit.midpoint) / joint_limit.half_range)
														
 
															+            joint_limit_penalty += max(normalized - 0.9, 0.0)
														
 
															+        joint_limit_penalty /= max(len(context.joint_limits), 1)
														
 
															+
														
 
															+        reward_terms = {
														
 
															+            'alive_bonus': float(self.reward_config['alive_bonus']),
														
 
															+            'velocity_tracking': float(self.reward_config['velocity_tracking_scale']) * float(velocity_tracking),
														
 
															+            'upright': float(self.reward_config['upright_scale']) * float(upright_reward),
														
 
															+            'height': float(self.reward_config['height_scale']) * float(height_reward),
														
 
															+            'action_rate_penalty': -float(self.reward_config['action_rate_penalty_scale']) * action_rate_penalty,
														
 
															+            'joint_limit_penalty': -float(self.reward_config['joint_limit_penalty_scale']) * joint_limit_penalty,
														
 
															+            'lateral_velocity_penalty': -float(self.reward_config['lateral_velocity_penalty_scale']) * abs(lateral_velocity),
														
 
															+        }
														
 
															+
														
 
															+        total_reward = sum(reward_terms.values())
														
 
															+        if context.terminated:
														
 
															+            reward_terms['fall_penalty'] = float(self.reward_config['fall_penalty'])
														
 
															+            total_reward += reward_terms['fall_penalty']
														
 
															+        else:
														
 
															+            reward_terms['fall_penalty'] = 0.0
														
 
															+
														
 
															+        reward_terms['forward_velocity'] = forward_velocity
														
 
															+        reward_terms['roll'] = float(roll)
														
 
															+        reward_terms['pitch'] = float(pitch)
														
 
															+        reward_terms['base_height'] = float(context.current.base_position[2])
														
 
															+        reward_terms['total_reward'] = float(total_reward)
														
 
															+        return float(total_reward), reward_terms
														
--- a/guguji_rl/guguji_rl/ros2_interface.py
+++ b/guguji_rl/guguji_rl/ros2_interface.py
@@ -0,0 +1,253 @@
 
															+from __future__ import annotations
														
 
															+
														
 
															+import threading
														
 
															+import time
														
 
															+from dataclasses import dataclass
														
 
															+from typing import Iterable
														
 
															+
														
 
															+import numpy as np
														
 
															+import rclpy
														
 
															+from rclpy.context import Context
														
 
															+from rclpy.executors import SingleThreadedExecutor
														
 
															+from rclpy.node import Node
														
 
															+from ros_gz_interfaces.srv import ControlWorld
														
 
															+from rosgraph_msgs.msg import Clock
														
 
															+from sensor_msgs.msg import JointState
														
 
															+from std_msgs.msg import Float64
														
 
															+from tf2_msgs.msg import TFMessage
														
 
															+
														
 
															+
														
 
															+@dataclass
														
 
															+class RobotStateSnapshot:
														
 
															+    sim_time: float
														
 
															+    joint_position: np.ndarray
														
 
															+    joint_velocity: np.ndarray
														
 
															+    base_position: np.ndarray
														
 
															+    base_quaternion: np.ndarray
														
 
															+
														
 
															+
														
 
															+class _GugujiInterfaceNode(Node):
														
 
															+    def __init__(
														
 
															+        self,
														
 
															+        *,
														
 
															+        context: Context,
														
 
															+        joint_names: list[str],
														
 
															+        command_topic_prefix: str,
														
 
															+        joint_state_topic: str,
														
 
															+        tf_topic: str,
														
 
															+        clock_topic: str,
														
 
															+        world_control_service: str,
														
 
															+        model_name: str,
														
 
															+    ) -> None:
														
 
															+        super().__init__('guguji_rl_interface', context=context)
														
 
															+        self.joint_names = joint_names
														
 
															+        self.model_name = model_name
														
 
															+        self.command_publishers = {
														
 
															+            joint_name: self.create_publisher(
														
 
															+                Float64,
														
 
															+                f'{command_topic_prefix}/{joint_name}',
														
 
															+                10,
														
 
															+            )
														
 
															+            for joint_name in joint_names
														
 
															+        }
														
 
															+
														
 
															+        self._lock = threading.Lock()
														
 
															+        self._latest_joint_state: JointState | None = None
														
 
															+        self._latest_tf: TFMessage | None = None
														
 
															+        self._latest_clock: Clock | None = None
														
 
															+
														
 
															+        self.create_subscription(JointState, joint_state_topic, self._joint_state_callback, 10)
														
 
															+        self.create_subscription(TFMessage, tf_topic, self._tf_callback, 50)
														
 
															+        self.create_subscription(Clock, clock_topic, self._clock_callback, 10)
														
 
															+        self.world_control_client = self.create_client(ControlWorld, world_control_service)
														
 
															+
														
 
															+    def _joint_state_callback(self, message: JointState) -> None:
														
 
															+        with self._lock:
														
 
															+            self._latest_joint_state = message
														
 
															+
														
 
															+    def _tf_callback(self, message: TFMessage) -> None:
														
 
															+        with self._lock:
														
 
															+            self._latest_tf = message
														
 
															+
														
 
															+    def _clock_callback(self, message: Clock) -> None:
														
 
															+        with self._lock:
														
 
															+            self._latest_clock = message
														
 
															+
														
 
															+    def snapshot(self) -> RobotStateSnapshot | None:
														
 
															+        with self._lock:
														
 
															+            joint_state = self._latest_joint_state
														
 
															+            tf_message = self._latest_tf
														
 
															+            clock_message = self._latest_clock
														
 
															+
														
 
															+        if joint_state is None:
														
 
															+            return None
														
 
															+
														
 
															+        joint_map = {name: index for index, name in enumerate(joint_state.name)}
														
 
															+        joint_position = np.zeros(len(self.joint_names), dtype=np.float32)
														
 
															+        joint_velocity = np.zeros(len(self.joint_names), dtype=np.float32)
														
 
															+
														
 
															+        for output_index, joint_name in enumerate(self.joint_names):
														
 
															+            source_index = joint_map.get(joint_name)
														
 
															+            if source_index is None:
														
 
															+                continue
														
 
															+            if source_index < len(joint_state.position):
														
 
															+                joint_position[output_index] = joint_state.position[source_index]
														
 
															+            if source_index < len(joint_state.velocity):
														
 
															+                joint_velocity[output_index] = joint_state.velocity[source_index]
														
 
															+
														
 
															+        base_position = np.zeros(3, dtype=np.float32)
														
 
															+        base_quaternion = np.array([0.0, 0.0, 0.0, 1.0], dtype=np.float32)
														
 
															+
														
 
															+        if tf_message is not None:
														
 
															+            for transform in tf_message.transforms:
														
 
															+                if transform.child_frame_id == self.model_name:
														
 
															+                    base_position = np.array(
														
 
															+                        [
														
 
															+                            transform.transform.translation.x,
														
 
															+                            transform.transform.translation.y,
														
 
															+                            transform.transform.translation.z,
														
 
															+                        ],
														
 
															+                        dtype=np.float32,
														
 
															+                    )
														
 
															+                    base_quaternion = np.array(
														
 
															+                        [
														
 
															+                            transform.transform.rotation.x,
														
 
															+                            transform.transform.rotation.y,
														
 
															+                            transform.transform.rotation.z,
														
 
															+                            transform.transform.rotation.w,
														
 
															+                        ],
														
 
															+                        dtype=np.float32,
														
 
															+                    )
														
 
															+                    break
														
 
															+
														
 
															+        sim_time = 0.0
														
 
															+        if clock_message is not None:
														
 
															+            sim_time = clock_message.clock.sec + clock_message.clock.nanosec * 1e-9
														
 
															+
														
 
															+        return RobotStateSnapshot(
														
 
															+            sim_time=sim_time,
														
 
															+            joint_position=joint_position,
														
 
															+            joint_velocity=joint_velocity,
														
 
															+            base_position=base_position,
														
 
															+            base_quaternion=base_quaternion,
														
 
															+        )
														
 
															+
														
 
															+
														
 
															+class GugujiRos2Interface:
														
 
															+    """封装 RL 环境需要的 ROS 2 通信接口。"""
														
 
															+
														
 
															+    def __init__(
														
 
															+        self,
														
 
															+        *,
														
 
															+        joint_names: list[str],
														
 
															+        command_topic_prefix: str,
														
 
															+        joint_state_topic: str,
														
 
															+        tf_topic: str,
														
 
															+        clock_topic: str,
														
 
															+        world_control_service: str,
														
 
															+        model_name: str,
														
 
															+    ) -> None:
														
 
															+        self._context = Context()
														
 
															+        # 训练程序使用独立 context，避免和外部 ROS 2 进程互相干扰。
														
 
															+        rclpy.init(args=None, context=self._context)
														
 
															+
														
 
															+        self._node = _GugujiInterfaceNode(
														
 
															+            context=self._context,
														
 
															+            joint_names=joint_names,
														
 
															+            command_topic_prefix=command_topic_prefix,
														
 
															+            joint_state_topic=joint_state_topic,
														
 
															+            tf_topic=tf_topic,
														
 
															+            clock_topic=clock_topic,
														
 
															+            world_control_service=world_control_service,
														
 
															+            model_name=model_name,
														
 
															+        )
														
 
															+
														
 
															+        self._executor = SingleThreadedExecutor(context=self._context)
														
 
															+        self._executor.add_node(self._node)
														
 
															+        # 单独起一个线程持续 spin，这样训练主循环可以专注做 step / reward。
														
 
															+        self._spin_thread = threading.Thread(target=self._executor.spin, daemon=True)
														
 
															+        self._spin_thread.start()
														
 
															+
														
 
															+    def wait_for_world_control_service(self, timeout: float = 10.0) -> None:
														
 
															+        deadline = time.time() + timeout
														
 
															+        while time.time() < deadline:
														
 
															+            if self._node.world_control_client.wait_for_service(timeout_sec=0.2):
														
 
															+                return
														
 
															+        raise TimeoutError('等待 Gazebo world control 服务超时。')
														
 
															+
														
 
															+    def wait_for_snapshot(self, timeout: float = 5.0) -> RobotStateSnapshot:
														
 
															+        deadline = time.time() + timeout
														
 
															+        while time.time() < deadline:
														
 
															+            snapshot = self._node.snapshot()
														
 
															+            if snapshot is not None:
														
 
															+                # snapshot 把训练需要的 joint_states / tf / clock 聚合成了一份结构化状态。
														
 
															+                return snapshot
														
 
															+            time.sleep(0.05)
														
 
															+        raise TimeoutError('等待 joint_states / tf 数据超时。')
														
 
															+
														
 
															+    def publish_joint_targets(self, joint_targets: dict[str, float] | Iterable[float]) -> None:
														
 
															+        if isinstance(joint_targets, dict):
														
 
															+            target_map = joint_targets
														
 
															+        else:
														
 
															+            target_map = {
														
 
															+                joint_name: float(value)
														
 
															+                for joint_name, value in zip(self._node.joint_names, joint_targets)
														
 
															+            }
														
 
															+
														
 
															+        for joint_name, target_value in target_map.items():
														
 
															+            publisher = self._node.command_publishers[joint_name]
														
 
															+            message = Float64()
														
 
															+            message.data = float(target_value)
														
 
															+            publisher.publish(message)
														
 
															+
														
 
															+    def control_world(
														
 
															+        self,
														
 
															+        *,
														
 
															+        pause: bool | None = None,
														
 
															+        step: bool = False,
														
 
															+        multi_step: int = 0,
														
 
															+        reset_all: bool = False,
														
 
															+        reset_model_only: bool = False,
														
 
															+        reset_time_only: bool = False,
														
 
															+        timeout: float = 5.0,
														
 
															+    ) -> bool:
														
 
															+        request = ControlWorld.Request()
														
 
															+        if pause is not None:
														
 
															+            request.world_control.pause = pause
														
 
															+        request.world_control.step = step
														
 
															+        request.world_control.multi_step = int(multi_step)
														
 
															+        request.world_control.reset.all = reset_all
														
 
															+        request.world_control.reset.model_only = reset_model_only
														
 
															+        request.world_control.reset.time_only = reset_time_only
														
 
															+
														
 
															+        future = self._node.world_control_client.call_async(request)
														
 
															+        deadline = time.time() + timeout
														
 
															+
														
 
															+        while time.time() < deadline:
														
 
															+            if future.done():
														
 
															+                response = future.result()
														
 
															+                return bool(response.success)
														
 
															+            time.sleep(0.01)
														
 
															+
														
 
															+        raise TimeoutError('调用 Gazebo world control 服务超时。')
														
 
															+
														
 
															+    def reset_world(self, *, pause_after_reset: bool) -> bool:
														
 
															+        return self.control_world(
														
 
															+            pause=pause_after_reset,
														
 
															+            reset_all=True,
														
 
															+        )
														
 
															+
														
 
															+    def step_world(self, multi_step: int) -> bool:
														
 
															+        return self.control_world(
														
 
															+            pause=True,
														
 
															+            step=True,
														
 
															+            multi_step=multi_step,
														
 
															+        )
														
 
															+
														
 
															+    def close(self) -> None:
														
 
															+        try:
														
 
															+            self._executor.shutdown()
														
 
															+        finally:
														
 
															+            self._node.destroy_node()
														
 
															+            rclpy.shutdown(context=self._context)
														
 
															+            self._spin_thread.join(timeout=1.0)
														
--- a/guguji_rl/guguji_rl/urdf_utils.py
+++ b/guguji_rl/guguji_rl/urdf_utils.py
@@ -0,0 +1,66 @@
 
															+from __future__ import annotations
														
 
															+
														
 
															+from dataclasses import dataclass
														
 
															+from pathlib import Path
														
 
															+from typing import Iterable
														
 
															+from xml.etree import ElementTree as ET
														
 
															+
														
 
															+
														
 
															+@dataclass(frozen=True)
														
 
															+class JointLimit:
														
 
															+    name: str
														
 
															+    lower: float
														
 
															+    upper: float
														
 
															+    effort: float
														
 
															+    velocity: float
														
 
															+
														
 
															+    @property
														
 
															+    def midpoint(self) -> float:
														
 
															+        return (self.lower + self.upper) * 0.5
														
 
															+
														
 
															+    @property
														
 
															+    def half_range(self) -> float:
														
 
															+        return max((self.upper - self.lower) * 0.5, 1e-6)
														
 
															+
														
 
															+
														
 
															+def parse_joint_limits(urdf_path: str | Path, joint_names: Iterable[str] | None = None) -> list[JointLimit]:
														
 
															+    urdf_path = Path(urdf_path)
														
 
															+    root = ET.parse(urdf_path).getroot()
														
 
															+    expected_names = set(joint_names or [])
														
 
															+    result: list[JointLimit] = []
														
 
															+
														
 
															+    for joint_element in root.findall('joint'):
														
 
															+        joint_type = joint_element.attrib.get('type', '')
														
 
															+        if joint_type not in {'revolute', 'continuous'}:
														
 
															+            continue
														
 
															+
														
 
															+        name = joint_element.attrib['name']
														
 
															+        if expected_names and name not in expected_names:
														
 
															+            continue
														
 
															+
														
 
															+        limit_element = joint_element.find('limit')
														
 
															+        if limit_element is None:
														
 
															+            continue
														
 
															+
														
 
															+        lower = float(limit_element.attrib.get('lower', '-3.14159'))
														
 
															+        upper = float(limit_element.attrib.get('upper', '3.14159'))
														
 
															+        effort = float(limit_element.attrib.get('effort', '0.0'))
														
 
															+        velocity = float(limit_element.attrib.get('velocity', '0.0'))
														
 
															+        result.append(
														
 
															+            JointLimit(
														
 
															+                name=name,
														
 
															+                lower=lower,
														
 
															+                upper=upper,
														
 
															+                effort=effort,
														
 
															+                velocity=velocity,
														
 
															+            )
														
 
															+        )
														
 
															+
														
 
															+    if expected_names:
														
 
															+        found_names = {item.name for item in result}
														
 
															+        missing_names = expected_names - found_names
														
 
															+        if missing_names:
														
 
															+            missing_text = ', '.join(sorted(missing_names))
														
 
															+            raise ValueError(f'URDF 中缺少这些关节限制: {missing_text}')
														
 
															+
														
 
															+    return result
														
--- a/guguji_rl/pyproject.toml
+++ b/guguji_rl/pyproject.toml
@@ -0,0 +1,22 @@
 
															+[build-system]
														
 
															+requires = ["setuptools>=68", "wheel"]
														
 
															+build-backend = "setuptools.build_meta"
														
 
															+
														
 
															+[project]
														
 
															+name = "guguji-rl"
														
 
															+version = "0.1.0"
														
 
															+description = "Reinforcement learning training stack for the guguji biped robot"
														
 
															+readme = "README.md"
														
 
															+requires-python = ">=3.10"
														
 
															+dependencies = [
														
 
															+  "gymnasium>=0.29",
														
 
															+  "numpy>=1.26",
														
 
															+  "PyYAML>=6.0",
														
 
															+  "rich>=13.7",
														
 
															+  "stable-baselines3>=2.3",
														
 
															+  "tensorboard>=2.14",
														
 
															+]
														
 
															+
														
 
															+[tool.setuptools.packages.find]
														
 
															+where = ["."]
														
 
															+include = ["guguji_rl*"]
														
--- a/guguji_rl/requirements.txt
+++ b/guguji_rl/requirements.txt
@@ -0,0 +1,9 @@
 
															+# 说明：
														
 
															+# 1. 这里不强行固定 torch 版本，方便你根据 CPU / CUDA 环境自行安装。
														
 
															+# 2. 如果你要使用 GPU，请先按 PyTorch 官方方式安装带 CUDA 的 torch。
														
 
															+gymnasium>=0.29
														
 
															+numpy>=1.26
														
 
															+PyYAML>=6.0
														
 
															+rich>=13.7
														
 
															+stable-baselines3>=2.3
														
 
															+tensorboard>=2.14
														
--- a/guguji_rl/scripts/check_env.py
+++ b/guguji_rl/scripts/check_env.py
@@ -0,0 +1,65 @@
 
															+from __future__ import annotations
														
 
															+
														
 
															+import argparse
														
 
															+import sys
														
 
															+from pathlib import Path
														
 
															+
														
 
															+import numpy as np
														
 
															+
														
 
															+SCRIPT_ROOT = Path(__file__).resolve().parents[1]
														
 
															+if str(SCRIPT_ROOT) not in sys.path:
														
 
															+    sys.path.insert(0, str(SCRIPT_ROOT))
														
 
															+
														
 
															+from guguji_rl.config import load_config
														
 
															+
														
 
															+
														
 
															+def parse_args() -> argparse.Namespace:
														
 
															+    parser = argparse.ArgumentParser(description='Sanity check for the Gazebo RL environment.')
														
 
															+    parser.add_argument('--config', default='configs/balance_ppo.yaml', help='配置文件路径')
														
 
															+    parser.add_argument('--steps', type=int, default=5, help='检查时执行多少个 step')
														
 
															+    return parser.parse_args()
														
 
															+
														
 
															+
														
 
															+def resolve_input_path(path_str: str) -> Path:
														
 
															+    path = Path(path_str)
														
 
															+    if path.is_absolute() or path.exists():
														
 
															+        return path
														
 
															+    return SCRIPT_ROOT / path
														
 
															+
														
 
															+
														
 
															+def main() -> int:
														
 
															+    args = parse_args()
														
 
															+
														
 
															+    try:
														
 
															+        from guguji_rl.envs import GazeboBipedEnv
														
 
															+    except ImportError:
														
 
															+        print('缺少训练环境依赖，请先进入 guguji_rl 目录安装 requirements.txt', file=sys.stderr)
														
 
															+        return 1
														
 
															+
														
 
															+    config = load_config(resolve_input_path(args.config))
														
 
															+    env = GazeboBipedEnv(config)
														
 
															+
														
 
															+    observation, info = env.reset()
														
 
															+    print('reset ok')
														
 
															+    print(f'observation shape: {observation.shape}')
														
 
															+    print(f'target_base_height: {info["target_base_height"]:.4f}')
														
 
															+
														
 
															+    for step_index in range(args.steps):
														
 
															+        action = np.zeros(env.action_space.shape[0], dtype=np.float32)
														
 
															+        observation, reward, terminated, truncated, info = env.step(action)
														
 
															+        reward_terms = info['reward_terms']
														
 
															+        print(
														
 
															+            f'step={step_index} reward={reward:.3f} '
														
 
															+            f'vx={reward_terms["forward_velocity"]:.3f} '
														
 
															+            f'base_z={reward_terms["base_height"]:.3f}'
														
 
															+        )
														
 
															+        if terminated or truncated:
														
 
															+            print(f'episode finished early: terminated={terminated} truncated={truncated}')
														
 
															+            break
														
 
															+
														
 
															+    env.close()
														
 
															+    return 0
														
 
															+
														
 
															+
														
 
															+if __name__ == '__main__':
														
 
															+    raise SystemExit(main())
														
--- a/guguji_rl/scripts/evaluate.py
+++ b/guguji_rl/scripts/evaluate.py
@@ -0,0 +1,66 @@
 
															+from __future__ import annotations
														
 
															+
														
 
															+import argparse
														
 
															+import sys
														
 
															+from pathlib import Path
														
 
															+
														
 
															+SCRIPT_ROOT = Path(__file__).resolve().parents[1]
														
 
															+if str(SCRIPT_ROOT) not in sys.path:
														
 
															+    sys.path.insert(0, str(SCRIPT_ROOT))
														
 
															+
														
 
															+from guguji_rl.config import load_config
														
 
															+
														
 
															+
														
 
															+def parse_args() -> argparse.Namespace:
														
 
															+    parser = argparse.ArgumentParser(description='Evaluate trained PPO policy in Gazebo.')
														
 
															+    parser.add_argument('--config', default='configs/walk_ppo.yaml', help='配置文件路径')
														
 
															+    parser.add_argument('--model', required=True, help='训练好的模型路径，例如 outputs/.../final_model.zip')
														
 
															+    parser.add_argument('--episodes', type=int, default=None, help='可选覆盖配置中的评估轮数')
														
 
															+    return parser.parse_args()
														
 
															+
														
 
															+
														
 
															+def resolve_input_path(path_str: str) -> Path:
														
 
															+    path = Path(path_str)
														
 
															+    if path.is_absolute() or path.exists():
														
 
															+        return path
														
 
															+    return SCRIPT_ROOT / path
														
 
															+
														
 
															+
														
 
															+def main() -> int:
														
 
															+    args = parse_args()
														
 
															+
														
 
															+    try:
														
 
															+        from stable_baselines3 import PPO
														
 
															+    except ImportError:
														
 
															+        print('缺少 stable-baselines3，请先安装 requirements.txt', file=sys.stderr)
														
 
															+        return 1
														
 
															+
														
 
															+    from guguji_rl.envs import GazeboBipedEnv
														
 
															+
														
 
															+    config = load_config(resolve_input_path(args.config))
														
 
															+    if args.episodes is not None:
														
 
															+        config['evaluation']['episodes'] = args.episodes
														
 
															+
														
 
															+    env = GazeboBipedEnv(config)
														
 
															+    model = PPO.load(resolve_input_path(args.model))
														
 
															+
														
 
															+    for episode_index in range(int(config['evaluation']['episodes'])):
														
 
															+        observation, info = env.reset()
														
 
															+        done = False
														
 
															+        truncated = False
														
 
															+        total_reward = 0.0
														
 
															+        while not done and not truncated:
														
 
															+            action, _ = model.predict(
														
 
															+                observation,
														
 
															+                deterministic=bool(config['evaluation']['deterministic']),
														
 
															+            )
														
 
															+            observation, reward, done, truncated, info = env.step(action)
														
 
															+            total_reward += reward
														
 
															+        print(f'episode={episode_index} total_reward={total_reward:.3f}')
														
 
															+
														
 
															+    env.close()
														
 
															+    return 0
														
 
															+
														
 
															+
														
 
															+if __name__ == '__main__':
														
 
															+    raise SystemExit(main())
														
--- a/guguji_rl/scripts/run_policy.py
+++ b/guguji_rl/scripts/run_policy.py
@@ -0,0 +1,87 @@
 
															+from __future__ import annotations
														
 
															+
														
 
															+import argparse
														
 
															+import sys
														
 
															+from pathlib import Path
														
 
															+
														
 
															+SCRIPT_ROOT = Path(__file__).resolve().parents[1]
														
 
															+if str(SCRIPT_ROOT) not in sys.path:
														
 
															+    sys.path.insert(0, str(SCRIPT_ROOT))
														
 
															+
														
 
															+from guguji_rl.config import load_config
														
 
															+
														
 
															+
														
 
															+def parse_args() -> argparse.Namespace:
														
 
															+    parser = argparse.ArgumentParser(description='Run a trained PPO policy online in Gazebo / ROS 2.')
														
 
															+    parser.add_argument('--config', default='configs/walk_ppo.yaml', help='配置文件路径')
														
 
															+    parser.add_argument('--model', required=True, help='训练好的模型路径，例如 outputs/.../final_model.zip')
														
 
															+    parser.add_argument(
														
 
															+        '--deterministic',
														
 
															+        action='store_true',
														
 
															+        help='是否强制使用确定性动作，适合策略回放和部署调试',
														
 
															+    )
														
 
															+    parser.add_argument(
														
 
															+        '--max-episodes',
														
 
															+        type=int,
														
 
															+        default=0,
														
 
															+        help='最多运行多少个 episode，0 表示一直循环运行',
														
 
															+    )
														
 
															+    return parser.parse_args()
														
 
															+
														
 
															+
														
 
															+def resolve_input_path(path_str: str) -> Path:
														
 
															+    path = Path(path_str)
														
 
															+    if path.is_absolute() or path.exists():
														
 
															+        return path
														
 
															+    return SCRIPT_ROOT / path
														
 
															+
														
 
															+
														
 
															+def main() -> int:
														
 
															+    args = parse_args()
														
 
															+
														
 
															+    try:
														
 
															+        from stable_baselines3 import PPO
														
 
															+    except ImportError:
														
 
															+        print('缺少 stable-baselines3，请先安装 requirements.txt', file=sys.stderr)
														
 
															+        return 1
														
 
															+
														
 
															+    from guguji_rl.envs import GazeboBipedEnv
														
 
															+
														
 
															+    config = load_config(resolve_input_path(args.config))
														
 
															+
														
 
															+    env = GazeboBipedEnv(config)
														
 
															+    model = PPO.load(resolve_input_path(args.model))
														
 
															+
														
 
															+    episode_index = 0
														
 
															+    try:
														
 
															+        while args.max_episodes <= 0 or episode_index < args.max_episodes:
														
 
															+            # 这里直接复用训练环境，方便策略回放和后续在线部署共用同一套观测/动作逻辑。
														
 
															+            observation, _ = env.reset()
														
 
															+            terminated = False
														
 
															+            truncated = False
														
 
															+            total_reward = 0.0
														
 
															+
														
 
															+            while not terminated and not truncated:
														
 
															+                action, _ = model.predict(
														
 
															+                    observation,
														
 
															+                    deterministic=args.deterministic or bool(config['evaluation']['deterministic']),
														
 
															+                )
														
 
															+                observation, reward, terminated, truncated, _ = env.step(action)
														
 
															+                total_reward += reward
														
 
															+
														
 
															+            print(
														
 
															+                f'episode={episode_index} '
														
 
															+                f'total_reward={total_reward:.3f} '
														
 
															+                f'terminated={terminated} truncated={truncated}'
														
 
															+            )
														
 
															+            episode_index += 1
														
 
															+    except KeyboardInterrupt:
														
 
															+        print('收到 Ctrl+C，停止在线策略运行。')
														
 
															+    finally:
														
 
															+        env.close()
														
 
															+
														
 
															+    return 0
														
 
															+
														
 
															+
														
 
															+if __name__ == '__main__':
														
 
															+    raise SystemExit(main())
														
--- a/guguji_rl/scripts/train.py
+++ b/guguji_rl/scripts/train.py
@@ -0,0 +1,131 @@
 
															+from __future__ import annotations
														
 
															+
														
 
															+import argparse
														
 
															+import sys
														
 
															+from datetime import datetime
														
 
															+from pathlib import Path
														
 
															+
														
 
															+SCRIPT_ROOT = Path(__file__).resolve().parents[1]
														
 
															+if str(SCRIPT_ROOT) not in sys.path:
														
 
															+    sys.path.insert(0, str(SCRIPT_ROOT))
														
 
															+
														
 
															+import torch
														
 
															+
														
 
															+from guguji_rl.config import load_config, resolve_project_path, save_yaml
														
 
															+
														
 
															+
														
 
															+def resolve_device(device_name: str) -> str:
														
 
															+    if device_name == 'auto':
														
 
															+        return 'cuda' if torch.cuda.is_available() else 'cpu'
														
 
															+    if device_name == 'cuda' and not torch.cuda.is_available():
														
 
															+        raise RuntimeError('配置要求使用 CUDA，但当前 torch 检测不到可用 GPU。')
														
 
															+    return device_name
														
 
															+
														
 
															+
														
 
															+def parse_args() -> argparse.Namespace:
														
 
															+    parser = argparse.ArgumentParser(description='Train PPO policy for guguji biped robot.')
														
 
															+    parser.add_argument(
														
 
															+        '--config',
														
 
															+        default='configs/balance_ppo.yaml',
														
 
															+        help='训练配置文件路径，默认使用 balance_ppo.yaml',
														
 
															+    )
														
 
															+    parser.add_argument(
														
 
															+        '--device',
														
 
															+        default=None,
														
 
															+        help='可选覆盖配置文件中的设备设置，例如 cpu / cuda / auto',
														
 
															+    )
														
 
															+    parser.add_argument(
														
 
															+        '--total-timesteps',
														
 
															+        type=int,
														
 
															+        default=None,
														
 
															+        help='可选覆盖配置文件中的 total_timesteps',
														
 
															+    )
														
 
															+    return parser.parse_args()
														
 
															+
														
 
															+
														
 
															+def resolve_input_path(path_str: str) -> Path:
														
 
															+    path = Path(path_str)
														
 
															+    if path.is_absolute() or path.exists():
														
 
															+        return path
														
 
															+    return SCRIPT_ROOT / path
														
 
															+
														
 
															+
														
 
															+def main() -> int:
														
 
															+    args = parse_args()
														
 
															+
														
 
															+    try:
														
 
															+        from stable_baselines3 import PPO
														
 
															+        from stable_baselines3.common.callbacks import CheckpointCallback
														
 
															+        from stable_baselines3.common.monitor import Monitor
														
 
															+    except ImportError:
														
 
															+        print(
														
 
															+            '缺少 stable-baselines3，请先进入 guguji_rl 目录安装依赖: '
														
 
															+            'pip install -r requirements.txt',
														
 
															+            file=sys.stderr,
														
 
															+        )
														
 
															+        return 1
														
 
															+
														
 
															+    from guguji_rl.envs import GazeboBipedEnv
														
 
															+
														
 
															+    config = load_config(resolve_input_path(args.config))
														
 
															+    if args.device is not None:
														
 
															+        config['training']['device'] = args.device
														
 
															+    if args.total_timesteps is not None:
														
 
															+        config['training']['total_timesteps'] = args.total_timesteps
														
 
															+
														
 
															+    # 这里统一解析训练设备，方便你只改 YAML 就切换 CPU / GPU。
														
 
															+    config['training']['device'] = resolve_device(config['training']['device'])
														
 
															+
														
 
															+    output_root = resolve_project_path(config, config['training']['output_root'])
														
 
															+    timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
														
 
															+    run_dir = output_root / f"{config['experiment']['name']}_{timestamp}"
														
 
															+    run_dir.mkdir(parents=True, exist_ok=True)
														
 
															+    # 保存一份展开后的配置，便于后面复现实验。
														
 
															+    save_yaml(config, run_dir / 'resolved_config.yaml')
														
 
															+
														
 
															+    env = Monitor(GazeboBipedEnv(config))
														
 
															+    checkpoint_callback = CheckpointCallback(
														
 
															+        save_freq=max(int(config['training']['checkpoint_freq']), 1),
														
 
															+        save_path=str(run_dir / 'checkpoints'),
														
 
															+        name_prefix='guguji_ppo',
														
 
															+    )
														
 
															+
														
 
															+    policy_kwargs = {
														
 
															+        'net_arch': list(config['training']['policy_net_arch']),
														
 
															+    }
														
 
															+
														
 
															+    print(f"训练设备: {config['training']['device']}")
														
 
															+    print(f"输出目录: {run_dir}")
														
 
															+
														
 
															+    # 先用 MLP + PPO 跑通训练闭环，后面你可以再逐步增大网络规模。
														
 
															+    model = PPO(
														
 
															+        policy='MlpPolicy',
														
 
															+        env=env,
														
 
															+        verbose=1,
														
 
															+        seed=int(config['training']['seed']),
														
 
															+        learning_rate=float(config['training']['learning_rate']),
														
 
															+        n_steps=int(config['training']['n_steps']),
														
 
															+        batch_size=int(config['training']['batch_size']),
														
 
															+        gamma=float(config['training']['gamma']),
														
 
															+        gae_lambda=float(config['training']['gae_lambda']),
														
 
															+        clip_range=float(config['training']['clip_range']),
														
 
															+        ent_coef=float(config['training']['ent_coef']),
														
 
															+        vf_coef=float(config['training']['vf_coef']),
														
 
															+        device=config['training']['device'],
														
 
															+        tensorboard_log=str(run_dir / 'tensorboard'),
														
 
															+        policy_kwargs=policy_kwargs,
														
 
															+    )
														
 
															+
														
 
															+    model.learn(
														
 
															+        total_timesteps=int(config['training']['total_timesteps']),
														
 
															+        callback=checkpoint_callback,
														
 
															+        progress_bar=True,
														
 
															+    )
														
 
															+    model.save(run_dir / 'final_model')
														
 
															+    env.close()
														
 
															+    print(f'训练完成，模型已保存到: {run_dir / "final_model.zip"}')
														
 
															+    return 0
														
 
															+
														
 
															+
														
 
															+if __name__ == '__main__':
														
 
															+    raise SystemExit(main())
														
--- a/guguji_ros2_ws/src/guguji_ros2/launch/gazebo.launch.py
+++ b/guguji_ros2_ws/src/guguji_ros2/launch/gazebo.launch.py
@@ -77,6 +77,8 @@ def _create_bridge_node(context, *args, **kwargs):
 
															         '/clock@rosgraph_msgs/msg/Clock[gz.msgs.Clock',
														
 
															         # 关节状态：Gazebo -> ROS
														
 
															         f'/world/{world_name}/model/guguji/joint_state@sensor_msgs/msg/JointState[gz.msgs.Model',
														
 
															+        # 世界控制服务：RL 训练时用于 reset / pause / 单步推进
														
 
															+        f'/world/{world_name}/control@ros_gz_interfaces/srv/ControlWorld',
														
 
															     ]
														
 
															     remappings = [
														
--- a/guguji_ros2_ws/src/guguji_ros2/package.xml
+++ b/guguji_ros2_ws/src/guguji_ros2/package.xml
@@ -15,6 +15,7 @@
 
															   <exec_depend>robot_state_publisher</exec_depend>
														
 
															   <exec_depend>ros2launch</exec_depend>
														
 
															   <exec_depend>ros_gz_bridge</exec_depend>
														
 
															+  <exec_depend>ros_gz_interfaces</exec_depend>
														
 
															   <exec_depend>ros_gz_sim</exec_depend>
														
 
															   <exec_depend>rosgraph_msgs</exec_depend>
														
 
															   <exec_depend>rviz2</exec_depend>
	`@@ -0,0 +1 @@`
			`+"""guguji reinforcement learning package."""`