pytorch · vmoens · Oct 3, 2023 · Sep 6, 2023 · Sep 7, 2023 · Sep 7, 2023
diff --git a/examples/td3/config.yaml b/examples/td3/config.yaml
@@ -6,6 +6,7 @@ env:
   library: gym
   frame_skip: 1
   seed: 42
+  max_episode_steps: 1_000_000
 
 # collector
 collector:
@@ -14,7 +15,6 @@ collector:
   init_env_steps: 1000
   frames_per_batch: 1000
   max_frames_per_traj: 1000
-  async_collection: 1
   collector_device: cpu
   env_per_collector: 1
   num_workers: 1

diff --git a/examples/td3/td3.py b/examples/td3/td3.py
@@ -153,16 +153,17 @@ def main(cfg: "DictConfig"):  # noqa: F821
                     replay_buffer.update_priority(sampled_tensordict)
 
         training_time = time.time() - training_start
-        episode_rewards = tensordict["next", "episode_reward"][
+        episode_end = (
             tensordict["next", "done"]
-        ]
+            if tensordict["next", "done"].any()
+            else tensordict["next", "truncated"]
+        )
+        episode_rewards = tensordict["next", "episode_reward"][episode_end]
 
         # Logging
         metrics_to_log = {}
         if len(episode_rewards) > 0:
-            episode_length = tensordict["next", "step_count"][
-                tensordict["next", "done"]
-            ]
+            episode_length = tensordict["next", "step_count"][episode_end]
             metrics_to_log["train/reward"] = episode_rewards.mean().item()
             metrics_to_log["train/episode_length"] = episode_length.sum().item() / len(
                 episode_length

diff --git a/examples/td3/utils.py b/examples/td3/utils.py
@@ -41,9 +41,15 @@
 # -----------------
 
 
-def env_maker(task, device="cpu"):
+def env_maker(
+    task, device="cpu", max_episode_steps=1000
+):
     with set_gym_backend("gym"):
-        return GymEnv(task, device=device)
+        return GymEnv(
+            task,
+            device=device,
+            max_episode_steps=max_episode_steps,
+        )
 
 
 def apply_env_transforms(env, reward_scaling=1.0):
@@ -63,7 +69,11 @@ def make_environment(cfg):
     """Make environments for training and evaluation."""
     parallel_env = ParallelEnv(
         cfg.collector.env_per_collector,
-        EnvCreator(lambda task=cfg.env.name: env_maker(task=task)),
+        EnvCreator(
+            lambda task=cfg.env.name, max_episode_steps=cfg.env.max_episode_steps: env_maker(
+                task=task, max_episode_steps=max_episode_steps
+            )
+        ),
     )
     parallel_env.set_seed(cfg.env.seed)
 
@@ -72,7 +82,13 @@ def make_environment(cfg):
     eval_env = TransformedEnv(
         ParallelEnv(
             cfg.collector.env_per_collector,
-            EnvCreator(lambda task=cfg.env.name: env_maker(task=task)),
+            EnvCreator(
+                lambda
+                    task=cfg.env.name,
+                    max_episode_steps=cfg.env.max_episode_steps: env_maker(
+                    task=task, max_episode_steps=max_episode_steps
+                )
+            ),
         ),
         train_env.transform.clone(),
     )

diff --git a/test/test_cost.py b/test/test_cost.py
@@ -2370,8 +2370,10 @@ def test_td3_notensordict(self, observation_key, reward_key, done_key):
             loss_val_td = loss(td)
             torch.manual_seed(0)
             loss_val = loss(**kwargs)
-            for i, key in enumerate(loss_val_td.keys()):
-                torch.testing.assert_close(loss_val_td.get(key), loss_val[i])
+            for i in loss_val:
+                assert i in loss_val_td.values(), f"{i} not in {loss_val_td.values()}"
+            # for i, key in enumerate(loss_val_td.keys()):
+            # torch.testing.assert_close(loss_val_td.get(key), loss_val[i])
             # test select
             loss.select_out_keys("loss_actor", "loss_qvalue")
             torch.manual_seed(0)

diff --git a/torchrl/objectives/td3.py b/torchrl/objectives/td3.py
@@ -362,7 +362,7 @@ def actor_loss(self, tensordict):
         state_action_value_actor = (
             self._vmap_qvalue_network00(
                 actor_loss_td,
-                self.qvalue_network_params,
+                self._cached_detach_qvalue_network_params,
             )
             .get(self.tensor_keys.state_action_value)
             .squeeze(-1)
@@ -446,8 +446,8 @@ def value_loss(self, tensordict):
         )
         metadata = {
             "td_error": td_error,
-            "pred_value": current_qvalue.mean().detach(),
             "next_state_value": next_target_qvalue.mean().detach(),
+            "pred_value": current_qvalue.mean().detach(),
             "target_value": target_value.mean().detach(),
         }
 
@@ -456,8 +456,8 @@ def value_loss(self, tensordict):
     @dispatch
     def forward(self, tensordict: TensorDictBase) -> TensorDictBase:
         tensordict_save = tensordict
-        loss_qval, metadata_value = self.value_loss(tensordict)
         loss_actor, metadata_actor = self.actor_loss(tensordict)
+        loss_qval, metadata_value = self.value_loss(tensordict_save)
         tensordict_save.set(
             self.tensor_keys.priority, metadata_value.pop("td_error").detach().max(0)[0]
         )