a2c tests

pytorch · vmoens · Sep 4, 2024 · Aug 10, 2024 · Aug 11, 2024 · Aug 12, 2024
commit 07ec262ee298f5e2d1eea643e36009a2c33c5ff8
diff --git a/test/test_cost.py b/test/test_cost.py
@@ -8860,14 +8860,24 @@ def test_a2c(
             functional=functional,
         )
 
+        def set_requires_grad(tensor, requires_grad):
+            tensor.requires_grad = requires_grad
+            return tensor
+
         # Check error is raised when actions require grads
-        td["action"].requires_grad = True
+        if composite_action_dist:
+            td["action"].apply_(lambda x: set_requires_grad(x, True))
+        else:
+            td["action"].requires_grad = True
         with pytest.raises(
             RuntimeError,
-            match="tensordict stored action require grad.",
+            match="tensordict stored action requires grad.",
         ):
             _ = loss_fn._log_probs(td)
-        td["action"].requires_grad = False
+        if composite_action_dist:
+            td["action"].apply_(lambda x: set_requires_grad(x, False))
+        else:
+            td["action"].requires_grad = False
 
         td = td.exclude(loss_fn.tensor_keys.value_target)
         if advantage is not None:

diff --git a/torchrl/objectives/a2c.py b/torchrl/objectives/a2c.py
@@ -384,7 +384,7 @@ def get_entropy_bonus(self, dist: d.Distribution) -> torch.Tensor:
         except NotImplementedError:
             x = dist.rsample((self.samples_mc_entropy,))
             log_prob = dist.log_prob(x)
-            if isinstance(x, log_prob):
+            if isinstance(log_prob, TensorDict):
                 log_prob = log_prob.get(self.tensor_keys.sample_log_prob)
             entropy = -log_prob.mean(0)
         return entropy.unsqueeze(-1)
@@ -394,20 +394,26 @@ def _log_probs(
     ) -> Tuple[torch.Tensor, d.Distribution]:
         # current log_prob of actions
         action = tensordict.get(self.tensor_keys.action)
-        if action.requires_grad:
-            raise RuntimeError(
-                f"tensordict stored {self.tensor_keys.action} require grad."
-            )
         tensordict_clone = tensordict.select(
             *self.actor_network.in_keys, strict=False
         ).clone()
         with self.actor_network_params.to_module(
             self.actor_network
         ) if self.functional else contextlib.nullcontext():
             dist = self.actor_network.get_dist(tensordict_clone)
+
+        def check_requires_grad(tensor):
+            if tensor.requires_grad:
+                raise RuntimeError(
+                    f"tensordict stored {self.tensor_keys.action} requires grad."
+                )
+            return tensor
+
         if isinstance(action, torch.Tensor):
+            check_requires_grad(action)
             log_prob = dist.log_prob(action)
         else:
+            action.apply(check_requires_grad)
             tensordict = dist.log_prob(tensordict)
             log_prob = tensordict.get(self.tensor_keys.sample_log_prob)
         log_prob = log_prob.unsqueeze(-1)

diff --git a/torchrl/objectives/ppo.py b/torchrl/objectives/ppo.py
@@ -460,24 +460,26 @@ def _log_weight(
     ) -> Tuple[torch.Tensor, d.Distribution]:
         # current log_prob of actions
         action = tensordict.get(self.tensor_keys.action)
-        if action.requires_grad:
-            raise RuntimeError(
-                f"tensordict stored {self.tensor_keys.action} requires grad."
-            )
 
         with self.actor_network_params.to_module(
             self.actor_network
         ) if self.functional else contextlib.nullcontext():
             dist = self.actor_network.get_dist(tensordict)
             # dist = TransformedDistribution(dist, ExpTransform())
 
+        def check_requires_grad(tensor, key=self.tensor_keys.action):
+            if tensor.requires_grad:
+                raise RuntimeError(f"tensordict stored {key} requires grad.")
+            return tensor
+
         prev_log_prob = tensordict.get(self.tensor_keys.sample_log_prob)
-        if prev_log_prob.requires_grad:
-            raise RuntimeError("tensordict prev_log_prob requires grad.")
+        check_requires_grad(prev_log_prob, self.tensor_keys.sample_log_prob)
 
         if isinstance(action, torch.Tensor):
+            check_requires_grad(action, self.tensor_keys.action)
             log_prob = dist.log_prob(action)
         else:
+            action.apply(check_requires_grad)
             tensordict = dist.log_prob(tensordict)
             log_prob = tensordict.get(self.tensor_keys.sample_log_prob)