format

pytorch · vmoens · Sep 4, 2024 · Aug 10, 2024 · Aug 11, 2024 · Aug 12, 2024
commit 2865c92554b0fbbcf1dbe655f9c419a6c0b19a1b
diff --git a/test/test_cost.py b/test/test_cost.py
@@ -8443,8 +8443,8 @@ def test_ppo_notensordict(
             f"next_{observation_key}": td.get(("next", observation_key)),
         }
         if loss_class is KLPENPPOLoss:
-            loc_key = ("params", "action1", "loc") if composite_action_dist else "loc"
-            scale_key = ("params", "action1", "scale") if composite_action_dist else "scale"
+            loc_key = "params" if composite_action_dist else "loc"
+            scale_key = "params" if composite_action_dist else "scale"
             kwargs.update({loc_key: td.get(loc_key), scale_key: td.get(scale_key)})
 
         td = TensorDict(kwargs, td.batch_size, names=["time"]).unflatten_keys("_")

diff --git a/torchrl/objectives/ppo.py b/torchrl/objectives/ppo.py
@@ -477,9 +477,14 @@ def _log_weight(
             raise RuntimeError("tensordict prev_log_prob requires grad.")
 
         if isinstance(dist, CompositeDistribution):
-            if tensordict.get(self.tensor_keys.action).batch_size != tensordict.batch_size:
+            if (
+                tensordict.get(self.tensor_keys.action).batch_size
+                != tensordict.batch_size
+            ):
                 # This condition can be True in notensordict usage
-                tensordict.get(self.tensor_keys.action).batch_size = tensordict.batch_size
+                tensordict.get(
+                    self.tensor_keys.action
+                ).batch_size = tensordict.batch_size
             tensordict = dist.log_prob(tensordict)
             log_prob = tensordict.get(self.tensor_keys.sample_log_prob)
         else: