format

pytorch · vmoens · Sep 4, 2024 · Aug 10, 2024 · Aug 11, 2024 · Aug 12, 2024
commit 8f00828b2b10946e15f8dfdb9fba28675d3961db
diff --git a/test/test_cost.py b/test/test_cost.py
@@ -8392,7 +8392,12 @@ def test_ppo_tensordict_keys_run(
     @pytest.mark.parametrize("reward_key", ["reward", "reward2"])
     @pytest.mark.parametrize("done_key", ["done", "done2"])
     @pytest.mark.parametrize("terminated_key", ["terminated", "terminated2"])
-    @pytest.mark.parametrize("composite_action_dist", [False, ])
+    @pytest.mark.parametrize(
+        "composite_action_dist",
+        [
+            False,
+        ],
+    )
     def test_ppo_notensordict(
         self,
         loss_class,
@@ -8457,6 +8462,7 @@ def test_ppo_notensordict(
         loss_val = loss(**kwargs)
         torch.manual_seed(self.seed)
         if beta is not None:
+
             loss.beta = beta.clone()
         loss_val_td = loss(td)
 
@@ -9232,19 +9238,21 @@ def test_a2c_tensordict_keys_run(
     @pytest.mark.parametrize("reward_key", ["reward", "reward2"])
     @pytest.mark.parametrize("done_key", ["done", "done2"])
     @pytest.mark.parametrize("terminated_key", ["terminated", "terminated2"])
+    @pytest.mark.parametrize("composite_action_dist", [False, ])
     def test_a2c_notensordict(
-        self, action_key, observation_key, reward_key, done_key, terminated_key
+        self, action_key, observation_key, reward_key, done_key, terminated_key, composite_action_dist
     ):
         torch.manual_seed(self.seed)
 
-        actor = self._create_mock_actor(observation_key=observation_key)
+        actor = self._create_mock_actor(observation_key=observation_key, composite_action_dist=composite_action_dist)
         value = self._create_mock_value(observation_key=observation_key)
         td = self._create_seq_mock_data_a2c(
             action_key=action_key,
             observation_key=observation_key,
             reward_key=reward_key,
             done_key=done_key,
             terminated_key=terminated_key,
+            composite_action_dist=composite_action_dist,
         )
 
         loss = A2CLoss(actor, value)

diff --git a/torchrl/objectives/ppo.py b/torchrl/objectives/ppo.py
@@ -465,7 +465,6 @@ def _log_weight(
             self.actor_network
         ) if self.functional else contextlib.nullcontext():
             dist = self.actor_network.get_dist(tensordict)
-            # dist = TransformedDistribution(dist, ExpTransform())
 
         def check_requires_grad(tensor, key=self.tensor_keys.action):
             if tensor.requires_grad: