fix tests ppo

pytorch · vmoens · Sep 4, 2024 · Aug 10, 2024 · Aug 11, 2024 · Aug 12, 2024
commit e65e1a3f20b24e38dc7e79de3dce2cad03127ab7
diff --git a/test/test_cost.py b/test/test_cost.py
@@ -7750,14 +7750,15 @@ def _create_mock_data_ppo(
                 },
                 action_key: {"action1": action} if composite_action_dist else action,
                 sample_log_prob_key: torch.randn_like(action[..., 1]) / 10,
-                loc_key: loc,
-                scale_key: scale,
             },
             device=device,
         )
         if composite_action_dist:
             td[("params", "action1", loc_key)] = loc
             td[("params", "action1", scale_key)] = scale
+        else:
+            td[loc_key] = loc
+            td[scale_key] = scale
         return td
 
     def _create_seq_mock_data_ppo(
@@ -7806,15 +7807,16 @@ def _create_seq_mock_data_ppo(
                 sample_log_prob_key: (
                     torch.randn_like(action[..., 1]) / 10
                 ).masked_fill_(~mask, 0.0),
-                "loc": loc,
-                "scale": scale,
             },
             device=device,
             names=[None, "time"],
         )
         if composite_action_dist:
             td[("params", "action1", "loc")] = loc
             td[("params", "action1", "scale")] = scale
+        else:
+            td["loc"] = loc
+            td["scale"] = scale
 
         return td
 
@@ -7882,10 +7884,10 @@ def test_ppo(
 
         loss = loss_fn(td)
         if isinstance(loss_fn, KLPENPPOLoss):
-            if "kl" in loss:
-                kl = loss.pop("kl")
-            else:
+            if composite_action_dist:
                 kl = loss.pop("kl_approx")
+            else:
+                kl = loss.pop("kl")
             assert (kl != 0).any()
 
         loss_critic = loss["loss_critic"]