update redq objective

pytorch · vmoens · Jan 9, 2024 · Dec 7, 2023 · Dec 8, 2023 · Dec 11, 2023
commit 1c44c35c3665fce236e792cad9eeaa0352a53b57
diff --git a/torchrl/objectives/redq.py b/torchrl/objectives/redq.py
@@ -25,6 +25,7 @@
     _vmap_func,
     default_value_kwargs,
     distance_loss,
+    RANDOM_MODULE_LIST,
     ValueEstimators,
 )
 from torchrl.objectives.value import TD0Estimator, TD1Estimator, TDLambdaEstimator
@@ -234,6 +235,7 @@ class _AcceptedKeys:
         "next.state_value",
         "target_value",
     ]
+    _vmap_randomness = None
 
     def __init__(
         self,
@@ -255,7 +257,6 @@ def __init__(
         priority_key: str = None,
         separate_losses: bool = False,
     ):
-
         super().__init__()
         self._in_keys = None
         self._set_deprecated_ctor_keys(priority_key=priority_key)
@@ -319,9 +320,11 @@ def __init__(
             self.gamma = gamma
 
         self._vmap_qvalue_network00 = _vmap_func(
-            self.qvalue_network, randomness="different"
+            self.qvalue_network, randomness=self.vmap_randomness
+        )
+        self._vmap_getdist = _vmap_func(
+            self.actor_network, func="get_dist_params", randomess=self.vmap_randomness
         )
-        self._vmap_getdist = _vmap_func(self.actor_network, func="get_dist_params")
 
     @property
     def target_entropy(self):
@@ -406,6 +409,28 @@ def in_keys(self):
     def in_keys(self, values):
         self._in_keys = values
 
+    @property
+    def vmap_randomness(self):
+        if self._vmap_randomness is None:
+            do_break = False
+            for val in self.__dict__.values():
+                if isinstance(val, torch.nn.Module):
+                    for module in val.modules():
+                        if isinstance(module, RANDOM_MODULE_LIST):
+                            self._vmap_randomness = "different"
+                            do_break = True
+                            break
+                if do_break:
+                    # double break
+                    break
+            else:
+                self._vmap_randomness = "error"
+
+        return self._vmap_randomness
+
+    def set_vmap_randomness(self, value):
+        self._vmap_randomness = value
+
     @property
     @_cache_values
     def _cached_detach_qvalue_network_params(self):