Update

[ghstack-poisoned]
pytorch · vmoens · Dec 16, 2024 · Dec 16, 2024 · Dec 16, 2024 · Dec 16, 2024
commit 0fb954664cdb86f121258a03119010c049683f3e
diff --git a/sota-implementations/sac/config.yaml b/sota-implementations/sac/config.yaml
@@ -20,7 +20,7 @@ collector:
 replay_buffer:
   size: 1000000
   prb: 0 # use prioritized experience replay
-  scratch_dir: null
+  scratch_dir:
 
 # optim
 optim:

diff --git a/sota-implementations/sac/utils.py b/sota-implementations/sac/utils.py
@@ -12,6 +12,7 @@
 from torch import nn, optim
 from torchrl.collectors import SyncDataCollector
 from torchrl.data import (
+    LazyMemmapStorage,
     LazyTensorStorage,
     TensorDictPrioritizedReplayBuffer,
     TensorDictReplayBuffer,
@@ -138,30 +139,33 @@ def make_replay_buffer(
     device="cpu",
     prefetch=3,
 ):
+    storage_cls = (
+        functools.partial(LazyTensorStorage, device=device)
+        if not scratch_dir
+        else functools.partial(LazyMemmapStorage, device="cpu", scratch_dir=scratch_dir)
+    )
     if prb:
         replay_buffer = TensorDictPrioritizedReplayBuffer(
             alpha=0.7,
             beta=0.5,
             pin_memory=False,
             prefetch=prefetch,
-            storage=LazyTensorStorage(
+            storage=storage_cls(
                 buffer_size,
-                scratch_dir=scratch_dir,
-                device=device,
             ),
             batch_size=batch_size,
         )
     else:
         replay_buffer = TensorDictReplayBuffer(
             pin_memory=False,
             prefetch=prefetch,
-            storage=LazyTensorStorage(
+            storage=storage_cls(
                 buffer_size,
-                scratch_dir=scratch_dir,
-                device=device,
             ),
             batch_size=batch_size,
         )
+    if scratch_dir:
+        replay_buffer.append_transform(lambda td: td.to(device))
     return replay_buffer