LambdaLabsML · corey-lambda · Oct 2, 2024
diff --git a/01-single-gpu/README.md b/01-single-gpu/README.md
@@ -60,7 +60,7 @@ wandb.init(
     dir=exp_dir,
     name=args.experiment_name,
     id=args.experiment_name,
-+    resume="must" if resumed else None,
++    fork_from=f"{args.experiment_name}-{rank}?_step={state['global_step']}" if resumed else None,
     save_code=True,
     config={
         "args": vars(args),

diff --git a/01-single-gpu/train_llm.py b/01-single-gpu/train_llm.py
@@ -102,7 +102,11 @@ def _load_to_device(p):
         dir=exp_dir,
         name=args.experiment_name,
         id=args.experiment_name,
-        resume="must" if resumed else None,
+        fork_from=(
+            f"{args.experiment_name}-{rank}?_step={state['global_step']}"
+            if resumed
+            else None
+        ),
         save_code=True,
         config={
             "args": vars(args),

diff --git a/02-multi-gpu/README.md b/02-multi-gpu/README.md
@@ -245,7 +245,7 @@ wandb.init(
 +        name=f"rank-{rank}",
 -        id=args.experiment_name,
 +        id=f"{args.experiment_name}-{rank}",
-         resume="must" if resumed else None,
+         fork_from=f"{args.experiment_name}-{rank}?_step={state['global_step']}" if resumed else None,
          save_code=True,
          config={
              "args": vars(args),

diff --git a/02-multi-gpu/train_llm.py b/02-multi-gpu/train_llm.py
@@ -121,7 +121,11 @@ def _load_to_device(p):
         group=args.experiment_name,
         name=f"rank-{rank}",
         id=f"{args.experiment_name}-{rank}",
-        resume="must" if resumed else None,
+        fork_from=(
+            f"{args.experiment_name}-{rank}?_step={state['global_step']}"
+            if resumed
+            else None
+        ),
         save_code=True,
         config={
             "args": vars(args),

diff --git a/03-multi-node/train_llm.py b/03-multi-node/train_llm.py
@@ -123,7 +123,11 @@ def _load_to_device(p):
         group=args.experiment_name,
         name=f"rank-{rank}",
         id=f"{args.experiment_name}-{rank}",
-        resume="must" if resumed else None,
+        fork_from=(
+            f"{args.experiment_name}-{rank}?_step={state['global_step']}"
+            if resumed
+            else None
+        ),
         save_code=True,
         config={
             "args": vars(args),

diff --git a/04-job-launchers-deepspeed/train_llm.py b/04-job-launchers-deepspeed/train_llm.py
@@ -122,7 +122,11 @@ def _load_to_device(p):
         group=args.experiment_name,
         name=f"rank-{rank}",
         id=f"{args.experiment_name}-{rank}",
-        resume="must" if resumed else None,
+        fork_from=(
+            f"{args.experiment_name}-{rank}?_step={state['global_step']}"
+            if resumed
+            else None
+        ),
         save_code=True,
         config={
             "args": vars(args),

diff --git a/04-job-launchers-mpirun/train_llm.py b/04-job-launchers-mpirun/train_llm.py
@@ -125,7 +125,11 @@ def _load_to_device(p):
         group=args.experiment_name,
         name=f"rank-{rank}",
         id=f"{args.experiment_name}-{rank}",
-        resume="must" if resumed else None,
+        fork_from=(
+            f"{args.experiment_name}-{rank}?_step={state['global_step']}"
+            if resumed
+            else None
+        ),
         save_code=True,
         config={
             "args": vars(args),

diff --git a/05-sharding-deepspeed/train_llm.py b/05-sharding-deepspeed/train_llm.py
@@ -111,7 +111,11 @@ def main():
         group=args.experiment_name,
         name=f"rank-{rank}",
         id=f"{args.experiment_name}-{rank}",
-        resume="must" if resumed else None,
+        fork_from=(
+            f"{args.experiment_name}-{rank}?_step={state['global_step']}"
+            if resumed
+            else None
+        ),
         save_code=True,
         config={
             "args": vars(args),

diff --git a/05-sharding-fsdp/train_llm.py b/05-sharding-fsdp/train_llm.py
@@ -187,7 +187,11 @@ def safe_param_init_fn(module: torch.nn.Module):
         group=args.experiment_name,
         name=f"rank-{rank}",
         id=f"{args.experiment_name}-{rank}",
-        resume="must" if resumed else None,
+        fork_from=(
+            f"{args.experiment_name}-{rank}?_step={state['global_step']}"
+            if resumed
+            else None
+        ),
         save_code=True,
         config={
             "args": vars(args),

diff --git a/10-training-llama-405b/train_llm.py b/10-training-llama-405b/train_llm.py
@@ -203,7 +203,11 @@ def main():
             dir=exp_dir,
             name=args.experiment_name,
             id=args.experiment_name,
-            resume="must" if resumed else None,
+            fork_from=(
+                f"{args.experiment_name}-{rank}?_step={state['global_step']}"
+                if resumed
+                else None
+            ),
             save_code=True,
             config={
                 "args": vars(args),

diff --git a/93-wandb-configurations/README.md b/93-wandb-configurations/README.md
@@ -18,7 +18,7 @@ if rank == 0:
         dir=exp_dir,
         id=args.experiment_name,
         name=args.experiment_name,
-        resume="must" if resumed else None,
+        fork_from=f"{args.experiment_name}-{rank}?_step={state['global_step']}" if resumed else None,
         save_code=True,
         config=...,
     )
@@ -34,7 +34,7 @@ if local_rank == 0:
         group=args.experiment_name,
         name=f"rank-{rank}",
         id=f"{args.experiment_name}-{rank}",
-        resume="must" if resumed else None,
+        fork_from=f"{args.experiment_name}-{rank}?_step={state['global_step']}" if resumed else None,
         save_code=True,
         config=...,
     )
@@ -59,7 +59,7 @@ wandb.init(
     group=args.experiment_name,
     name=f"rank-{rank}",
     id=f"{args.experiment_name}-{rank}",
-    resume="must" if resumed else None,
+    fork_from=f"{args.experiment_name}-{rank}?_step={state['global_step']}" if resumed else None,
     save_code=True,
     config=...,
 )
@@ -81,7 +81,7 @@ index 38f3cf0..3233f81 100644
 -        group=args.experiment_name,
 -        name=f"rank-{rank}",
 -        id=f"{args.experiment_name}-{rank}",
--        resume="must" if resumed else None,
+-        fork_from=f"{args.experiment_name}-{rank}?_step={state['global_step']}" if resumed else None,
 -        save_code=True,
 -        config={
 -            "args": vars(args),
@@ -107,7 +107,7 @@ index 38f3cf0..3233f81 100644
 +            group=args.experiment_name,
 +            name=f"rank-{rank}",
 +            id=f"{args.experiment_name}-{rank}",
-+            resume="must" if resumed else None,
++            fork_from=f"{args.experiment_name}-{rank}?_step={state['global_step']}" if resumed else None,
 +            save_code=True,
 +            config={
 +                "args": vars(args),

diff --git a/93-wandb-configurations/train_llm.py b/93-wandb-configurations/train_llm.py
@@ -130,7 +130,11 @@ def _load_to_device(p):
             group=args.experiment_name,
             name=f"rank-{rank}",
             id=f"{args.experiment_name}-{rank}",
-            resume="must" if resumed else None,
+            fork_from=(
+                f"{args.experiment_name}-{rank}?_step={state['global_step']}"
+                if resumed
+                else None
+            ),
             save_code=True,
             config={
                 "args": vars(args),

diff --git a/94-effective-batch-size-and-lr/train_llm.py b/94-effective-batch-size-and-lr/train_llm.py
@@ -130,7 +130,11 @@ def _load_to_device(p):
         group=args.experiment_name,
         name=f"rank-{rank}",
         id=f"{args.experiment_name}-{rank}",
-        resume="must" if resumed else None,
+        fork_from=(
+            f"{args.experiment_name}-{rank}?_step={state['global_step']}"
+            if resumed
+            else None
+        ),
         save_code=True,
         config={
             "args": vars(args),

diff --git a/95-optimizing-data-loading/train_llm.py b/95-optimizing-data-loading/train_llm.py
@@ -124,7 +124,11 @@ def _load_to_device(p):
         group=args.experiment_name,
         name=f"rank-{rank}",
         id=f"{args.experiment_name}-{rank}",
-        resume="must" if resumed else None,
+        fork_from=(
+            f"{args.experiment_name}-{rank}?_step={state['global_step']}"
+            if resumed
+            else None
+        ),
         save_code=True,
         config={
             "args": vars(args),

diff --git a/97-determinism/train_llm.py b/97-determinism/train_llm.py
@@ -136,7 +136,11 @@ def _load_to_device(p):
         group=args.experiment_name,
         name=f"rank-{rank}",
         id=f"{args.experiment_name}-{rank}",
-        resume="must" if resumed else None,
+        fork_from=(
+            f"{args.experiment_name}-{rank}?_step={state['global_step']}"
+            if resumed
+            else None
+        ),
         save_code=True,
         config={
             "args": vars(args),

diff --git a/98-gradient-accumulation/train_llm.py b/98-gradient-accumulation/train_llm.py
@@ -122,7 +122,11 @@ def _load_to_device(p):
         group=args.experiment_name,
         name=f"rank-{rank}",
         id=f"{args.experiment_name}-{rank}",
-        resume="must" if resumed else None,
+        fork_from=(
+            f"{args.experiment_name}-{rank}?_step={state['global_step']}"
+            if resumed
+            else None
+        ),
         save_code=True,
         config={
             "args": vars(args),