Spaces:

Dovakiins
/

qwerrwe

Build error

Nanobit commited on Nov 25, 2023

Commit

fb12895

unverified ·

1 Parent(s): 9fc29e0

Feat: Add warmup_ratio (#893)

* Feat: Add warmup_ratio

* fix: update readme with more details on conflict

Files changed (4) hide show

README.md CHANGED Viewed

@@ -675,7 +675,8 @@ gradient_accumulation_steps: 1
 micro_batch_size: 2
 eval_batch_size:
 num_epochs: 4
-warmup_steps: 100
 learning_rate: 0.00003
 lr_quadratic_warmup:
 logging_steps:

 micro_batch_size: 2
 eval_batch_size:
 num_epochs: 4
+warmup_steps: 100  # cannot use with warmup_ratio
+warmup_ratio: 0.05  # cannot use with warmup_steps
 learning_rate: 0.00003
 lr_quadratic_warmup:
 logging_steps:

src/axolotl/core/trainer_builder.py CHANGED Viewed

@@ -461,11 +461,14 @@ class HFCausalTrainerBuilder(TrainerBuilderBase):
         return AxolotlTrainer
     def build(self, total_num_steps):
-        warmup_steps = (
-            self.cfg.warmup_steps
-            if self.cfg.warmup_steps is not None
-            else min(int(0.03 * total_num_steps), 100)
-        )
         logging_steps = (
             self.cfg.logging_steps
             if self.cfg.logging_steps is not None

         return AxolotlTrainer
     def build(self, total_num_steps):
+        warmup_steps = None
+        if self.cfg.warmup_steps is not None:
+            warmup_steps = self.cfg.warmup_steps
+        elif self.cfg.warmup_ratio is not None:
+            warmup_steps = max(int(self.cfg.warmup_ratio * total_num_steps), 0)
+        else:
+            warmup_steps = min(int(0.03 * total_num_steps), 100)
         logging_steps = (
             self.cfg.logging_steps
             if self.cfg.logging_steps is not None

src/axolotl/utils/config.py CHANGED Viewed

@@ -372,6 +372,9 @@ def validate_config(cfg):
     if cfg.rope_scaling:
         LOG.warning("`rope_scaling` should now be be a key under `model_config`")
     # TODO
     # MPT 7b
     # https://github.com/facebookresearch/bitsandbytes/issues/25

     if cfg.rope_scaling:
         LOG.warning("`rope_scaling` should now be be a key under `model_config`")
+    if cfg.warmup_steps and cfg.warmup_ratio:
+        raise ValueError("warmup_steps and warmup_ratio are mutually exclusive")
     # TODO
     # MPT 7b
     # https://github.com/facebookresearch/bitsandbytes/issues/25

tests/test_validation.py CHANGED Viewed

@@ -649,3 +649,33 @@ class ValidationTest(unittest.TestCase):
         )
         validate_config(cfg)

         )
         validate_config(cfg)
+    def test_warmup_step_no_conflict(self):
+        cfg = DictDefault(
+            {
+                "warmup_steps": 10,
+                "warmup_ratio": 0.1,
+            }
+        )
+        with pytest.raises(
+            ValueError,
+            match=r".*warmup_steps and warmup_ratio are mutually exclusive*",
+        ):
+            validate_config(cfg)
+        cfg = DictDefault(
+            {
+                "warmup_steps": 10,
+            }
+        )
+        validate_config(cfg)
+        cfg = DictDefault(
+            {
+                "warmup_ratio": 0.1,
+            }
+        )
+        validate_config(cfg)