recommend padding when using sample packing (#531)

Files changed (11) hide show

examples/code-llama/13b/lora.yml CHANGED Viewed

@@ -17,6 +17,7 @@ output_dir: ./lora-out
 sequence_len: 100000
 sample_packing: true
 adapter: lora
 lora_model_dir:

 sequence_len: 100000
 sample_packing: true
+pad_to_sequence_len: true
 adapter: lora
 lora_model_dir:

examples/code-llama/13b/qlora.yml CHANGED Viewed

@@ -20,6 +20,7 @@ lora_model_dir:
 sequence_len: 100000
 sample_packing: true
 lora_r: 32
 lora_alpha: 16

 sequence_len: 100000
 sample_packing: true
+pad_to_sequence_len: true
 lora_r: 32
 lora_alpha: 16

examples/code-llama/34b/lora.yml CHANGED Viewed

@@ -17,6 +17,7 @@ output_dir: ./lora-out
 sequence_len: 100000
 sample_packing: true
 adapter: lora
 lora_model_dir:

 sequence_len: 100000
 sample_packing: true
+pad_to_sequence_len: true
 adapter: lora
 lora_model_dir:

examples/code-llama/34b/qlora.yml CHANGED Viewed

@@ -20,6 +20,7 @@ lora_model_dir:
 sequence_len: 100000
 sample_packing: true
 lora_r: 32
 lora_alpha: 16

 sequence_len: 100000
 sample_packing: true
+pad_to_sequence_len: true
 lora_r: 32
 lora_alpha: 16

examples/code-llama/7b/lora.yml CHANGED Viewed

@@ -17,6 +17,7 @@ output_dir: ./lora-out
 sequence_len: 100000
 sample_packing: true
 adapter: lora
 lora_model_dir:

 sequence_len: 100000
 sample_packing: true
+pad_to_sequence_len: true
 adapter: lora
 lora_model_dir:

examples/code-llama/7b/qlora.yml CHANGED Viewed

@@ -20,6 +20,7 @@ lora_model_dir:
 sequence_len: 100000
 sample_packing: true
 lora_r: 32
 lora_alpha: 16

 sequence_len: 100000
 sample_packing: true
+pad_to_sequence_len: true
 lora_r: 32
 lora_alpha: 16

examples/llama-2/lora.yml CHANGED Viewed

@@ -17,6 +17,7 @@ output_dir: ./lora-out
 sequence_len: 4096
 sample_packing: true
 adapter: lora
 lora_model_dir:

 sequence_len: 4096
 sample_packing: true
+pad_to_sequence_len: true
 adapter: lora
 lora_model_dir:

examples/llama-2/qlora.yml CHANGED Viewed

@@ -20,6 +20,7 @@ lora_model_dir:
 sequence_len: 4096
 sample_packing: true
 lora_r: 32
 lora_alpha: 16

 sequence_len: 4096
 sample_packing: true
+pad_to_sequence_len: true
 lora_r: 32
 lora_alpha: 16

examples/llama-2/relora.yml CHANGED Viewed

@@ -20,6 +20,7 @@ lora_model_dir:
 sequence_len: 4096
 sample_packing: true
 lora_r: 8
 lora_alpha: 16

 sequence_len: 4096
 sample_packing: true
+pad_to_sequence_len: true
 lora_r: 8
 lora_alpha: 16

src/axolotl/utils/config.py CHANGED Viewed

@@ -97,6 +97,11 @@ def validate_config(cfg):
             )
         )
     if cfg.gradient_accumulation_steps and cfg.batch_size:
         raise ValueError(
             "please set only one of gradient_accumulation_steps or batch_size"

             )
         )
+    if cfg.sample_packing and not cfg.pad_to_sequence_len:
+        LOG.warning(
+            "`pad_to_sequence_len: true` is recommended when using sample_packing"
+        )
     if cfg.gradient_accumulation_steps and cfg.batch_size:
         raise ValueError(
             "please set only one of gradient_accumulation_steps or batch_size"

tests/test_validation.py CHANGED Viewed

@@ -328,6 +328,20 @@ class ValidationTest(unittest.TestCase):
                 for record in self._caplog.records
             )
         cfg = DictDefault(
             {
                 "max_packed_sequence_len": 2048,

                 for record in self._caplog.records
             )
+        cfg = DictDefault(
+            {
+                "sample_packing": True,
+                "pad_to_sequence_len": None,
+            }
+        )
+        with self._caplog.at_level(logging.WARNING):
+            validate_config(cfg)
+            assert any(
+                "`pad_to_sequence_len: true` is recommended when using sample_packing"
+                in record.message
+                for record in self._caplog.records
+            )
         cfg = DictDefault(
             {
                 "max_packed_sequence_len": 2048,