Docty commited on Sep 21

Commit

7b72b17

verified ·

1 Parent(s): fc6f024

End of training

Browse files

Files changed (26) hide show

.gitattributes +3 -0
README.md +21 -41
all_results.json +13 -0
checkpoint-152/config.json +38 -0
checkpoint-152/model.safetensors +3 -0
checkpoint-152/optimizer.pt +3 -0
checkpoint-152/preprocessor_config.json +23 -0
checkpoint-152/rng_state.pth +3 -0
checkpoint-152/scheduler.pt +3 -0
checkpoint-152/trainer_state.json +148 -0
checkpoint-152/training_args.bin +3 -0
checkpoint-304/config.json +38 -0
checkpoint-304/model.safetensors +3 -0
checkpoint-304/optimizer.pt +3 -0
checkpoint-304/preprocessor_config.json +23 -0
checkpoint-304/rng_state.pth +3 -0
checkpoint-304/scheduler.pt +3 -0
checkpoint-304/trainer_state.json +262 -0
checkpoint-304/training_args.bin +3 -0
eval_results.json +8 -0
image_0.png +0 -0
image_1.png +3 -0
image_2.png +3 -0
image_3.png +3 -0
train_results.json +8 -0
trainer_state.json +271 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,6 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+image_1.png filter=lfs diff=lfs merge=lfs -text
+image_2.png filter=lfs diff=lfs merge=lfs -text
+image_3.png filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,62 +1,42 @@
 ---
-library_name: transformers
-license: apache-2.0
 base_model: google/vit-base-patch16-224-in21k
 tags:
-- generated_from_trainer
-metrics:
-- accuracy
-model-index:
-- name: solacies
-  results: []
 ---
-<!-- This model card has been generated automatically according to the information the Trainer had access to. You
 should probably proofread and complete it, then remove this comment. -->
-# solacies
-This model is a fine-tuned version of [google/vit-base-patch16-224-in21k](https://huggingface.co/google/vit-base-patch16-224-in21k) on an unknown dataset.
-It achieves the following results on the evaluation set:
-- Loss: 0.3814
-- Accuracy: 0.9206
-## Model description
-More information needed
-## Intended uses & limitations
-More information needed
-## Training and evaluation data
-More information needed
-## Training procedure
-### Training hyperparameters
-The following hyperparameters were used during training:
-- learning_rate: 2e-05
-- train_batch_size: 8
-- eval_batch_size: 8
-- seed: 1337
-- optimizer: Use OptimizerNames.ADAMW_TORCH_FUSED with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
-- lr_scheduler_type: linear
-- num_epochs: 2.0
-### Training results
-| Training Loss | Epoch | Step | Validation Loss | Accuracy |
-|:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 0.4536        | 1.0   | 152  | 0.5105          | 0.9088   |
-| 0.3086        | 2.0   | 304  | 0.3814          | 0.9206   |
-### Framework versions
-- Transformers 4.56.1
-- Pytorch 2.8.0+cu126
-- Datasets 4.0.0
-- Tokenizers 0.22.0

 ---
 base_model: google/vit-base-patch16-224-in21k
+library_name: transformers
+license: creativeml-openrail-m
+inference: true
 tags:
+- image-classification
 ---
+<!-- This model card has been generated automatically according to the information the training script had access to. You
 should probably proofread and complete it, then remove this comment. -->
+# Image Classification
+This model is a fine-tuned version of google/vit-base-patch16-224-in21k on the Docty/solaices dataset.
+You can find some example images in the following.
+![img_0](./image_0.png)
+![img_1](./image_1.png)
+![img_2](./image_2.png)
+![img_3](./image_3.png)
+## Intended uses & limitations
+#### How to use
+```python
+# TODO: add an example code snippet for running this diffusion pipeline
+```
+#### Limitations and bias
+[TODO: provide examples of latent issues and potential remediations]
+## Training details
+[TODO: describe the data used to train the model]

all_results.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "epoch": 2.0,
+    "eval_accuracy": 0.9205882352941176,
+    "eval_loss": 0.3814464807510376,
+    "eval_runtime": 5.3041,
+    "eval_samples_per_second": 64.101,
+    "eval_steps_per_second": 8.107,
+    "total_flos": 1.8830891020935168e+17,
+    "train_loss": 0.5599808394908905,
+    "train_runtime": 139.819,
+    "train_samples_per_second": 17.38,
+    "train_steps_per_second": 2.174
+}

checkpoint-152/config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "architectures": [
+    "ViTForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "dtype": "float32",
+  "encoder_stride": 16,
+  "finetuning_task": "image-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Alluvial soil",
+    "1": "Black Soil",
+    "2": "Red soil",
+    "3": "Clay soil"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Alluvial soil": "0",
+    "Black Soil": "1",
+    "Clay soil": "3",
+    "Red soil": "2"
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "pooler_act": "tanh",
+  "pooler_output_size": 768,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "transformers_version": "4.56.1"
+}

checkpoint-152/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fed0a142d166d027467e8671d3c03c37165aa06617e6b3f2674a5c24f4a5c7ce
+size 343230128

checkpoint-152/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1da28a21bc9defc2f7a731cfa38c0307362baee426ea92d96dbb66be3bda61a2
+size 686584395

checkpoint-152/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "do_convert_rgb": null,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

checkpoint-152/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8cc2b20d61bc2b174b25de4c323a622844840f3dc20b720a015dfe0574768058
+size 14709

checkpoint-152/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b867aeee168120a50840d69528cf3ce12dc5f30434bacbe8ab595475fdd2a6f1
+size 1465

checkpoint-152/trainer_state.json ADDED Viewed

	@@ -0,0 +1,148 @@

+{
+  "best_global_step": 152,
+  "best_metric": 0.5104668140411377,
+  "best_model_checkpoint": "./solacies/checkpoint-152",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 152,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06578947368421052,
+      "grad_norm": 2.7918763160705566,
+      "learning_rate": 1.9407894736842107e-05,
+      "loss": 1.3351,
+      "step": 10
+    },
+    {
+      "epoch": 0.13157894736842105,
+      "grad_norm": 2.623225212097168,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 1.1694,
+      "step": 20
+    },
+    {
+      "epoch": 0.19736842105263158,
+      "grad_norm": 2.48968505859375,
+      "learning_rate": 1.8092105263157896e-05,
+      "loss": 1.0772,
+      "step": 30
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 2.2622175216674805,
+      "learning_rate": 1.743421052631579e-05,
+      "loss": 1.0927,
+      "step": 40
+    },
+    {
+      "epoch": 0.32894736842105265,
+      "grad_norm": 2.3349521160125732,
+      "learning_rate": 1.6776315789473686e-05,
+      "loss": 0.9766,
+      "step": 50
+    },
+    {
+      "epoch": 0.39473684210526316,
+      "grad_norm": 2.7016446590423584,
+      "learning_rate": 1.611842105263158e-05,
+      "loss": 0.8842,
+      "step": 60
+    },
+    {
+      "epoch": 0.4605263157894737,
+      "grad_norm": 1.8381617069244385,
+      "learning_rate": 1.5460526315789475e-05,
+      "loss": 0.7284,
+      "step": 70
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 2.1242270469665527,
+      "learning_rate": 1.4802631578947371e-05,
+      "loss": 0.6287,
+      "step": 80
+    },
+    {
+      "epoch": 0.5921052631578947,
+      "grad_norm": 1.3842352628707886,
+      "learning_rate": 1.4144736842105264e-05,
+      "loss": 0.6329,
+      "step": 90
+    },
+    {
+      "epoch": 0.6578947368421053,
+      "grad_norm": 2.2132720947265625,
+      "learning_rate": 1.3486842105263159e-05,
+      "loss": 0.607,
+      "step": 100
+    },
+    {
+      "epoch": 0.7236842105263158,
+      "grad_norm": 2.2834842205047607,
+      "learning_rate": 1.2828947368421055e-05,
+      "loss": 0.5891,
+      "step": 110
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 2.5198376178741455,
+      "learning_rate": 1.2171052631578948e-05,
+      "loss": 0.5515,
+      "step": 120
+    },
+    {
+      "epoch": 0.8552631578947368,
+      "grad_norm": 1.5494874715805054,
+      "learning_rate": 1.1513157894736844e-05,
+      "loss": 0.4724,
+      "step": 130
+    },
+    {
+      "epoch": 0.9210526315789473,
+      "grad_norm": 2.719534158706665,
+      "learning_rate": 1.0855263157894737e-05,
+      "loss": 0.4908,
+      "step": 140
+    },
+    {
+      "epoch": 0.9868421052631579,
+      "grad_norm": 1.478468418121338,
+      "learning_rate": 1.0197368421052632e-05,
+      "loss": 0.4536,
+      "step": 150
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9088235294117647,
+      "eval_loss": 0.5104668140411377,
+      "eval_runtime": 5.2696,
+      "eval_samples_per_second": 64.521,
+      "eval_steps_per_second": 8.16,
+      "step": 152
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 304,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 9.415445510467584e+16,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-152/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2749b476100f1d5f9cc9322da668b6a0c25d1a2cdcaa80ee3927191cd1610b37
+size 5777

checkpoint-304/config.json ADDED Viewed

	@@ -0,0 +1,38 @@

+{
+  "architectures": [
+    "ViTForImageClassification"
+  ],
+  "attention_probs_dropout_prob": 0.0,
+  "dtype": "float32",
+  "encoder_stride": 16,
+  "finetuning_task": "image-classification",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.0,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "Alluvial soil",
+    "1": "Black Soil",
+    "2": "Red soil",
+    "3": "Clay soil"
+  },
+  "image_size": 224,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "Alluvial soil": "0",
+    "Black Soil": "1",
+    "Clay soil": "3",
+    "Red soil": "2"
+  },
+  "layer_norm_eps": 1e-12,
+  "model_type": "vit",
+  "num_attention_heads": 12,
+  "num_channels": 3,
+  "num_hidden_layers": 12,
+  "patch_size": 16,
+  "pooler_act": "tanh",
+  "pooler_output_size": 768,
+  "problem_type": "single_label_classification",
+  "qkv_bias": true,
+  "transformers_version": "4.56.1"
+}

checkpoint-304/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57ff922694774c0f68f8d40259991a84e71cd78203889010c45e1468706fa0e9
+size 343230128

checkpoint-304/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b850649db3268f1d1a6a03463368188d711aa2671380c54245b0193c3f9f08e2
+size 686584395

checkpoint-304/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "do_convert_rgb": null,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "ViTImageProcessor",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "height": 224,
+    "width": 224
+  }
+}

checkpoint-304/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:317c10508a950a8da06c9939621c8916c6f59605875f57016e54cbd9ad9254ed
+size 14709

checkpoint-304/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a58698d9d05da327f9f6cab12659d64d0ed60537344651eb8bfb67f56df737c2
+size 1465

checkpoint-304/trainer_state.json ADDED Viewed

	@@ -0,0 +1,262 @@

+{
+  "best_global_step": 304,
+  "best_metric": 0.3814464807510376,
+  "best_model_checkpoint": "./solacies/checkpoint-304",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 304,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06578947368421052,
+      "grad_norm": 2.7918763160705566,
+      "learning_rate": 1.9407894736842107e-05,
+      "loss": 1.3351,
+      "step": 10
+    },
+    {
+      "epoch": 0.13157894736842105,
+      "grad_norm": 2.623225212097168,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 1.1694,
+      "step": 20
+    },
+    {
+      "epoch": 0.19736842105263158,
+      "grad_norm": 2.48968505859375,
+      "learning_rate": 1.8092105263157896e-05,
+      "loss": 1.0772,
+      "step": 30
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 2.2622175216674805,
+      "learning_rate": 1.743421052631579e-05,
+      "loss": 1.0927,
+      "step": 40
+    },
+    {
+      "epoch": 0.32894736842105265,
+      "grad_norm": 2.3349521160125732,
+      "learning_rate": 1.6776315789473686e-05,
+      "loss": 0.9766,
+      "step": 50
+    },
+    {
+      "epoch": 0.39473684210526316,
+      "grad_norm": 2.7016446590423584,
+      "learning_rate": 1.611842105263158e-05,
+      "loss": 0.8842,
+      "step": 60
+    },
+    {
+      "epoch": 0.4605263157894737,
+      "grad_norm": 1.8381617069244385,
+      "learning_rate": 1.5460526315789475e-05,
+      "loss": 0.7284,
+      "step": 70
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 2.1242270469665527,
+      "learning_rate": 1.4802631578947371e-05,
+      "loss": 0.6287,
+      "step": 80
+    },
+    {
+      "epoch": 0.5921052631578947,
+      "grad_norm": 1.3842352628707886,
+      "learning_rate": 1.4144736842105264e-05,
+      "loss": 0.6329,
+      "step": 90
+    },
+    {
+      "epoch": 0.6578947368421053,
+      "grad_norm": 2.2132720947265625,
+      "learning_rate": 1.3486842105263159e-05,
+      "loss": 0.607,
+      "step": 100
+    },
+    {
+      "epoch": 0.7236842105263158,
+      "grad_norm": 2.2834842205047607,
+      "learning_rate": 1.2828947368421055e-05,
+      "loss": 0.5891,
+      "step": 110
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 2.5198376178741455,
+      "learning_rate": 1.2171052631578948e-05,
+      "loss": 0.5515,
+      "step": 120
+    },
+    {
+      "epoch": 0.8552631578947368,
+      "grad_norm": 1.5494874715805054,
+      "learning_rate": 1.1513157894736844e-05,
+      "loss": 0.4724,
+      "step": 130
+    },
+    {
+      "epoch": 0.9210526315789473,
+      "grad_norm": 2.719534158706665,
+      "learning_rate": 1.0855263157894737e-05,
+      "loss": 0.4908,
+      "step": 140
+    },
+    {
+      "epoch": 0.9868421052631579,
+      "grad_norm": 1.478468418121338,
+      "learning_rate": 1.0197368421052632e-05,
+      "loss": 0.4536,
+      "step": 150
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9088235294117647,
+      "eval_loss": 0.5104668140411377,
+      "eval_runtime": 5.2696,
+      "eval_samples_per_second": 64.521,
+      "eval_steps_per_second": 8.16,
+      "step": 152
+    },
+    {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 1.4376304149627686,
+      "learning_rate": 9.539473684210528e-06,
+      "loss": 0.378,
+      "step": 160
+    },
+    {
+      "epoch": 1.118421052631579,
+      "grad_norm": 1.3609135150909424,
+      "learning_rate": 8.881578947368423e-06,
+      "loss": 0.3742,
+      "step": 170
+    },
+    {
+      "epoch": 1.1842105263157894,
+      "grad_norm": 2.889965057373047,
+      "learning_rate": 8.223684210526316e-06,
+      "loss": 0.3694,
+      "step": 180
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 5.698398113250732,
+      "learning_rate": 7.565789473684211e-06,
+      "loss": 0.4044,
+      "step": 190
+    },
+    {
+      "epoch": 1.3157894736842106,
+      "grad_norm": 1.3650037050247192,
+      "learning_rate": 6.907894736842106e-06,
+      "loss": 0.3697,
+      "step": 200
+    },
+    {
+      "epoch": 1.381578947368421,
+      "grad_norm": 2.522857904434204,
+      "learning_rate": 6.25e-06,
+      "loss": 0.4656,
+      "step": 210
+    },
+    {
+      "epoch": 1.4473684210526316,
+      "grad_norm": 1.6762239933013916,
+      "learning_rate": 5.592105263157896e-06,
+      "loss": 0.3532,
+      "step": 220
+    },
+    {
+      "epoch": 1.513157894736842,
+      "grad_norm": 1.3175244331359863,
+      "learning_rate": 4.9342105263157895e-06,
+      "loss": 0.3821,
+      "step": 230
+    },
+    {
+      "epoch": 1.5789473684210527,
+      "grad_norm": 1.7241592407226562,
+      "learning_rate": 4.276315789473684e-06,
+      "loss": 0.3258,
+      "step": 240
+    },
+    {
+      "epoch": 1.6447368421052633,
+      "grad_norm": 1.2837048768997192,
+      "learning_rate": 3.618421052631579e-06,
+      "loss": 0.3147,
+      "step": 250
+    },
+    {
+      "epoch": 1.7105263157894737,
+      "grad_norm": 2.3983030319213867,
+      "learning_rate": 2.960526315789474e-06,
+      "loss": 0.3278,
+      "step": 260
+    },
+    {
+      "epoch": 1.776315789473684,
+      "grad_norm": 1.1498711109161377,
+      "learning_rate": 2.3026315789473684e-06,
+      "loss": 0.3126,
+      "step": 270
+    },
+    {
+      "epoch": 1.8421052631578947,
+      "grad_norm": 2.200284004211426,
+      "learning_rate": 1.6447368421052635e-06,
+      "loss": 0.2814,
+      "step": 280
+    },
+    {
+      "epoch": 1.9078947368421053,
+      "grad_norm": 1.2347966432571411,
+      "learning_rate": 9.86842105263158e-07,
+      "loss": 0.2528,
+      "step": 290
+    },
+    {
+      "epoch": 1.973684210526316,
+      "grad_norm": 1.8223544359207153,
+      "learning_rate": 3.2894736842105264e-07,
+      "loss": 0.3086,
+      "step": 300
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9205882352941176,
+      "eval_loss": 0.3814464807510376,
+      "eval_runtime": 5.5076,
+      "eval_samples_per_second": 61.732,
+      "eval_steps_per_second": 7.807,
+      "step": 304
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 304,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.8830891020935168e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-304/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2749b476100f1d5f9cc9322da668b6a0c25d1a2cdcaa80ee3927191cd1610b37
+size 5777

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.0,
+    "eval_accuracy": 0.9205882352941176,
+    "eval_loss": 0.3814464807510376,
+    "eval_runtime": 5.3041,
+    "eval_samples_per_second": 64.101,
+    "eval_steps_per_second": 8.107
+}

image_0.png ADDED Viewed

image_1.png ADDED Viewed

Git LFS Details

SHA256: 3a14dfd77f0519dc31a815cfbb66eebf7f1ed5a9d259a9db859dc1992a292a8d
Pointer size: 131 Bytes
Size of remote file: 936 kB

image_2.png ADDED Viewed

Git LFS Details

SHA256: 19e2c87bba8b6e461f16f28c6a2dad0a5363c81c439eed462b811b7fbdc3d4c8
Pointer size: 131 Bytes
Size of remote file: 102 kB

image_3.png ADDED Viewed

Git LFS Details

SHA256: 8a85f6d034f65ba78a2cf08b23b5953cd751803862b5c4915a9682295a7d2407
Pointer size: 131 Bytes
Size of remote file: 114 kB

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.0,
+    "total_flos": 1.8830891020935168e+17,
+    "train_loss": 0.5599808394908905,
+    "train_runtime": 139.819,
+    "train_samples_per_second": 17.38,
+    "train_steps_per_second": 2.174
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,271 @@

+{
+  "best_global_step": 304,
+  "best_metric": 0.3814464807510376,
+  "best_model_checkpoint": "./solacies/checkpoint-304",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 304,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06578947368421052,
+      "grad_norm": 2.7918763160705566,
+      "learning_rate": 1.9407894736842107e-05,
+      "loss": 1.3351,
+      "step": 10
+    },
+    {
+      "epoch": 0.13157894736842105,
+      "grad_norm": 2.623225212097168,
+      "learning_rate": 1.8750000000000002e-05,
+      "loss": 1.1694,
+      "step": 20
+    },
+    {
+      "epoch": 0.19736842105263158,
+      "grad_norm": 2.48968505859375,
+      "learning_rate": 1.8092105263157896e-05,
+      "loss": 1.0772,
+      "step": 30
+    },
+    {
+      "epoch": 0.2631578947368421,
+      "grad_norm": 2.2622175216674805,
+      "learning_rate": 1.743421052631579e-05,
+      "loss": 1.0927,
+      "step": 40
+    },
+    {
+      "epoch": 0.32894736842105265,
+      "grad_norm": 2.3349521160125732,
+      "learning_rate": 1.6776315789473686e-05,
+      "loss": 0.9766,
+      "step": 50
+    },
+    {
+      "epoch": 0.39473684210526316,
+      "grad_norm": 2.7016446590423584,
+      "learning_rate": 1.611842105263158e-05,
+      "loss": 0.8842,
+      "step": 60
+    },
+    {
+      "epoch": 0.4605263157894737,
+      "grad_norm": 1.8381617069244385,
+      "learning_rate": 1.5460526315789475e-05,
+      "loss": 0.7284,
+      "step": 70
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 2.1242270469665527,
+      "learning_rate": 1.4802631578947371e-05,
+      "loss": 0.6287,
+      "step": 80
+    },
+    {
+      "epoch": 0.5921052631578947,
+      "grad_norm": 1.3842352628707886,
+      "learning_rate": 1.4144736842105264e-05,
+      "loss": 0.6329,
+      "step": 90
+    },
+    {
+      "epoch": 0.6578947368421053,
+      "grad_norm": 2.2132720947265625,
+      "learning_rate": 1.3486842105263159e-05,
+      "loss": 0.607,
+      "step": 100
+    },
+    {
+      "epoch": 0.7236842105263158,
+      "grad_norm": 2.2834842205047607,
+      "learning_rate": 1.2828947368421055e-05,
+      "loss": 0.5891,
+      "step": 110
+    },
+    {
+      "epoch": 0.7894736842105263,
+      "grad_norm": 2.5198376178741455,
+      "learning_rate": 1.2171052631578948e-05,
+      "loss": 0.5515,
+      "step": 120
+    },
+    {
+      "epoch": 0.8552631578947368,
+      "grad_norm": 1.5494874715805054,
+      "learning_rate": 1.1513157894736844e-05,
+      "loss": 0.4724,
+      "step": 130
+    },
+    {
+      "epoch": 0.9210526315789473,
+      "grad_norm": 2.719534158706665,
+      "learning_rate": 1.0855263157894737e-05,
+      "loss": 0.4908,
+      "step": 140
+    },
+    {
+      "epoch": 0.9868421052631579,
+      "grad_norm": 1.478468418121338,
+      "learning_rate": 1.0197368421052632e-05,
+      "loss": 0.4536,
+      "step": 150
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.9088235294117647,
+      "eval_loss": 0.5104668140411377,
+      "eval_runtime": 5.2696,
+      "eval_samples_per_second": 64.521,
+      "eval_steps_per_second": 8.16,
+      "step": 152
+    },
+    {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 1.4376304149627686,
+      "learning_rate": 9.539473684210528e-06,
+      "loss": 0.378,
+      "step": 160
+    },
+    {
+      "epoch": 1.118421052631579,
+      "grad_norm": 1.3609135150909424,
+      "learning_rate": 8.881578947368423e-06,
+      "loss": 0.3742,
+      "step": 170
+    },
+    {
+      "epoch": 1.1842105263157894,
+      "grad_norm": 2.889965057373047,
+      "learning_rate": 8.223684210526316e-06,
+      "loss": 0.3694,
+      "step": 180
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 5.698398113250732,
+      "learning_rate": 7.565789473684211e-06,
+      "loss": 0.4044,
+      "step": 190
+    },
+    {
+      "epoch": 1.3157894736842106,
+      "grad_norm": 1.3650037050247192,
+      "learning_rate": 6.907894736842106e-06,
+      "loss": 0.3697,
+      "step": 200
+    },
+    {
+      "epoch": 1.381578947368421,
+      "grad_norm": 2.522857904434204,
+      "learning_rate": 6.25e-06,
+      "loss": 0.4656,
+      "step": 210
+    },
+    {
+      "epoch": 1.4473684210526316,
+      "grad_norm": 1.6762239933013916,
+      "learning_rate": 5.592105263157896e-06,
+      "loss": 0.3532,
+      "step": 220
+    },
+    {
+      "epoch": 1.513157894736842,
+      "grad_norm": 1.3175244331359863,
+      "learning_rate": 4.9342105263157895e-06,
+      "loss": 0.3821,
+      "step": 230
+    },
+    {
+      "epoch": 1.5789473684210527,
+      "grad_norm": 1.7241592407226562,
+      "learning_rate": 4.276315789473684e-06,
+      "loss": 0.3258,
+      "step": 240
+    },
+    {
+      "epoch": 1.6447368421052633,
+      "grad_norm": 1.2837048768997192,
+      "learning_rate": 3.618421052631579e-06,
+      "loss": 0.3147,
+      "step": 250
+    },
+    {
+      "epoch": 1.7105263157894737,
+      "grad_norm": 2.3983030319213867,
+      "learning_rate": 2.960526315789474e-06,
+      "loss": 0.3278,
+      "step": 260
+    },
+    {
+      "epoch": 1.776315789473684,
+      "grad_norm": 1.1498711109161377,
+      "learning_rate": 2.3026315789473684e-06,
+      "loss": 0.3126,
+      "step": 270
+    },
+    {
+      "epoch": 1.8421052631578947,
+      "grad_norm": 2.200284004211426,
+      "learning_rate": 1.6447368421052635e-06,
+      "loss": 0.2814,
+      "step": 280
+    },
+    {
+      "epoch": 1.9078947368421053,
+      "grad_norm": 1.2347966432571411,
+      "learning_rate": 9.86842105263158e-07,
+      "loss": 0.2528,
+      "step": 290
+    },
+    {
+      "epoch": 1.973684210526316,
+      "grad_norm": 1.8223544359207153,
+      "learning_rate": 3.2894736842105264e-07,
+      "loss": 0.3086,
+      "step": 300
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9205882352941176,
+      "eval_loss": 0.3814464807510376,
+      "eval_runtime": 5.5076,
+      "eval_samples_per_second": 61.732,
+      "eval_steps_per_second": 7.807,
+      "step": 304
+    },
+    {
+      "epoch": 2.0,
+      "step": 304,
+      "total_flos": 1.8830891020935168e+17,
+      "train_loss": 0.5599808394908905,
+      "train_runtime": 139.819,
+      "train_samples_per_second": 17.38,
+      "train_steps_per_second": 2.174
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 304,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.8830891020935168e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}