Model save

Browse files

Files changed (5) hide show

README.md +57 -0
all_results.json +8 -0
generation_config.json +14 -0
train_results.json +8 -0
trainer_state.json +3018 -0

README.md ADDED Viewed

	@@ -0,0 +1,57 @@

+---
+library_name: transformers
+model_name: Qwen-code-7B-SFT-100k-v2-cots
+tags:
+- generated_from_trainer
+- trl
+- sft
+licence: license
+---
+# Model Card for Qwen-code-7B-SFT-100k-v2-cots
+This model is a fine-tuned version of [None](https://huggingface.co/None).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="ZhuangXialie/Qwen-code-7B-SFT-100k-v2-cots", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/dyx_team/huggingface/runs/ofegsz5g)
+This model was trained with SFT.
+### Framework versions
+- TRL: 0.16.0.dev0
+- Transformers: 4.49.0
+- Pytorch: 2.6.0
+- Datasets: 3.5.1
+- Tokenizers: 0.21.1
+## Citations
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 966947082862592.0,
+    "train_loss": 0.34282420668550717,
+    "train_runtime": 10626.5662,
+    "train_samples": 98973,
+    "train_samples_per_second": 2.802,
+    "train_steps_per_second": 0.175
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.1,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.49.0"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "total_flos": 966947082862592.0,
+    "train_loss": 0.34282420668550717,
+    "train_runtime": 10626.5662,
+    "train_samples": 98973,
+    "train_samples_per_second": 2.802,
+    "train_steps_per_second": 0.175
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,3018 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.992481203007519,
+  "eval_steps": 500,
+  "global_step": 1860,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.010741138560687433,
+      "grad_norm": 2.6824158480436027,
+      "learning_rate": 1.3440860215053765e-06,
+      "loss": 0.8294,
+      "mean_token_accuracy": 0.8010891914367676,
+      "step": 5
+    },
+    {
+      "epoch": 0.021482277121374866,
+      "grad_norm": 1.0834186154450132,
+      "learning_rate": 2.688172043010753e-06,
+      "loss": 0.7976,
+      "mean_token_accuracy": 0.8042729198932648,
+      "step": 10
+    },
+    {
+      "epoch": 0.0322234156820623,
+      "grad_norm": 0.9912101287518572,
+      "learning_rate": 4.032258064516129e-06,
+      "loss": 0.7318,
+      "mean_token_accuracy": 0.8116350173950195,
+      "step": 15
+    },
+    {
+      "epoch": 0.04296455424274973,
+      "grad_norm": 0.6161547535500218,
+      "learning_rate": 5.376344086021506e-06,
+      "loss": 0.6796,
+      "mean_token_accuracy": 0.8214974880218506,
+      "step": 20
+    },
+    {
+      "epoch": 0.05370569280343716,
+      "grad_norm": 0.4711983922639431,
+      "learning_rate": 6.720430107526882e-06,
+      "loss": 0.6403,
+      "mean_token_accuracy": 0.8289329469203949,
+      "step": 25
+    },
+    {
+      "epoch": 0.0644468313641246,
+      "grad_norm": 0.3514340436445771,
+      "learning_rate": 8.064516129032258e-06,
+      "loss": 0.6101,
+      "mean_token_accuracy": 0.8344561219215393,
+      "step": 30
+    },
+    {
+      "epoch": 0.07518796992481203,
+      "grad_norm": 0.2900558861500113,
+      "learning_rate": 9.408602150537635e-06,
+      "loss": 0.5849,
+      "mean_token_accuracy": 0.8396502792835235,
+      "step": 35
+    },
+    {
+      "epoch": 0.08592910848549946,
+      "grad_norm": 0.2722947727971047,
+      "learning_rate": 1.0752688172043012e-05,
+      "loss": 0.5701,
+      "mean_token_accuracy": 0.8420377433300018,
+      "step": 40
+    },
+    {
+      "epoch": 0.0966702470461869,
+      "grad_norm": 0.25248070544882645,
+      "learning_rate": 1.2096774193548388e-05,
+      "loss": 0.561,
+      "mean_token_accuracy": 0.8443691551685333,
+      "step": 45
+    },
+    {
+      "epoch": 0.10741138560687433,
+      "grad_norm": 0.2504332745775819,
+      "learning_rate": 1.3440860215053763e-05,
+      "loss": 0.5601,
+      "mean_token_accuracy": 0.8441641569137573,
+      "step": 50
+    },
+    {
+      "epoch": 0.11815252416756176,
+      "grad_norm": 0.21685484456472007,
+      "learning_rate": 1.4784946236559142e-05,
+      "loss": 0.5455,
+      "mean_token_accuracy": 0.8471231937408448,
+      "step": 55
+    },
+    {
+      "epoch": 0.1288936627282492,
+      "grad_norm": 0.23513981149675298,
+      "learning_rate": 1.6129032258064517e-05,
+      "loss": 0.5486,
+      "mean_token_accuracy": 0.8462919056415558,
+      "step": 60
+    },
+    {
+      "epoch": 0.13963480128893663,
+      "grad_norm": 0.21971215723488632,
+      "learning_rate": 1.7473118279569895e-05,
+      "loss": 0.5372,
+      "mean_token_accuracy": 0.8488749146461487,
+      "step": 65
+    },
+    {
+      "epoch": 0.15037593984962405,
+      "grad_norm": 0.22582010917696982,
+      "learning_rate": 1.881720430107527e-05,
+      "loss": 0.5341,
+      "mean_token_accuracy": 0.8489724159240722,
+      "step": 70
+    },
+    {
+      "epoch": 0.1611170784103115,
+      "grad_norm": 0.2505238494065726,
+      "learning_rate": 2.0161290322580645e-05,
+      "loss": 0.5288,
+      "mean_token_accuracy": 0.8500843226909638,
+      "step": 75
+    },
+    {
+      "epoch": 0.17185821697099893,
+      "grad_norm": 0.2485546682065235,
+      "learning_rate": 2.1505376344086024e-05,
+      "loss": 0.5265,
+      "mean_token_accuracy": 0.8504622042179107,
+      "step": 80
+    },
+    {
+      "epoch": 0.18259935553168635,
+      "grad_norm": 0.25134861732181085,
+      "learning_rate": 2.28494623655914e-05,
+      "loss": 0.5245,
+      "mean_token_accuracy": 0.8512703776359558,
+      "step": 85
+    },
+    {
+      "epoch": 0.1933404940923738,
+      "grad_norm": 0.2607421207193637,
+      "learning_rate": 2.4193548387096777e-05,
+      "loss": 0.5225,
+      "mean_token_accuracy": 0.8512581944465637,
+      "step": 90
+    },
+    {
+      "epoch": 0.20408163265306123,
+      "grad_norm": 0.2571937237076843,
+      "learning_rate": 2.5537634408602152e-05,
+      "loss": 0.5169,
+      "mean_token_accuracy": 0.8526618123054505,
+      "step": 95
+    },
+    {
+      "epoch": 0.21482277121374865,
+      "grad_norm": 0.2559454741361629,
+      "learning_rate": 2.6881720430107527e-05,
+      "loss": 0.5087,
+      "mean_token_accuracy": 0.8544329702854156,
+      "step": 100
+    },
+    {
+      "epoch": 0.22556390977443608,
+      "grad_norm": 0.25657620243689094,
+      "learning_rate": 2.822580645161291e-05,
+      "loss": 0.5069,
+      "mean_token_accuracy": 0.8545464932918548,
+      "step": 105
+    },
+    {
+      "epoch": 0.23630504833512353,
+      "grad_norm": 0.3084326429216429,
+      "learning_rate": 2.9569892473118284e-05,
+      "loss": 0.5109,
+      "mean_token_accuracy": 0.8538104116916656,
+      "step": 110
+    },
+    {
+      "epoch": 0.24704618689581095,
+      "grad_norm": 0.2964885334930525,
+      "learning_rate": 3.091397849462366e-05,
+      "loss": 0.5026,
+      "mean_token_accuracy": 0.8555706679821015,
+      "step": 115
+    },
+    {
+      "epoch": 0.2577873254564984,
+      "grad_norm": 0.2640055744535602,
+      "learning_rate": 3.2258064516129034e-05,
+      "loss": 0.4952,
+      "mean_token_accuracy": 0.8576966226100922,
+      "step": 120
+    },
+    {
+      "epoch": 0.26852846401718583,
+      "grad_norm": 0.28061492437295604,
+      "learning_rate": 3.360215053763441e-05,
+      "loss": 0.4983,
+      "mean_token_accuracy": 0.8568866074085235,
+      "step": 125
+    },
+    {
+      "epoch": 0.27926960257787325,
+      "grad_norm": 0.3222080670739919,
+      "learning_rate": 3.494623655913979e-05,
+      "loss": 0.4919,
+      "mean_token_accuracy": 0.8582496762275695,
+      "step": 130
+    },
+    {
+      "epoch": 0.2900107411385607,
+      "grad_norm": 0.3018861867966521,
+      "learning_rate": 3.6290322580645165e-05,
+      "loss": 0.4921,
+      "mean_token_accuracy": 0.858267605304718,
+      "step": 135
+    },
+    {
+      "epoch": 0.3007518796992481,
+      "grad_norm": 0.27298497353963225,
+      "learning_rate": 3.763440860215054e-05,
+      "loss": 0.4897,
+      "mean_token_accuracy": 0.858799421787262,
+      "step": 140
+    },
+    {
+      "epoch": 0.31149301825993553,
+      "grad_norm": 0.29189277480966186,
+      "learning_rate": 3.8978494623655915e-05,
+      "loss": 0.4831,
+      "mean_token_accuracy": 0.8604558348655701,
+      "step": 145
+    },
+    {
+      "epoch": 0.322234156820623,
+      "grad_norm": 0.28012276855965057,
+      "learning_rate": 4.032258064516129e-05,
+      "loss": 0.4834,
+      "mean_token_accuracy": 0.8607946753501892,
+      "step": 150
+    },
+    {
+      "epoch": 0.33297529538131043,
+      "grad_norm": 0.2822021421564993,
+      "learning_rate": 4.166666666666667e-05,
+      "loss": 0.4822,
+      "mean_token_accuracy": 0.8607180714607239,
+      "step": 155
+    },
+    {
+      "epoch": 0.34371643394199786,
+      "grad_norm": 0.2669043120039336,
+      "learning_rate": 4.301075268817205e-05,
+      "loss": 0.4709,
+      "mean_token_accuracy": 0.8635617375373841,
+      "step": 160
+    },
+    {
+      "epoch": 0.3544575725026853,
+      "grad_norm": 0.26430063130872034,
+      "learning_rate": 4.435483870967742e-05,
+      "loss": 0.4759,
+      "mean_token_accuracy": 0.8624868154525757,
+      "step": 165
+    },
+    {
+      "epoch": 0.3651987110633727,
+      "grad_norm": 0.2768300795347462,
+      "learning_rate": 4.56989247311828e-05,
+      "loss": 0.4698,
+      "mean_token_accuracy": 0.863774424791336,
+      "step": 170
+    },
+    {
+      "epoch": 0.37593984962406013,
+      "grad_norm": 0.27300710251352905,
+      "learning_rate": 4.704301075268818e-05,
+      "loss": 0.4688,
+      "mean_token_accuracy": 0.8640853643417359,
+      "step": 175
+    },
+    {
+      "epoch": 0.3866809881847476,
+      "grad_norm": 0.28130219154214986,
+      "learning_rate": 4.8387096774193554e-05,
+      "loss": 0.4616,
+      "mean_token_accuracy": 0.8659515857696534,
+      "step": 180
+    },
+    {
+      "epoch": 0.39742212674543503,
+      "grad_norm": 0.28040903261236555,
+      "learning_rate": 4.973118279569893e-05,
+      "loss": 0.4652,
+      "mean_token_accuracy": 0.8656746566295623,
+      "step": 185
+    },
+    {
+      "epoch": 0.40816326530612246,
+      "grad_norm": 0.32637783754316196,
+      "learning_rate": 4.999936604372673e-05,
+      "loss": 0.4584,
+      "mean_token_accuracy": 0.8662971913814544,
+      "step": 190
+    },
+    {
+      "epoch": 0.4189044038668099,
+      "grad_norm": 0.3235247316768069,
+      "learning_rate": 4.9996790657593474e-05,
+      "loss": 0.4652,
+      "mean_token_accuracy": 0.865262484550476,
+      "step": 195
+    },
+    {
+      "epoch": 0.4296455424274973,
+      "grad_norm": 0.2756975255703871,
+      "learning_rate": 4.999223444591954e-05,
+      "loss": 0.4533,
+      "mean_token_accuracy": 0.8687061607837677,
+      "step": 200
+    },
+    {
+      "epoch": 0.44038668098818473,
+      "grad_norm": 0.26466440633632593,
+      "learning_rate": 4.998569780987594e-05,
+      "loss": 0.4521,
+      "mean_token_accuracy": 0.8684524893760681,
+      "step": 205
+    },
+    {
+      "epoch": 0.45112781954887216,
+      "grad_norm": 0.25138863961089425,
+      "learning_rate": 4.997718132500857e-05,
+      "loss": 0.4456,
+      "mean_token_accuracy": 0.8701819539070129,
+      "step": 210
+    },
+    {
+      "epoch": 0.46186895810955964,
+      "grad_norm": 0.3025611470224811,
+      "learning_rate": 4.9966685741187544e-05,
+      "loss": 0.447,
+      "mean_token_accuracy": 0.8699068784713745,
+      "step": 215
+    },
+    {
+      "epoch": 0.47261009667024706,
+      "grad_norm": 0.24615962175136596,
+      "learning_rate": 4.995421198254114e-05,
+      "loss": 0.4445,
+      "mean_token_accuracy": 0.8706246316432953,
+      "step": 220
+    },
+    {
+      "epoch": 0.4833512352309345,
+      "grad_norm": 0.23780094613136366,
+      "learning_rate": 4.9939761147374455e-05,
+      "loss": 0.444,
+      "mean_token_accuracy": 0.8709352612495422,
+      "step": 225
+    },
+    {
+      "epoch": 0.4940923737916219,
+      "grad_norm": 0.26418243428675386,
+      "learning_rate": 4.992333450807268e-05,
+      "loss": 0.4428,
+      "mean_token_accuracy": 0.8712534010410309,
+      "step": 230
+    },
+    {
+      "epoch": 0.5048335123523093,
+      "grad_norm": 0.2452687330812135,
+      "learning_rate": 4.990493351098908e-05,
+      "loss": 0.4375,
+      "mean_token_accuracy": 0.8728318750858307,
+      "step": 235
+    },
+    {
+      "epoch": 0.5155746509129968,
+      "grad_norm": 0.2688160648750715,
+      "learning_rate": 4.9884559776317644e-05,
+      "loss": 0.4353,
+      "mean_token_accuracy": 0.8730437099933624,
+      "step": 240
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 0.25960118051112435,
+      "learning_rate": 4.986221509795043e-05,
+      "loss": 0.4317,
+      "mean_token_accuracy": 0.8739780306816101,
+      "step": 245
+    },
+    {
+      "epoch": 0.5370569280343717,
+      "grad_norm": 0.23341024093650933,
+      "learning_rate": 4.98379014433196e-05,
+      "loss": 0.4352,
+      "mean_token_accuracy": 0.8733076274394989,
+      "step": 250
+    },
+    {
+      "epoch": 0.547798066595059,
+      "grad_norm": 0.25741008352215955,
+      "learning_rate": 4.981162095322421e-05,
+      "loss": 0.4324,
+      "mean_token_accuracy": 0.8738310694694519,
+      "step": 255
+    },
+    {
+      "epoch": 0.5585392051557465,
+      "grad_norm": 0.23274342659284017,
+      "learning_rate": 4.9783375941641696e-05,
+      "loss": 0.4321,
+      "mean_token_accuracy": 0.8742413520812988,
+      "step": 260
+    },
+    {
+      "epoch": 0.569280343716434,
+      "grad_norm": 0.2451922230157493,
+      "learning_rate": 4.9753168895524136e-05,
+      "loss": 0.4202,
+      "mean_token_accuracy": 0.8772394955158234,
+      "step": 265
+    },
+    {
+      "epoch": 0.5800214822771214,
+      "grad_norm": 0.2681975618828881,
+      "learning_rate": 4.9721002474579285e-05,
+      "loss": 0.4265,
+      "mean_token_accuracy": 0.8758379638195037,
+      "step": 270
+    },
+    {
+      "epoch": 0.5907626208378088,
+      "grad_norm": 0.22840035689897775,
+      "learning_rate": 4.968687951103638e-05,
+      "loss": 0.4209,
+      "mean_token_accuracy": 0.8775071561336517,
+      "step": 275
+    },
+    {
+      "epoch": 0.6015037593984962,
+      "grad_norm": 0.22300755601220718,
+      "learning_rate": 4.965080300939675e-05,
+      "loss": 0.4153,
+      "mean_token_accuracy": 0.8784702062606812,
+      "step": 280
+    },
+    {
+      "epoch": 0.6122448979591837,
+      "grad_norm": 0.22676783176605783,
+      "learning_rate": 4.961277614616931e-05,
+      "loss": 0.4168,
+      "mean_token_accuracy": 0.8779775381088257,
+      "step": 285
+    },
+    {
+      "epoch": 0.6229860365198711,
+      "grad_norm": 0.24574274186354764,
+      "learning_rate": 4.957280226959083e-05,
+      "loss": 0.4119,
+      "mean_token_accuracy": 0.8798301517963409,
+      "step": 290
+    },
+    {
+      "epoch": 0.6337271750805585,
+      "grad_norm": 0.2281072685520932,
+      "learning_rate": 4.953088489933117e-05,
+      "loss": 0.4176,
+      "mean_token_accuracy": 0.878108823299408,
+      "step": 295
+    },
+    {
+      "epoch": 0.644468313641246,
+      "grad_norm": 0.2606268344040068,
+      "learning_rate": 4.948702772618332e-05,
+      "loss": 0.4114,
+      "mean_token_accuracy": 0.879868882894516,
+      "step": 300
+    },
+    {
+      "epoch": 0.6552094522019334,
+      "grad_norm": 0.2192902541038699,
+      "learning_rate": 4.944123461173849e-05,
+      "loss": 0.4141,
+      "mean_token_accuracy": 0.879179573059082,
+      "step": 305
+    },
+    {
+      "epoch": 0.6659505907626209,
+      "grad_norm": 0.21550855803478997,
+      "learning_rate": 4.9393509588046036e-05,
+      "loss": 0.4053,
+      "mean_token_accuracy": 0.8814833164215088,
+      "step": 310
+    },
+    {
+      "epoch": 0.6766917293233082,
+      "grad_norm": 0.23830421980148422,
+      "learning_rate": 4.934385685725851e-05,
+      "loss": 0.4068,
+      "mean_token_accuracy": 0.8807245373725892,
+      "step": 315
+    },
+    {
+      "epoch": 0.6874328678839957,
+      "grad_norm": 0.22141238716961,
+      "learning_rate": 4.9292280791261595e-05,
+      "loss": 0.4023,
+      "mean_token_accuracy": 0.8820916056632996,
+      "step": 320
+    },
+    {
+      "epoch": 0.6981740064446831,
+      "grad_norm": 0.23798938808653466,
+      "learning_rate": 4.9238785931289225e-05,
+      "loss": 0.4042,
+      "mean_token_accuracy": 0.882178908586502,
+      "step": 325
+    },
+    {
+      "epoch": 0.7089151450053706,
+      "grad_norm": 0.22152782163874513,
+      "learning_rate": 4.918337698752367e-05,
+      "loss": 0.4038,
+      "mean_token_accuracy": 0.8820820569992065,
+      "step": 330
+    },
+    {
+      "epoch": 0.719656283566058,
+      "grad_norm": 0.2238393672437065,
+      "learning_rate": 4.912605883868088e-05,
+      "loss": 0.4094,
+      "mean_token_accuracy": 0.8803297877311707,
+      "step": 335
+    },
+    {
+      "epoch": 0.7303974221267454,
+      "grad_norm": 0.2251835579056735,
+      "learning_rate": 4.906683653158086e-05,
+      "loss": 0.4022,
+      "mean_token_accuracy": 0.8820242047309875,
+      "step": 340
+    },
+    {
+      "epoch": 0.7411385606874329,
+      "grad_norm": 0.21096516273893903,
+      "learning_rate": 4.9005715280703295e-05,
+      "loss": 0.3963,
+      "mean_token_accuracy": 0.8838990330696106,
+      "step": 345
+    },
+    {
+      "epoch": 0.7518796992481203,
+      "grad_norm": 0.20550443098708907,
+      "learning_rate": 4.8942700467728505e-05,
+      "loss": 0.3955,
+      "mean_token_accuracy": 0.8842245638370514,
+      "step": 350
+    },
+    {
+      "epoch": 0.7626208378088077,
+      "grad_norm": 0.2058867389466749,
+      "learning_rate": 4.88777976410635e-05,
+      "loss": 0.3995,
+      "mean_token_accuracy": 0.8830176711082458,
+      "step": 355
+    },
+    {
+      "epoch": 0.7733619763694952,
+      "grad_norm": 0.20958669116131587,
+      "learning_rate": 4.8811012515353456e-05,
+      "loss": 0.3911,
+      "mean_token_accuracy": 0.8853914678096771,
+      "step": 360
+    },
+    {
+      "epoch": 0.7841031149301826,
+      "grad_norm": 0.20397609182823062,
+      "learning_rate": 4.874235097097861e-05,
+      "loss": 0.393,
+      "mean_token_accuracy": 0.8846873760223388,
+      "step": 365
+    },
+    {
+      "epoch": 0.7948442534908701,
+      "grad_norm": 0.21645535614809533,
+      "learning_rate": 4.8671819053536415e-05,
+      "loss": 0.3922,
+      "mean_token_accuracy": 0.8847495734691619,
+      "step": 370
+    },
+    {
+      "epoch": 0.8055853920515574,
+      "grad_norm": 0.22258952481615085,
+      "learning_rate": 4.859942297330932e-05,
+      "loss": 0.3982,
+      "mean_token_accuracy": 0.8832435965538025,
+      "step": 375
+    },
+    {
+      "epoch": 0.8163265306122449,
+      "grad_norm": 0.2024612867389681,
+      "learning_rate": 4.8525169104717846e-05,
+      "loss": 0.3903,
+      "mean_token_accuracy": 0.8853883922100068,
+      "step": 380
+    },
+    {
+      "epoch": 0.8270676691729323,
+      "grad_norm": 0.20556087856635372,
+      "learning_rate": 4.844906398575944e-05,
+      "loss": 0.3964,
+      "mean_token_accuracy": 0.8837718069553375,
+      "step": 385
+    },
+    {
+      "epoch": 0.8378088077336198,
+      "grad_norm": 0.20809549331239957,
+      "learning_rate": 4.8371114317432726e-05,
+      "loss": 0.3941,
+      "mean_token_accuracy": 0.8842520952224732,
+      "step": 390
+    },
+    {
+      "epoch": 0.8485499462943072,
+      "grad_norm": 0.21820552680801697,
+      "learning_rate": 4.8291326963147524e-05,
+      "loss": 0.3891,
+      "mean_token_accuracy": 0.8858624398708344,
+      "step": 395
+    },
+    {
+      "epoch": 0.8592910848549946,
+      "grad_norm": 0.20709264624327767,
+      "learning_rate": 4.820970894812053e-05,
+      "loss": 0.3845,
+      "mean_token_accuracy": 0.886957323551178,
+      "step": 400
+    },
+    {
+      "epoch": 0.8700322234156821,
+      "grad_norm": 0.21155796049345174,
+      "learning_rate": 4.812626745875673e-05,
+      "loss": 0.3909,
+      "mean_token_accuracy": 0.8852347731590271,
+      "step": 405
+    },
+    {
+      "epoch": 0.8807733619763695,
+      "grad_norm": 0.20230194258239817,
+      "learning_rate": 4.804100984201667e-05,
+      "loss": 0.3888,
+      "mean_token_accuracy": 0.8856496810913086,
+      "step": 410
+    },
+    {
+      "epoch": 0.8915145005370569,
+      "grad_norm": 0.1914371442320018,
+      "learning_rate": 4.795394360476955e-05,
+      "loss": 0.3927,
+      "mean_token_accuracy": 0.885220056772232,
+      "step": 415
+    },
+    {
+      "epoch": 0.9022556390977443,
+      "grad_norm": 0.21955921021321853,
+      "learning_rate": 4.7865076413132234e-05,
+      "loss": 0.3862,
+      "mean_token_accuracy": 0.8869829177856445,
+      "step": 420
+    },
+    {
+      "epoch": 0.9129967776584318,
+      "grad_norm": 0.19993088700133185,
+      "learning_rate": 4.777441609179428e-05,
+      "loss": 0.389,
+      "mean_token_accuracy": 0.8861649572849274,
+      "step": 425
+    },
+    {
+      "epoch": 0.9237379162191193,
+      "grad_norm": 0.20214442771764315,
+      "learning_rate": 4.768197062332898e-05,
+      "loss": 0.3805,
+      "mean_token_accuracy": 0.8884122192859649,
+      "step": 430
+    },
+    {
+      "epoch": 0.9344790547798066,
+      "grad_norm": 0.1936799045011743,
+      "learning_rate": 4.758774814749046e-05,
+      "loss": 0.3825,
+      "mean_token_accuracy": 0.8876857936382294,
+      "step": 435
+    },
+    {
+      "epoch": 0.9452201933404941,
+      "grad_norm": 0.19325903425845148,
+      "learning_rate": 4.749175696049706e-05,
+      "loss": 0.3826,
+      "mean_token_accuracy": 0.8881516516208648,
+      "step": 440
+    },
+    {
+      "epoch": 0.9559613319011815,
+      "grad_norm": 0.19255187762230458,
+      "learning_rate": 4.739400551430077e-05,
+      "loss": 0.3811,
+      "mean_token_accuracy": 0.8880790531635284,
+      "step": 445
+    },
+    {
+      "epoch": 0.966702470461869,
+      "grad_norm": 0.19450067956842618,
+      "learning_rate": 4.7294502415843105e-05,
+      "loss": 0.3783,
+      "mean_token_accuracy": 0.8890111207962036,
+      "step": 450
+    },
+    {
+      "epoch": 0.9774436090225563,
+      "grad_norm": 0.20174438790639918,
+      "learning_rate": 4.719325642629722e-05,
+      "loss": 0.378,
+      "mean_token_accuracy": 0.8890378654003144,
+      "step": 455
+    },
+    {
+      "epoch": 0.9881847475832438,
+      "grad_norm": 0.17832896478111976,
+      "learning_rate": 4.7090276460296555e-05,
+      "loss": 0.3843,
+      "mean_token_accuracy": 0.8872815728187561,
+      "step": 460
+    },
+    {
+      "epoch": 0.9989258861439313,
+      "grad_norm": 0.1913931630832869,
+      "learning_rate": 4.6985571585149876e-05,
+      "loss": 0.3796,
+      "mean_token_accuracy": 0.8887166023254395,
+      "step": 465
+    },
+    {
+      "epoch": 1.0085929108485499,
+      "grad_norm": 0.20263869484120534,
+      "learning_rate": 4.687915102004286e-05,
+      "loss": 0.3614,
+      "mean_token_accuracy": 0.8926012317339579,
+      "step": 470
+    },
+    {
+      "epoch": 1.0193340494092373,
+      "grad_norm": 0.19678722825673817,
+      "learning_rate": 4.677102413522645e-05,
+      "loss": 0.3495,
+      "mean_token_accuracy": 0.8955722391605377,
+      "step": 475
+    },
+    {
+      "epoch": 1.0300751879699248,
+      "grad_norm": 0.20376503491728473,
+      "learning_rate": 4.666120045119174e-05,
+      "loss": 0.3507,
+      "mean_token_accuracy": 0.8951772391796112,
+      "step": 480
+    },
+    {
+      "epoch": 1.0408163265306123,
+      "grad_norm": 0.2019062903436488,
+      "learning_rate": 4.654968963783171e-05,
+      "loss": 0.3531,
+      "mean_token_accuracy": 0.8947476446628571,
+      "step": 485
+    },
+    {
+      "epoch": 1.0515574650912998,
+      "grad_norm": 0.18722603018624961,
+      "learning_rate": 4.643650151358983e-05,
+      "loss": 0.3526,
+      "mean_token_accuracy": 0.894485878944397,
+      "step": 490
+    },
+    {
+      "epoch": 1.062298603651987,
+      "grad_norm": 0.19481656873843595,
+      "learning_rate": 4.632164604459553e-05,
+      "loss": 0.3468,
+      "mean_token_accuracy": 0.8964617013931274,
+      "step": 495
+    },
+    {
+      "epoch": 1.0730397422126745,
+      "grad_norm": 0.18585853331072713,
+      "learning_rate": 4.620513334378669e-05,
+      "loss": 0.3512,
+      "mean_token_accuracy": 0.8950131058692932,
+      "step": 500
+    },
+    {
+      "epoch": 1.083780880773362,
+      "grad_norm": 0.1930388596228489,
+      "learning_rate": 4.608697367001921e-05,
+      "loss": 0.3479,
+      "mean_token_accuracy": 0.895933198928833,
+      "step": 505
+    },
+    {
+      "epoch": 1.0945220193340495,
+      "grad_norm": 0.1978189680563173,
+      "learning_rate": 4.596717742716372e-05,
+      "loss": 0.3532,
+      "mean_token_accuracy": 0.8942179441452026,
+      "step": 510
+    },
+    {
+      "epoch": 1.1052631578947367,
+      "grad_norm": 0.2198969141563894,
+      "learning_rate": 4.584575516318954e-05,
+      "loss": 0.3492,
+      "mean_token_accuracy": 0.8957188785076141,
+      "step": 515
+    },
+    {
+      "epoch": 1.1160042964554242,
+      "grad_norm": 0.19175977623621587,
+      "learning_rate": 4.5722717569235924e-05,
+      "loss": 0.3553,
+      "mean_token_accuracy": 0.8938140749931336,
+      "step": 520
+    },
+    {
+      "epoch": 1.1267454350161117,
+      "grad_norm": 0.1995625771811619,
+      "learning_rate": 4.559807547867071e-05,
+      "loss": 0.3493,
+      "mean_token_accuracy": 0.8954446971416473,
+      "step": 525
+    },
+    {
+      "epoch": 1.1374865735767992,
+      "grad_norm": 0.1915734911527379,
+      "learning_rate": 4.5471839866136475e-05,
+      "loss": 0.3491,
+      "mean_token_accuracy": 0.8957653522491456,
+      "step": 530
+    },
+    {
+      "epoch": 1.1482277121374866,
+      "grad_norm": 0.19836797519712018,
+      "learning_rate": 4.5344021846584205e-05,
+      "loss": 0.3539,
+      "mean_token_accuracy": 0.8943828701972961,
+      "step": 535
+    },
+    {
+      "epoch": 1.158968850698174,
+      "grad_norm": 0.18808462761740152,
+      "learning_rate": 4.521463267429464e-05,
+      "loss": 0.3497,
+      "mean_token_accuracy": 0.8953365862369538,
+      "step": 540
+    },
+    {
+      "epoch": 1.1697099892588614,
+      "grad_norm": 0.19280122016496182,
+      "learning_rate": 4.508368374188731e-05,
+      "loss": 0.3496,
+      "mean_token_accuracy": 0.8953313529491425,
+      "step": 545
+    },
+    {
+      "epoch": 1.1804511278195489,
+      "grad_norm": 0.19677371481260625,
+      "learning_rate": 4.4951186579317504e-05,
+      "loss": 0.3528,
+      "mean_token_accuracy": 0.8949146151542664,
+      "step": 550
+    },
+    {
+      "epoch": 1.1911922663802363,
+      "grad_norm": 0.18538032977972374,
+      "learning_rate": 4.481715285286098e-05,
+      "loss": 0.3541,
+      "mean_token_accuracy": 0.8939870595932007,
+      "step": 555
+    },
+    {
+      "epoch": 1.2019334049409238,
+      "grad_norm": 0.18481539602601102,
+      "learning_rate": 4.46815943640868e-05,
+      "loss": 0.3553,
+      "mean_token_accuracy": 0.8940768420696259,
+      "step": 560
+    },
+    {
+      "epoch": 1.212674543501611,
+      "grad_norm": 0.1861386211911988,
+      "learning_rate": 4.454452304881821e-05,
+      "loss": 0.3468,
+      "mean_token_accuracy": 0.8959418594837188,
+      "step": 565
+    },
+    {
+      "epoch": 1.2234156820622986,
+      "grad_norm": 0.18228266310501318,
+      "learning_rate": 4.440595097608168e-05,
+      "loss": 0.3467,
+      "mean_token_accuracy": 0.8962770164012909,
+      "step": 570
+    },
+    {
+      "epoch": 1.234156820622986,
+      "grad_norm": 0.1841361210717962,
+      "learning_rate": 4.426589034704428e-05,
+      "loss": 0.3536,
+      "mean_token_accuracy": 0.8943024933338165,
+      "step": 575
+    },
+    {
+      "epoch": 1.2448979591836735,
+      "grad_norm": 0.17281724579297167,
+      "learning_rate": 4.412435349393931e-05,
+      "loss": 0.3509,
+      "mean_token_accuracy": 0.8950875043869019,
+      "step": 580
+    },
+    {
+      "epoch": 1.255639097744361,
+      "grad_norm": 0.1772300668593227,
+      "learning_rate": 4.398135287898052e-05,
+      "loss": 0.3485,
+      "mean_token_accuracy": 0.8955003321170807,
+      "step": 585
+    },
+    {
+      "epoch": 1.2663802363050483,
+      "grad_norm": 0.17772581177798846,
+      "learning_rate": 4.383690109326477e-05,
+      "loss": 0.3459,
+      "mean_token_accuracy": 0.8965889751911164,
+      "step": 590
+    },
+    {
+      "epoch": 1.2771213748657357,
+      "grad_norm": 0.18596059716645308,
+      "learning_rate": 4.369101085566342e-05,
+      "loss": 0.3496,
+      "mean_token_accuracy": 0.8954894125461579,
+      "step": 595
+    },
+    {
+      "epoch": 1.2878625134264232,
+      "grad_norm": 0.17598132780016223,
+      "learning_rate": 4.354369501170246e-05,
+      "loss": 0.3479,
+      "mean_token_accuracy": 0.8960169315338135,
+      "step": 600
+    },
+    {
+      "epoch": 1.2986036519871107,
+      "grad_norm": 0.1804871594490513,
+      "learning_rate": 4.3394966532431433e-05,
+      "loss": 0.352,
+      "mean_token_accuracy": 0.8948932409286499,
+      "step": 605
+    },
+    {
+      "epoch": 1.3093447905477982,
+      "grad_norm": 0.1865297212423964,
+      "learning_rate": 4.3244838513281367e-05,
+      "loss": 0.3515,
+      "mean_token_accuracy": 0.8949047923088074,
+      "step": 610
+    },
+    {
+      "epoch": 1.3200859291084854,
+      "grad_norm": 0.18053270547327416,
+      "learning_rate": 4.309332417291172e-05,
+      "loss": 0.3505,
+      "mean_token_accuracy": 0.8953122675418854,
+      "step": 615
+    },
+    {
+      "epoch": 1.330827067669173,
+      "grad_norm": 0.1744036148367508,
+      "learning_rate": 4.294043685204651e-05,
+      "loss": 0.3474,
+      "mean_token_accuracy": 0.8960575997829437,
+      "step": 620
+    },
+    {
+      "epoch": 1.3415682062298604,
+      "grad_norm": 0.16842924897825143,
+      "learning_rate": 4.278619001229962e-05,
+      "loss": 0.3474,
+      "mean_token_accuracy": 0.8961166024208069,
+      "step": 625
+    },
+    {
+      "epoch": 1.3523093447905479,
+      "grad_norm": 0.17741079904542595,
+      "learning_rate": 4.263059723498961e-05,
+      "loss": 0.3474,
+      "mean_token_accuracy": 0.8962021231651306,
+      "step": 630
+    },
+    {
+      "epoch": 1.3630504833512354,
+      "grad_norm": 0.17634563486082044,
+      "learning_rate": 4.247367221994377e-05,
+      "loss": 0.352,
+      "mean_token_accuracy": 0.8948638260364532,
+      "step": 635
+    },
+    {
+      "epoch": 1.3737916219119226,
+      "grad_norm": 0.16514936818638581,
+      "learning_rate": 4.2315428784291965e-05,
+      "loss": 0.348,
+      "mean_token_accuracy": 0.8962691247463226,
+      "step": 640
+    },
+    {
+      "epoch": 1.38453276047261,
+      "grad_norm": 0.18156198450594868,
+      "learning_rate": 4.215588086125001e-05,
+      "loss": 0.3473,
+      "mean_token_accuracy": 0.8962475776672363,
+      "step": 645
+    },
+    {
+      "epoch": 1.3952738990332976,
+      "grad_norm": 0.17302374962454448,
+      "learning_rate": 4.199504249889279e-05,
+      "loss": 0.3499,
+      "mean_token_accuracy": 0.8956164479255676,
+      "step": 650
+    },
+    {
+      "epoch": 1.4060150375939848,
+      "grad_norm": 0.17009271559786848,
+      "learning_rate": 4.18329278589175e-05,
+      "loss": 0.3481,
+      "mean_token_accuracy": 0.8962275862693787,
+      "step": 655
+    },
+    {
+      "epoch": 1.4167561761546725,
+      "grad_norm": 0.17232579890547844,
+      "learning_rate": 4.166955121539656e-05,
+      "loss": 0.3452,
+      "mean_token_accuracy": 0.8966892838478089,
+      "step": 660
+    },
+    {
+      "epoch": 1.4274973147153598,
+      "grad_norm": 0.18931912307479049,
+      "learning_rate": 4.150492695352086e-05,
+      "loss": 0.3476,
+      "mean_token_accuracy": 0.8961862683296203,
+      "step": 665
+    },
+    {
+      "epoch": 1.4382384532760473,
+      "grad_norm": 0.1812257587896816,
+      "learning_rate": 4.133906956833316e-05,
+      "loss": 0.3451,
+      "mean_token_accuracy": 0.8965191125869751,
+      "step": 670
+    },
+    {
+      "epoch": 1.4489795918367347,
+      "grad_norm": 0.18448866093949617,
+      "learning_rate": 4.1171993663451816e-05,
+      "loss": 0.3453,
+      "mean_token_accuracy": 0.8967220306396484,
+      "step": 675
+    },
+    {
+      "epoch": 1.459720730397422,
+      "grad_norm": 0.16318177527247005,
+      "learning_rate": 4.1003713949784905e-05,
+      "loss": 0.3491,
+      "mean_token_accuracy": 0.8957133948802948,
+      "step": 680
+    },
+    {
+      "epoch": 1.4704618689581095,
+      "grad_norm": 0.19223128076002124,
+      "learning_rate": 4.083424524423498e-05,
+      "loss": 0.3475,
+      "mean_token_accuracy": 0.8962952673435212,
+      "step": 685
+    },
+    {
+      "epoch": 1.481203007518797,
+      "grad_norm": 0.17065645296533696,
+      "learning_rate": 4.066360246839442e-05,
+      "loss": 0.3495,
+      "mean_token_accuracy": 0.8956079244613647,
+      "step": 690
+    },
+    {
+      "epoch": 1.4919441460794844,
+      "grad_norm": 0.1613801844631258,
+      "learning_rate": 4.049180064723164e-05,
+      "loss": 0.3491,
+      "mean_token_accuracy": 0.8964253485202789,
+      "step": 695
+    },
+    {
+      "epoch": 1.502685284640172,
+      "grad_norm": 0.17729165960730092,
+      "learning_rate": 4.031885490776811e-05,
+      "loss": 0.3461,
+      "mean_token_accuracy": 0.8965683281421661,
+      "step": 700
+    },
+    {
+      "epoch": 1.5134264232008592,
+      "grad_norm": 0.16772417608227957,
+      "learning_rate": 4.014478047774644e-05,
+      "loss": 0.3486,
+      "mean_token_accuracy": 0.8959019482135773,
+      "step": 705
+    },
+    {
+      "epoch": 1.5241675617615469,
+      "grad_norm": 0.1654092742061062,
+      "learning_rate": 3.99695926842896e-05,
+      "loss": 0.3452,
+      "mean_token_accuracy": 0.8970151007175445,
+      "step": 710
+    },
+    {
+      "epoch": 1.5349087003222341,
+      "grad_norm": 0.1770663143483711,
+      "learning_rate": 3.979330695255139e-05,
+      "loss": 0.3504,
+      "mean_token_accuracy": 0.8954713106155395,
+      "step": 715
+    },
+    {
+      "epoch": 1.5456498388829216,
+      "grad_norm": 0.16250407421180885,
+      "learning_rate": 3.9615938804358254e-05,
+      "loss": 0.3403,
+      "mean_token_accuracy": 0.8980903148651123,
+      "step": 720
+    },
+    {
+      "epoch": 1.556390977443609,
+      "grad_norm": 0.1739734421973896,
+      "learning_rate": 3.943750385684257e-05,
+      "loss": 0.3452,
+      "mean_token_accuracy": 0.8973391890525818,
+      "step": 725
+    },
+    {
+      "epoch": 1.5671321160042964,
+      "grad_norm": 0.17020682906702797,
+      "learning_rate": 3.9258017821067595e-05,
+      "loss": 0.341,
+      "mean_token_accuracy": 0.8981746196746826,
+      "step": 730
+    },
+    {
+      "epoch": 1.5778732545649838,
+      "grad_norm": 0.17090518777542177,
+      "learning_rate": 3.907749650064416e-05,
+      "loss": 0.3475,
+      "mean_token_accuracy": 0.8964370787143707,
+      "step": 735
+    },
+    {
+      "epoch": 1.5886143931256713,
+      "grad_norm": 0.18226436070710383,
+      "learning_rate": 3.889595579033907e-05,
+      "loss": 0.3548,
+      "mean_token_accuracy": 0.8943204343318939,
+      "step": 740
+    },
+    {
+      "epoch": 1.5993555316863588,
+      "grad_norm": 0.16867971152976394,
+      "learning_rate": 3.8713411674675706e-05,
+      "loss": 0.3468,
+      "mean_token_accuracy": 0.8964660108089447,
+      "step": 745
+    },
+    {
+      "epoch": 1.6100966702470463,
+      "grad_norm": 0.1634124661472663,
+      "learning_rate": 3.8529880226526504e-05,
+      "loss": 0.3419,
+      "mean_token_accuracy": 0.897741311788559,
+      "step": 750
+    },
+    {
+      "epoch": 1.6208378088077335,
+      "grad_norm": 0.16728119897984747,
+      "learning_rate": 3.834537760569779e-05,
+      "loss": 0.3477,
+      "mean_token_accuracy": 0.8964338660240173,
+      "step": 755
+    },
+    {
+      "epoch": 1.631578947368421,
+      "grad_norm": 0.16636899767836238,
+      "learning_rate": 3.815992005750691e-05,
+      "loss": 0.3454,
+      "mean_token_accuracy": 0.897176194190979,
+      "step": 760
+    },
+    {
+      "epoch": 1.6423200859291085,
+      "grad_norm": 0.17370655470517776,
+      "learning_rate": 3.7973523911351873e-05,
+      "loss": 0.3457,
+      "mean_token_accuracy": 0.8967864811420441,
+      "step": 765
+    },
+    {
+      "epoch": 1.6530612244897958,
+      "grad_norm": 0.17387140846382934,
+      "learning_rate": 3.7786205579273494e-05,
+      "loss": 0.3461,
+      "mean_token_accuracy": 0.896539443731308,
+      "step": 770
+    },
+    {
+      "epoch": 1.6638023630504835,
+      "grad_norm": 0.17312244395133694,
+      "learning_rate": 3.75979815545104e-05,
+      "loss": 0.3469,
+      "mean_token_accuracy": 0.8965823531150818,
+      "step": 775
+    },
+    {
+      "epoch": 1.6745435016111707,
+      "grad_norm": 0.17134683681288093,
+      "learning_rate": 3.740886841004678e-05,
+      "loss": 0.3437,
+      "mean_token_accuracy": 0.8972635090351104,
+      "step": 780
+    },
+    {
+      "epoch": 1.6852846401718582,
+      "grad_norm": 0.1703220892784228,
+      "learning_rate": 3.72188827971531e-05,
+      "loss": 0.349,
+      "mean_token_accuracy": 0.8958061695098877,
+      "step": 785
+    },
+    {
+      "epoch": 1.6960257787325457,
+      "grad_norm": 0.15629690421483755,
+      "learning_rate": 3.7028041443920106e-05,
+      "loss": 0.345,
+      "mean_token_accuracy": 0.8972305715084076,
+      "step": 790
+    },
+    {
+      "epoch": 1.706766917293233,
+      "grad_norm": 0.16968855316404596,
+      "learning_rate": 3.6836361153785735e-05,
+      "loss": 0.3391,
+      "mean_token_accuracy": 0.8984034955501556,
+      "step": 795
+    },
+    {
+      "epoch": 1.7175080558539206,
+      "grad_norm": 0.1613956545932139,
+      "learning_rate": 3.6643858804055764e-05,
+      "loss": 0.3418,
+      "mean_token_accuracy": 0.8975095868110656,
+      "step": 800
+    },
+    {
+      "epoch": 1.728249194414608,
+      "grad_norm": 0.16488649273144998,
+      "learning_rate": 3.6450551344417656e-05,
+      "loss": 0.347,
+      "mean_token_accuracy": 0.8963462889194489,
+      "step": 805
+    },
+    {
+      "epoch": 1.7389903329752954,
+      "grad_norm": 0.18336562912600562,
+      "learning_rate": 3.625645579544824e-05,
+      "loss": 0.3417,
+      "mean_token_accuracy": 0.8978760004043579,
+      "step": 810
+    },
+    {
+      "epoch": 1.7497314715359829,
+      "grad_norm": 0.16442030655020706,
+      "learning_rate": 3.606158924711498e-05,
+      "loss": 0.3418,
+      "mean_token_accuracy": 0.8984208166599273,
+      "step": 815
+    },
+    {
+      "epoch": 1.76047261009667,
+      "grad_norm": 0.1648466060868627,
+      "learning_rate": 3.586596885727126e-05,
+      "loss": 0.346,
+      "mean_token_accuracy": 0.8967172205448151,
+      "step": 820
+    },
+    {
+      "epoch": 1.7712137486573578,
+      "grad_norm": 0.16380950472689287,
+      "learning_rate": 3.5669611850145676e-05,
+      "loss": 0.3404,
+      "mean_token_accuracy": 0.8981300175189972,
+      "step": 825
+    },
+    {
+      "epoch": 1.781954887218045,
+      "grad_norm": 0.16476649720519732,
+      "learning_rate": 3.54725355148254e-05,
+      "loss": 0.3417,
+      "mean_token_accuracy": 0.8978650271892548,
+      "step": 830
+    },
+    {
+      "epoch": 1.7926960257787325,
+      "grad_norm": 0.16250342083791575,
+      "learning_rate": 3.5274757203733906e-05,
+      "loss": 0.3429,
+      "mean_token_accuracy": 0.8977679431438446,
+      "step": 835
+    },
+    {
+      "epoch": 1.80343716433942,
+      "grad_norm": 0.1666333005283665,
+      "learning_rate": 3.507629433110311e-05,
+      "loss": 0.3437,
+      "mean_token_accuracy": 0.8972832322120666,
+      "step": 840
+    },
+    {
+      "epoch": 1.8141783029001073,
+      "grad_norm": 0.1615387362712691,
+      "learning_rate": 3.4877164371440075e-05,
+      "loss": 0.3453,
+      "mean_token_accuracy": 0.8970289349555969,
+      "step": 845
+    },
+    {
+      "epoch": 1.824919441460795,
+      "grad_norm": 0.16676447906725542,
+      "learning_rate": 3.467738485798836e-05,
+      "loss": 0.3451,
+      "mean_token_accuracy": 0.8969220995903016,
+      "step": 850
+    },
+    {
+      "epoch": 1.8356605800214822,
+      "grad_norm": 0.16168843045380168,
+      "learning_rate": 3.447697338118425e-05,
+      "loss": 0.3395,
+      "mean_token_accuracy": 0.898131811618805,
+      "step": 855
+    },
+    {
+      "epoch": 1.8464017185821697,
+      "grad_norm": 0.15334942056157058,
+      "learning_rate": 3.427594758710794e-05,
+      "loss": 0.3422,
+      "mean_token_accuracy": 0.8975472927093506,
+      "step": 860
+    },
+    {
+      "epoch": 1.8571428571428572,
+      "grad_norm": 0.1672358555124429,
+      "learning_rate": 3.407432517592979e-05,
+      "loss": 0.3403,
+      "mean_token_accuracy": 0.8983366131782532,
+      "step": 865
+    },
+    {
+      "epoch": 1.8678839957035445,
+      "grad_norm": 0.161941088262071,
+      "learning_rate": 3.3872123900351835e-05,
+      "loss": 0.3408,
+      "mean_token_accuracy": 0.8978644967079162,
+      "step": 870
+    },
+    {
+      "epoch": 1.8786251342642322,
+      "grad_norm": 0.1519842470665007,
+      "learning_rate": 3.3669361564044735e-05,
+      "loss": 0.3396,
+      "mean_token_accuracy": 0.898490047454834,
+      "step": 875
+    },
+    {
+      "epoch": 1.8893662728249194,
+      "grad_norm": 0.16037110333088753,
+      "learning_rate": 3.346605602008007e-05,
+      "loss": 0.3417,
+      "mean_token_accuracy": 0.8977841079235077,
+      "step": 880
+    },
+    {
+      "epoch": 1.900107411385607,
+      "grad_norm": 0.16442639618093918,
+      "learning_rate": 3.326222516935847e-05,
+      "loss": 0.3437,
+      "mean_token_accuracy": 0.8971070289611817,
+      "step": 885
+    },
+    {
+      "epoch": 1.9108485499462944,
+      "grad_norm": 0.15289173675825762,
+      "learning_rate": 3.3057886959033426e-05,
+      "loss": 0.3416,
+      "mean_token_accuracy": 0.8984978437423706,
+      "step": 890
+    },
+    {
+      "epoch": 1.9215896885069816,
+      "grad_norm": 0.14450841113047458,
+      "learning_rate": 3.285305938093108e-05,
+      "loss": 0.3392,
+      "mean_token_accuracy": 0.8983058393001556,
+      "step": 895
+    },
+    {
+      "epoch": 1.9323308270676691,
+      "grad_norm": 0.15549384924856993,
+      "learning_rate": 3.264776046996602e-05,
+      "loss": 0.3394,
+      "mean_token_accuracy": 0.8985956251621247,
+      "step": 900
+    },
+    {
+      "epoch": 1.9430719656283566,
+      "grad_norm": 0.162459823198956,
+      "learning_rate": 3.2442008302553346e-05,
+      "loss": 0.34,
+      "mean_token_accuracy": 0.8984286248683929,
+      "step": 905
+    },
+    {
+      "epoch": 1.953813104189044,
+      "grad_norm": 0.15039221824995944,
+      "learning_rate": 3.223582099501704e-05,
+      "loss": 0.3374,
+      "mean_token_accuracy": 0.8987222969532013,
+      "step": 910
+    },
+    {
+      "epoch": 1.9645542427497316,
+      "grad_norm": 0.1564002589458454,
+      "learning_rate": 3.202921670199485e-05,
+      "loss": 0.3369,
+      "mean_token_accuracy": 0.8994980156421661,
+      "step": 915
+    },
+    {
+      "epoch": 1.9752953813104188,
+      "grad_norm": 0.17459425481905663,
+      "learning_rate": 3.182221361483981e-05,
+      "loss": 0.3426,
+      "mean_token_accuracy": 0.8977073311805726,
+      "step": 920
+    },
+    {
+      "epoch": 1.9860365198711063,
+      "grad_norm": 0.15953782868809285,
+      "learning_rate": 3.161482996001842e-05,
+      "loss": 0.3406,
+      "mean_token_accuracy": 0.8983509004116058,
+      "step": 925
+    },
+    {
+      "epoch": 1.9967776584317938,
+      "grad_norm": 0.15713432539772912,
+      "learning_rate": 3.140708399750594e-05,
+      "loss": 0.3421,
+      "mean_token_accuracy": 0.8979579448699951,
+      "step": 930
+    },
+    {
+      "epoch": 2.0064446831364124,
+      "grad_norm": 0.16209947632099436,
+      "learning_rate": 3.11989940191785e-05,
+      "loss": 0.3137,
+      "mean_token_accuracy": 0.9049130148357816,
+      "step": 935
+    },
+    {
+      "epoch": 2.0171858216970997,
+      "grad_norm": 0.18807228831939848,
+      "learning_rate": 3.09905783472026e-05,
+      "loss": 0.305,
+      "mean_token_accuracy": 0.9070174276828766,
+      "step": 940
+    },
+    {
+      "epoch": 2.0279269602577874,
+      "grad_norm": 0.1647631068534088,
+      "learning_rate": 3.07818553324218e-05,
+      "loss": 0.3039,
+      "mean_token_accuracy": 0.9071334481239319,
+      "step": 945
+    },
+    {
+      "epoch": 2.0386680988184747,
+      "grad_norm": 0.16628057896853762,
+      "learning_rate": 3.057284335274097e-05,
+      "loss": 0.3026,
+      "mean_token_accuracy": 0.9071128606796265,
+      "step": 950
+    },
+    {
+      "epoch": 2.0494092373791624,
+      "grad_norm": 0.16953299184244167,
+      "learning_rate": 3.036356081150813e-05,
+      "loss": 0.3034,
+      "mean_token_accuracy": 0.9072185814380646,
+      "step": 955
+    },
+    {
+      "epoch": 2.0601503759398496,
+      "grad_norm": 0.16119678084859076,
+      "learning_rate": 3.0154026135894043e-05,
+      "loss": 0.2994,
+      "mean_token_accuracy": 0.9083474159240723,
+      "step": 960
+    },
+    {
+      "epoch": 2.070891514500537,
+      "grad_norm": 0.16680753647576305,
+      "learning_rate": 2.9944257775269686e-05,
+      "loss": 0.3046,
+      "mean_token_accuracy": 0.9070303261280059,
+      "step": 965
+    },
+    {
+      "epoch": 2.0816326530612246,
+      "grad_norm": 0.1557469947598615,
+      "learning_rate": 2.9734274199581857e-05,
+      "loss": 0.3028,
+      "mean_token_accuracy": 0.9075248777866364,
+      "step": 970
+    },
+    {
+      "epoch": 2.092373791621912,
+      "grad_norm": 0.15821336281763043,
+      "learning_rate": 2.9524093897726875e-05,
+      "loss": 0.2992,
+      "mean_token_accuracy": 0.9085965514183044,
+      "step": 975
+    },
+    {
+      "epoch": 2.1031149301825995,
+      "grad_norm": 0.16912179860419502,
+      "learning_rate": 2.931373537592264e-05,
+      "loss": 0.3059,
+      "mean_token_accuracy": 0.9063934266567231,
+      "step": 980
+    },
+    {
+      "epoch": 2.113856068743287,
+      "grad_norm": 0.1568909903521791,
+      "learning_rate": 2.9103217156079183e-05,
+      "loss": 0.3017,
+      "mean_token_accuracy": 0.9079225361347198,
+      "step": 985
+    },
+    {
+      "epoch": 2.124597207303974,
+      "grad_norm": 0.17149311680209844,
+      "learning_rate": 2.8892557774167843e-05,
+      "loss": 0.3023,
+      "mean_token_accuracy": 0.9075566232204437,
+      "step": 990
+    },
+    {
+      "epoch": 2.1353383458646618,
+      "grad_norm": 0.1730679539636109,
+      "learning_rate": 2.8681775778589164e-05,
+      "loss": 0.3031,
+      "mean_token_accuracy": 0.9074501514434814,
+      "step": 995
+    },
+    {
+      "epoch": 2.146079484425349,
+      "grad_norm": 0.168662599711155,
+      "learning_rate": 2.8470889728539725e-05,
+      "loss": 0.302,
+      "mean_token_accuracy": 0.9077127814292908,
+      "step": 1000
+    },
+    {
+      "epoch": 2.1568206229860367,
+      "grad_norm": 0.16226284047590997,
+      "learning_rate": 2.8259918192378038e-05,
+      "loss": 0.3041,
+      "mean_token_accuracy": 0.9070930540561676,
+      "step": 1005
+    },
+    {
+      "epoch": 2.167561761546724,
+      "grad_norm": 0.1576781128963043,
+      "learning_rate": 2.804887974598959e-05,
+      "loss": 0.3022,
+      "mean_token_accuracy": 0.907502681016922,
+      "step": 1010
+    },
+    {
+      "epoch": 2.1783029001074112,
+      "grad_norm": 0.15997962819428427,
+      "learning_rate": 2.7837792971151268e-05,
+      "loss": 0.3018,
+      "mean_token_accuracy": 0.9079727530479431,
+      "step": 1015
+    },
+    {
+      "epoch": 2.189044038668099,
+      "grad_norm": 0.16962861365112525,
+      "learning_rate": 2.7626676453895238e-05,
+      "loss": 0.3031,
+      "mean_token_accuracy": 0.9071884095668793,
+      "step": 1020
+    },
+    {
+      "epoch": 2.199785177228786,
+      "grad_norm": 0.16322576238996814,
+      "learning_rate": 2.7415548782872468e-05,
+      "loss": 0.3057,
+      "mean_token_accuracy": 0.9065694689750672,
+      "step": 1025
+    },
+    {
+      "epoch": 2.2105263157894735,
+      "grad_norm": 0.16909277271966566,
+      "learning_rate": 2.7204428547716027e-05,
+      "loss": 0.3052,
+      "mean_token_accuracy": 0.9069810092449189,
+      "step": 1030
+    },
+    {
+      "epoch": 2.221267454350161,
+      "grad_norm": 0.16098166127750824,
+      "learning_rate": 2.699333433740422e-05,
+      "loss": 0.3034,
+      "mean_token_accuracy": 0.907333254814148,
+      "step": 1035
+    },
+    {
+      "epoch": 2.2320085929108484,
+      "grad_norm": 0.17075220096927826,
+      "learning_rate": 2.678228473862391e-05,
+      "loss": 0.3059,
+      "mean_token_accuracy": 0.9066526055335998,
+      "step": 1040
+    },
+    {
+      "epoch": 2.242749731471536,
+      "grad_norm": 0.16370207033646628,
+      "learning_rate": 2.6571298334133947e-05,
+      "loss": 0.3049,
+      "mean_token_accuracy": 0.9068757057189941,
+      "step": 1045
+    },
+    {
+      "epoch": 2.2534908700322234,
+      "grad_norm": 0.1611010495321633,
+      "learning_rate": 2.6360393701128968e-05,
+      "loss": 0.3058,
+      "mean_token_accuracy": 0.9067712783813476,
+      "step": 1050
+    },
+    {
+      "epoch": 2.264232008592911,
+      "grad_norm": 0.16970228504955862,
+      "learning_rate": 2.614958940960369e-05,
+      "loss": 0.3052,
+      "mean_token_accuracy": 0.9068210601806641,
+      "step": 1055
+    },
+    {
+      "epoch": 2.2749731471535983,
+      "grad_norm": 0.1677663409783765,
+      "learning_rate": 2.593890402071784e-05,
+      "loss": 0.303,
+      "mean_token_accuracy": 0.9071888148784637,
+      "step": 1060
+    },
+    {
+      "epoch": 2.2857142857142856,
+      "grad_norm": 0.1594126722501793,
+      "learning_rate": 2.5728356085161864e-05,
+      "loss": 0.2979,
+      "mean_token_accuracy": 0.9088397026062012,
+      "step": 1065
+    },
+    {
+      "epoch": 2.2964554242749733,
+      "grad_norm": 0.15755295908932457,
+      "learning_rate": 2.5517964141523525e-05,
+      "loss": 0.3009,
+      "mean_token_accuracy": 0.9078912615776062,
+      "step": 1070
+    },
+    {
+      "epoch": 2.3071965628356605,
+      "grad_norm": 0.15824119025266686,
+      "learning_rate": 2.5307746714655634e-05,
+      "loss": 0.3065,
+      "mean_token_accuracy": 0.9067668735980987,
+      "step": 1075
+    },
+    {
+      "epoch": 2.317937701396348,
+      "grad_norm": 0.1593424773763769,
+      "learning_rate": 2.509772231404493e-05,
+      "loss": 0.3072,
+      "mean_token_accuracy": 0.9063262104988098,
+      "step": 1080
+    },
+    {
+      "epoch": 2.3286788399570355,
+      "grad_norm": 0.16745585583895234,
+      "learning_rate": 2.4887909432182316e-05,
+      "loss": 0.3205,
+      "mean_token_accuracy": 0.9050490736961365,
+      "step": 1085
+    },
+    {
+      "epoch": 2.3394199785177228,
+      "grad_norm": 0.18108073198198416,
+      "learning_rate": 2.4678326542934667e-05,
+      "loss": 0.3048,
+      "mean_token_accuracy": 0.9068881213665009,
+      "step": 1090
+    },
+    {
+      "epoch": 2.3501611170784105,
+      "grad_norm": 0.17241262713318053,
+      "learning_rate": 2.4468992099918138e-05,
+      "loss": 0.3032,
+      "mean_token_accuracy": 0.9073716223239898,
+      "step": 1095
+    },
+    {
+      "epoch": 2.3609022556390977,
+      "grad_norm": 0.16397300617763141,
+      "learning_rate": 2.4259924534873385e-05,
+      "loss": 0.3061,
+      "mean_token_accuracy": 0.9062675356864929,
+      "step": 1100
+    },
+    {
+      "epoch": 2.3716433941997854,
+      "grad_norm": 0.1700811614554712,
+      "learning_rate": 2.4051142256042697e-05,
+      "loss": 0.3011,
+      "mean_token_accuracy": 0.90796759724617,
+      "step": 1105
+    },
+    {
+      "epoch": 2.3823845327604727,
+      "grad_norm": 0.16924471517889025,
+      "learning_rate": 2.3842663646549085e-05,
+      "loss": 0.3025,
+      "mean_token_accuracy": 0.9076179921627044,
+      "step": 1110
+    },
+    {
+      "epoch": 2.39312567132116,
+      "grad_norm": 0.582746886765867,
+      "learning_rate": 2.3634507062777726e-05,
+      "loss": 0.3036,
+      "mean_token_accuracy": 0.9076011419296265,
+      "step": 1115
+    },
+    {
+      "epoch": 2.4038668098818476,
+      "grad_norm": 0.15789580559295846,
+      "learning_rate": 2.3426690832759652e-05,
+      "loss": 0.2997,
+      "mean_token_accuracy": 0.9084276914596557,
+      "step": 1120
+    },
+    {
+      "epoch": 2.414607948442535,
+      "grad_norm": 0.15924353242995867,
+      "learning_rate": 2.3219233254558025e-05,
+      "loss": 0.3029,
+      "mean_token_accuracy": 0.9074055433273316,
+      "step": 1125
+    },
+    {
+      "epoch": 2.425349087003222,
+      "grad_norm": 0.16646800963930639,
+      "learning_rate": 2.3012152594656982e-05,
+      "loss": 0.3043,
+      "mean_token_accuracy": 0.9070705771446228,
+      "step": 1130
+    },
+    {
+      "epoch": 2.43609022556391,
+      "grad_norm": 0.16197886055551655,
+      "learning_rate": 2.2805467086353268e-05,
+      "loss": 0.2983,
+      "mean_token_accuracy": 0.9087878286838531,
+      "step": 1135
+    },
+    {
+      "epoch": 2.446831364124597,
+      "grad_norm": 0.16381004501438137,
+      "learning_rate": 2.2599194928150842e-05,
+      "loss": 0.3037,
+      "mean_token_accuracy": 0.9073452115058899,
+      "step": 1140
+    },
+    {
+      "epoch": 2.457572502685285,
+      "grad_norm": 0.16540282102993875,
+      "learning_rate": 2.239335428215849e-05,
+      "loss": 0.3042,
+      "mean_token_accuracy": 0.9071446895599365,
+      "step": 1145
+    },
+    {
+      "epoch": 2.468313641245972,
+      "grad_norm": 0.16037824203377551,
+      "learning_rate": 2.2187963272490676e-05,
+      "loss": 0.3022,
+      "mean_token_accuracy": 0.9079298913478852,
+      "step": 1150
+    },
+    {
+      "epoch": 2.4790547798066593,
+      "grad_norm": 0.15882572997154093,
+      "learning_rate": 2.198303998367171e-05,
+      "loss": 0.3067,
+      "mean_token_accuracy": 0.9064932882785797,
+      "step": 1155
+    },
+    {
+      "epoch": 2.489795918367347,
+      "grad_norm": 0.15831447424850761,
+      "learning_rate": 2.1778602459043452e-05,
+      "loss": 0.3039,
+      "mean_token_accuracy": 0.9070046961307525,
+      "step": 1160
+    },
+    {
+      "epoch": 2.5005370569280343,
+      "grad_norm": 0.16081532493077333,
+      "learning_rate": 2.157466869917658e-05,
+      "loss": 0.3041,
+      "mean_token_accuracy": 0.9073209702968598,
+      "step": 1165
+    },
+    {
+      "epoch": 2.511278195488722,
+      "grad_norm": 0.15516248272553126,
+      "learning_rate": 2.1371256660285655e-05,
+      "loss": 0.3044,
+      "mean_token_accuracy": 0.9070526838302613,
+      "step": 1170
+    },
+    {
+      "epoch": 2.5220193340494093,
+      "grad_norm": 0.1587382733948704,
+      "learning_rate": 2.1168384252648117e-05,
+      "loss": 0.2999,
+      "mean_token_accuracy": 0.9086295425891876,
+      "step": 1175
+    },
+    {
+      "epoch": 2.5327604726100965,
+      "grad_norm": 0.15919430172381277,
+      "learning_rate": 2.0966069339027256e-05,
+      "loss": 0.3017,
+      "mean_token_accuracy": 0.9076282560825348,
+      "step": 1180
+    },
+    {
+      "epoch": 2.543501611170784,
+      "grad_norm": 0.1602383119084914,
+      "learning_rate": 2.0764329733099446e-05,
+      "loss": 0.2998,
+      "mean_token_accuracy": 0.9084926426410675,
+      "step": 1185
+    },
+    {
+      "epoch": 2.5542427497314715,
+      "grad_norm": 0.16156220155082493,
+      "learning_rate": 2.0563183197885653e-05,
+      "loss": 0.3068,
+      "mean_token_accuracy": 0.9063272118568421,
+      "step": 1190
+    },
+    {
+      "epoch": 2.5649838882921587,
+      "grad_norm": 0.15676424327787444,
+      "learning_rate": 2.03626474441874e-05,
+      "loss": 0.304,
+      "mean_token_accuracy": 0.9073390066623688,
+      "step": 1195
+    },
+    {
+      "epoch": 2.5757250268528464,
+      "grad_norm": 0.16064943066993936,
+      "learning_rate": 2.016274012902737e-05,
+      "loss": 0.3031,
+      "mean_token_accuracy": 0.9080215394496918,
+      "step": 1200
+    },
+    {
+      "epoch": 2.5864661654135337,
+      "grad_norm": 0.15163324815906554,
+      "learning_rate": 1.996347885409468e-05,
+      "loss": 0.2995,
+      "mean_token_accuracy": 0.9081439912319184,
+      "step": 1205
+    },
+    {
+      "epoch": 2.5972073039742214,
+      "grad_norm": 0.16245754277077917,
+      "learning_rate": 1.9764881164195113e-05,
+      "loss": 0.3015,
+      "mean_token_accuracy": 0.907852166891098,
+      "step": 1210
+    },
+    {
+      "epoch": 2.6079484425349087,
+      "grad_norm": 0.16043196872565563,
+      "learning_rate": 1.956696454570629e-05,
+      "loss": 0.3038,
+      "mean_token_accuracy": 0.9070708453655243,
+      "step": 1215
+    },
+    {
+      "epoch": 2.6186895810955964,
+      "grad_norm": 0.1518503511295408,
+      "learning_rate": 1.9369746425037983e-05,
+      "loss": 0.3031,
+      "mean_token_accuracy": 0.9073640763759613,
+      "step": 1220
+    },
+    {
+      "epoch": 2.6294307196562836,
+      "grad_norm": 0.16579054364092405,
+      "learning_rate": 1.9173244167097766e-05,
+      "loss": 0.3021,
+      "mean_token_accuracy": 0.9075863361358643,
+      "step": 1225
+    },
+    {
+      "epoch": 2.640171858216971,
+      "grad_norm": 0.16096483480946194,
+      "learning_rate": 1.8977475073762042e-05,
+      "loss": 0.3024,
+      "mean_token_accuracy": 0.907714718580246,
+      "step": 1230
+    },
+    {
+      "epoch": 2.6509129967776586,
+      "grad_norm": 0.16586554619371632,
+      "learning_rate": 1.878245638235262e-05,
+      "loss": 0.3032,
+      "mean_token_accuracy": 0.9077441573143006,
+      "step": 1235
+    },
+    {
+      "epoch": 2.661654135338346,
+      "grad_norm": 0.17145727431540336,
+      "learning_rate": 1.8588205264118974e-05,
+      "loss": 0.3007,
+      "mean_token_accuracy": 0.9080956459045411,
+      "step": 1240
+    },
+    {
+      "epoch": 2.672395273899033,
+      "grad_norm": 0.16247484247551466,
+      "learning_rate": 1.8394738822726337e-05,
+      "loss": 0.3078,
+      "mean_token_accuracy": 0.9063467800617218,
+      "step": 1245
+    },
+    {
+      "epoch": 2.683136412459721,
+      "grad_norm": 0.16303109945042918,
+      "learning_rate": 1.8202074092749754e-05,
+      "loss": 0.305,
+      "mean_token_accuracy": 0.9077015459537506,
+      "step": 1250
+    },
+    {
+      "epoch": 2.693877551020408,
+      "grad_norm": 0.15810829618004768,
+      "learning_rate": 1.8010228038174154e-05,
+      "loss": 0.3052,
+      "mean_token_accuracy": 0.9069934606552124,
+      "step": 1255
+    },
+    {
+      "epoch": 2.7046186895810957,
+      "grad_norm": 0.1572557171403785,
+      "learning_rate": 1.781921755090072e-05,
+      "loss": 0.3029,
+      "mean_token_accuracy": 0.9075438380241394,
+      "step": 1260
+    },
+    {
+      "epoch": 2.715359828141783,
+      "grad_norm": 0.15752257331645983,
+      "learning_rate": 1.7629059449259565e-05,
+      "loss": 0.2978,
+      "mean_token_accuracy": 0.9092587411403656,
+      "step": 1265
+    },
+    {
+      "epoch": 2.7261009667024707,
+      "grad_norm": 0.155952159894427,
+      "learning_rate": 1.7439770476528894e-05,
+      "loss": 0.3025,
+      "mean_token_accuracy": 0.9076742231845856,
+      "step": 1270
+    },
+    {
+      "epoch": 2.736842105263158,
+      "grad_norm": 0.1578844927904049,
+      "learning_rate": 1.7251367299460735e-05,
+      "loss": 0.3043,
+      "mean_token_accuracy": 0.9071321785449982,
+      "step": 1275
+    },
+    {
+      "epoch": 2.7475832438238452,
+      "grad_norm": 0.15643506287974016,
+      "learning_rate": 1.7063866506813515e-05,
+      "loss": 0.3014,
+      "mean_token_accuracy": 0.9080881893634796,
+      "step": 1280
+    },
+    {
+      "epoch": 2.758324382384533,
+      "grad_norm": 0.16188588270959753,
+      "learning_rate": 1.687728460789136e-05,
+      "loss": 0.3029,
+      "mean_token_accuracy": 0.9077995300292969,
+      "step": 1285
+    },
+    {
+      "epoch": 2.76906552094522,
+      "grad_norm": 0.15914290923730717,
+      "learning_rate": 1.669163803109049e-05,
+      "loss": 0.3039,
+      "mean_token_accuracy": 0.9069546043872834,
+      "step": 1290
+    },
+    {
+      "epoch": 2.7798066595059074,
+      "grad_norm": 0.1531939594797534,
+      "learning_rate": 1.650694312245272e-05,
+      "loss": 0.301,
+      "mean_token_accuracy": 0.9082088112831116,
+      "step": 1295
+    },
+    {
+      "epoch": 2.790547798066595,
+      "grad_norm": 0.14781879067353518,
+      "learning_rate": 1.6323216144226218e-05,
+      "loss": 0.3006,
+      "mean_token_accuracy": 0.9082107961177825,
+      "step": 1300
+    },
+    {
+      "epoch": 2.8012889366272824,
+      "grad_norm": 0.15796491533044651,
+      "learning_rate": 1.614047327343358e-05,
+      "loss": 0.3037,
+      "mean_token_accuracy": 0.9073608994483948,
+      "step": 1305
+    },
+    {
+      "epoch": 2.8120300751879697,
+      "grad_norm": 0.15342589995319128,
+      "learning_rate": 1.5958730600447483e-05,
+      "loss": 0.2982,
+      "mean_token_accuracy": 0.9089851617813111,
+      "step": 1310
+    },
+    {
+      "epoch": 2.8227712137486574,
+      "grad_norm": 0.15213716012041018,
+      "learning_rate": 1.5778004127573954e-05,
+      "loss": 0.3018,
+      "mean_token_accuracy": 0.9082035005092621,
+      "step": 1315
+    },
+    {
+      "epoch": 2.833512352309345,
+      "grad_norm": 0.15689344716817114,
+      "learning_rate": 1.5598309767643355e-05,
+      "loss": 0.3015,
+      "mean_token_accuracy": 0.9079676389694213,
+      "step": 1320
+    },
+    {
+      "epoch": 2.8442534908700323,
+      "grad_norm": 0.15560793520372218,
+      "learning_rate": 1.5419663342609245e-05,
+      "loss": 0.301,
+      "mean_token_accuracy": 0.9079644203186035,
+      "step": 1325
+    },
+    {
+      "epoch": 2.8549946294307196,
+      "grad_norm": 0.15762229912652725,
+      "learning_rate": 1.524208058215536e-05,
+      "loss": 0.3004,
+      "mean_token_accuracy": 0.9081010043621063,
+      "step": 1330
+    },
+    {
+      "epoch": 2.8657357679914073,
+      "grad_norm": 0.1492296564674764,
+      "learning_rate": 1.5065577122310532e-05,
+      "loss": 0.3038,
+      "mean_token_accuracy": 0.9071996510028839,
+      "step": 1335
+    },
+    {
+      "epoch": 2.8764769065520945,
+      "grad_norm": 0.15341782949091415,
+      "learning_rate": 1.4890168504071986e-05,
+      "loss": 0.3013,
+      "mean_token_accuracy": 0.9081071972846985,
+      "step": 1340
+    },
+    {
+      "epoch": 2.887218045112782,
+      "grad_norm": 0.15319646472290932,
+      "learning_rate": 1.4715870172036961e-05,
+      "loss": 0.2985,
+      "mean_token_accuracy": 0.9089631140232086,
+      "step": 1345
+    },
+    {
+      "epoch": 2.8979591836734695,
+      "grad_norm": 0.155104806503441,
+      "learning_rate": 1.4542697473042855e-05,
+      "loss": 0.3015,
+      "mean_token_accuracy": 0.9081062614917755,
+      "step": 1350
+    },
+    {
+      "epoch": 2.9087003222341568,
+      "grad_norm": 0.14997293337059112,
+      "learning_rate": 1.4370665654815896e-05,
+      "loss": 0.3016,
+      "mean_token_accuracy": 0.9077993631362915,
+      "step": 1355
+    },
+    {
+      "epoch": 2.919441460794844,
+      "grad_norm": 0.15836235770159765,
+      "learning_rate": 1.4199789864628612e-05,
+      "loss": 0.3025,
+      "mean_token_accuracy": 0.9076350510120392,
+      "step": 1360
+    },
+    {
+      "epoch": 2.9301825993555317,
+      "grad_norm": 0.15239559171871817,
+      "learning_rate": 1.403008514796616e-05,
+      "loss": 0.3002,
+      "mean_token_accuracy": 0.9083379149436951,
+      "step": 1365
+    },
+    {
+      "epoch": 2.940923737916219,
+      "grad_norm": 0.15596273472793287,
+      "learning_rate": 1.3861566447201524e-05,
+      "loss": 0.2989,
+      "mean_token_accuracy": 0.9084150791168213,
+      "step": 1370
+    },
+    {
+      "epoch": 2.9516648764769067,
+      "grad_norm": 0.15225411451673648,
+      "learning_rate": 1.3694248600279886e-05,
+      "loss": 0.3002,
+      "mean_token_accuracy": 0.9083608329296112,
+      "step": 1375
+    },
+    {
+      "epoch": 2.962406015037594,
+      "grad_norm": 0.15301962057571455,
+      "learning_rate": 1.3528146339412146e-05,
+      "loss": 0.3021,
+      "mean_token_accuracy": 0.9078640341758728,
+      "step": 1380
+    },
+    {
+      "epoch": 2.9731471535982816,
+      "grad_norm": 0.15353042988029672,
+      "learning_rate": 1.3363274289777773e-05,
+      "loss": 0.2992,
+      "mean_token_accuracy": 0.9084159135818481,
+      "step": 1385
+    },
+    {
+      "epoch": 2.983888292158969,
+      "grad_norm": 0.1565397591962354,
+      "learning_rate": 1.3199646968237039e-05,
+      "loss": 0.3019,
+      "mean_token_accuracy": 0.9077640831470489,
+      "step": 1390
+    },
+    {
+      "epoch": 2.994629430719656,
+      "grad_norm": 0.15512948456888964,
+      "learning_rate": 1.3037278782052863e-05,
+      "loss": 0.301,
+      "mean_token_accuracy": 0.908068060874939,
+      "step": 1395
+    },
+    {
+      "epoch": 3.004296455424275,
+      "grad_norm": 0.17611687143689977,
+      "learning_rate": 1.2876184027622246e-05,
+      "loss": 0.2837,
+      "mean_token_accuracy": 0.9126578701866997,
+      "step": 1400
+    },
+    {
+      "epoch": 3.0150375939849625,
+      "grad_norm": 0.23111560237426948,
+      "learning_rate": 1.2716376889217446e-05,
+      "loss": 0.2617,
+      "mean_token_accuracy": 0.9192156255245209,
+      "step": 1405
+    },
+    {
+      "epoch": 3.0257787325456498,
+      "grad_norm": 0.18975174760198046,
+      "learning_rate": 1.2557871437737118e-05,
+      "loss": 0.2613,
+      "mean_token_accuracy": 0.9190598428249359,
+      "step": 1410
+    },
+    {
+      "epoch": 3.0365198711063375,
+      "grad_norm": 0.17890147872689252,
+      "learning_rate": 1.240068162946737e-05,
+      "loss": 0.2584,
+      "mean_token_accuracy": 0.91984983086586,
+      "step": 1415
+    },
+    {
+      "epoch": 3.0472610096670247,
+      "grad_norm": 0.17315801700410546,
+      "learning_rate": 1.2244821304852888e-05,
+      "loss": 0.2557,
+      "mean_token_accuracy": 0.9208986639976502,
+      "step": 1420
+    },
+    {
+      "epoch": 3.058002148227712,
+      "grad_norm": 0.18517285000872677,
+      "learning_rate": 1.2090304187278333e-05,
+      "loss": 0.2604,
+      "mean_token_accuracy": 0.9195366144180298,
+      "step": 1425
+    },
+    {
+      "epoch": 3.0687432867883997,
+      "grad_norm": 0.16562595080311196,
+      "learning_rate": 1.1937143881859981e-05,
+      "loss": 0.2577,
+      "mean_token_accuracy": 0.9203976690769196,
+      "step": 1430
+    },
+    {
+      "epoch": 3.079484425349087,
+      "grad_norm": 0.17393143558685065,
+      "learning_rate": 1.178535387424785e-05,
+      "loss": 0.2574,
+      "mean_token_accuracy": 0.9199799060821533,
+      "step": 1435
+    },
+    {
+      "epoch": 3.090225563909774,
+      "grad_norm": 0.1645998735975408,
+      "learning_rate": 1.163494752943822e-05,
+      "loss": 0.2568,
+      "mean_token_accuracy": 0.9204827189445496,
+      "step": 1440
+    },
+    {
+      "epoch": 3.100966702470462,
+      "grad_norm": 0.16887936249293273,
+      "learning_rate": 1.1485938090596918e-05,
+      "loss": 0.2586,
+      "mean_token_accuracy": 0.9197791635990142,
+      "step": 1445
+    },
+    {
+      "epoch": 3.111707841031149,
+      "grad_norm": 0.17416795475633623,
+      "learning_rate": 1.1338338677893261e-05,
+      "loss": 0.2584,
+      "mean_token_accuracy": 0.9200873076915741,
+      "step": 1450
+    },
+    {
+      "epoch": 3.122448979591837,
+      "grad_norm": 0.1751550798568952,
+      "learning_rate": 1.1192162287344806e-05,
+      "loss": 0.2584,
+      "mean_token_accuracy": 0.919762271642685,
+      "step": 1455
+    },
+    {
+      "epoch": 3.133190118152524,
+      "grad_norm": 0.17592907174451083,
+      "learning_rate": 1.1047421789673082e-05,
+      "loss": 0.2597,
+      "mean_token_accuracy": 0.9195389747619629,
+      "step": 1460
+    },
+    {
+      "epoch": 3.143931256713212,
+      "grad_norm": 0.17327426676281532,
+      "learning_rate": 1.0904129929170317e-05,
+      "loss": 0.2556,
+      "mean_token_accuracy": 0.9207349836826324,
+      "step": 1465
+    },
+    {
+      "epoch": 3.154672395273899,
+      "grad_norm": 0.17320030271762202,
+      "learning_rate": 1.0762299322577352e-05,
+      "loss": 0.2573,
+      "mean_token_accuracy": 0.9203036367893219,
+      "step": 1470
+    },
+    {
+      "epoch": 3.1654135338345863,
+      "grad_norm": 0.1722311431748818,
+      "learning_rate": 1.0621942457972692e-05,
+      "loss": 0.26,
+      "mean_token_accuracy": 0.9195259928703308,
+      "step": 1475
+    },
+    {
+      "epoch": 3.176154672395274,
+      "grad_norm": 0.17238717747260024,
+      "learning_rate": 1.0483071693672959e-05,
+      "loss": 0.2556,
+      "mean_token_accuracy": 0.9209478557109833,
+      "step": 1480
+    },
+    {
+      "epoch": 3.1868958109559613,
+      "grad_norm": 0.17188960001484813,
+      "learning_rate": 1.0345699257144787e-05,
+      "loss": 0.2599,
+      "mean_token_accuracy": 0.9196560025215149,
+      "step": 1485
+    },
+    {
+      "epoch": 3.1976369495166486,
+      "grad_norm": 0.16939046145995434,
+      "learning_rate": 1.0209837243928163e-05,
+      "loss": 0.2569,
+      "mean_token_accuracy": 0.9202696919441223,
+      "step": 1490
+    },
+    {
+      "epoch": 3.2083780880773363,
+      "grad_norm": 0.1643698296522669,
+      "learning_rate": 1.0075497616571402e-05,
+      "loss": 0.2613,
+      "mean_token_accuracy": 0.9193197846412658,
+      "step": 1495
+    },
+    {
+      "epoch": 3.2191192266380235,
+      "grad_norm": 0.17523553700537306,
+      "learning_rate": 9.942692203577937e-06,
+      "loss": 0.2617,
+      "mean_token_accuracy": 0.9192265450954438,
+      "step": 1500
+    },
+    {
+      "epoch": 3.2298603651987112,
+      "grad_norm": 0.17674127090736955,
+      "learning_rate": 9.811432698364748e-06,
+      "loss": 0.2611,
+      "mean_token_accuracy": 0.9191824972629548,
+      "step": 1505
+    },
+    {
+      "epoch": 3.2406015037593985,
+      "grad_norm": 0.17789280108349984,
+      "learning_rate": 9.681730658232796e-06,
+      "loss": 0.2631,
+      "mean_token_accuracy": 0.9186322450637817,
+      "step": 1510
+    },
+    {
+      "epoch": 3.2513426423200857,
+      "grad_norm": 0.17266428476273013,
+      "learning_rate": 9.553597503349415e-06,
+      "loss": 0.2582,
+      "mean_token_accuracy": 0.9197676658630372,
+      "step": 1515
+    },
+    {
+      "epoch": 3.2620837808807734,
+      "grad_norm": 0.1756023449894313,
+      "learning_rate": 9.427044515742773e-06,
+      "loss": 0.2583,
+      "mean_token_accuracy": 0.9203043103218078,
+      "step": 1520
+    },
+    {
+      "epoch": 3.2728249194414607,
+      "grad_norm": 0.1705185261901335,
+      "learning_rate": 9.302082838308494e-06,
+      "loss": 0.2588,
+      "mean_token_accuracy": 0.9197465479373932,
+      "step": 1525
+    },
+    {
+      "epoch": 3.2835660580021484,
+      "grad_norm": 0.1863220207081355,
+      "learning_rate": 9.178723473828517e-06,
+      "loss": 0.2592,
+      "mean_token_accuracy": 0.919755893945694,
+      "step": 1530
+    },
+    {
+      "epoch": 3.2943071965628357,
+      "grad_norm": 0.18144578655920904,
+      "learning_rate": 9.05697728400236e-06,
+      "loss": 0.2588,
+      "mean_token_accuracy": 0.9201307475566864,
+      "step": 1535
+    },
+    {
+      "epoch": 3.305048335123523,
+      "grad_norm": 0.17313846247861978,
+      "learning_rate": 8.936854988490695e-06,
+      "loss": 0.2627,
+      "mean_token_accuracy": 0.9188291728496552,
+      "step": 1540
+    },
+    {
+      "epoch": 3.3157894736842106,
+      "grad_norm": 0.1801914802446693,
+      "learning_rate": 8.818367163971535e-06,
+      "loss": 0.2557,
+      "mean_token_accuracy": 0.9207710027694702,
+      "step": 1545
+    },
+    {
+      "epoch": 3.326530612244898,
+      "grad_norm": 0.16994847146506772,
+      "learning_rate": 8.701524243208935e-06,
+      "loss": 0.2598,
+      "mean_token_accuracy": 0.9194996774196624,
+      "step": 1550
+    },
+    {
+      "epoch": 3.3372717508055856,
+      "grad_norm": 0.16955583517854705,
+      "learning_rate": 8.586336514134416e-06,
+      "loss": 0.2566,
+      "mean_token_accuracy": 0.9205721557140351,
+      "step": 1555
+    },
+    {
+      "epoch": 3.348012889366273,
+      "grad_norm": 0.17107585176009693,
+      "learning_rate": 8.472814118941111e-06,
+      "loss": 0.2594,
+      "mean_token_accuracy": 0.9197823405265808,
+      "step": 1560
+    },
+    {
+      "epoch": 3.35875402792696,
+      "grad_norm": 0.17753792836827956,
+      "learning_rate": 8.360967053190748e-06,
+      "loss": 0.2595,
+      "mean_token_accuracy": 0.9195821940898895,
+      "step": 1565
+    },
+    {
+      "epoch": 3.369495166487648,
+      "grad_norm": 0.1663276449550015,
+      "learning_rate": 8.250805164933576e-06,
+      "loss": 0.2576,
+      "mean_token_accuracy": 0.9204757869243622,
+      "step": 1570
+    },
+    {
+      "epoch": 3.380236305048335,
+      "grad_norm": 0.1727926922684143,
+      "learning_rate": 8.142338153841204e-06,
+      "loss": 0.2613,
+      "mean_token_accuracy": 0.9192953467369079,
+      "step": 1575
+    },
+    {
+      "epoch": 3.3909774436090228,
+      "grad_norm": 0.16245992891648223,
+      "learning_rate": 8.035575570352586e-06,
+      "loss": 0.2603,
+      "mean_token_accuracy": 0.9196378767490387,
+      "step": 1580
+    },
+    {
+      "epoch": 3.40171858216971,
+      "grad_norm": 0.1728382431801045,
+      "learning_rate": 7.930526814833114e-06,
+      "loss": 0.2642,
+      "mean_token_accuracy": 0.9182481050491333,
+      "step": 1585
+    },
+    {
+      "epoch": 3.4124597207303973,
+      "grad_norm": 0.17059237401574356,
+      "learning_rate": 7.827201136746903e-06,
+      "loss": 0.2608,
+      "mean_token_accuracy": 0.9196362137794495,
+      "step": 1590
+    },
+    {
+      "epoch": 3.423200859291085,
+      "grad_norm": 0.17006814998266018,
+      "learning_rate": 7.725607633842397e-06,
+      "loss": 0.262,
+      "mean_token_accuracy": 0.9188037991523743,
+      "step": 1595
+    },
+    {
+      "epoch": 3.4339419978517722,
+      "grad_norm": 0.17763939677962118,
+      "learning_rate": 7.625755251351302e-06,
+      "loss": 0.2571,
+      "mean_token_accuracy": 0.92064950466156,
+      "step": 1600
+    },
+    {
+      "epoch": 3.4446831364124595,
+      "grad_norm": 0.16880550111530884,
+      "learning_rate": 7.52765278120101e-06,
+      "loss": 0.2619,
+      "mean_token_accuracy": 0.919091010093689,
+      "step": 1605
+    },
+    {
+      "epoch": 3.455424274973147,
+      "grad_norm": 0.17470127038229266,
+      "learning_rate": 7.431308861240405e-06,
+      "loss": 0.2611,
+      "mean_token_accuracy": 0.9194313704967498,
+      "step": 1610
+    },
+    {
+      "epoch": 3.4661654135338344,
+      "grad_norm": 0.18361814009538877,
+      "learning_rate": 7.336731974479366e-06,
+      "loss": 0.2606,
+      "mean_token_accuracy": 0.9194453060626984,
+      "step": 1615
+    },
+    {
+      "epoch": 3.476906552094522,
+      "grad_norm": 0.16896194278522544,
+      "learning_rate": 7.2439304483418275e-06,
+      "loss": 0.2567,
+      "mean_token_accuracy": 0.9206092417240143,
+      "step": 1620
+    },
+    {
+      "epoch": 3.4876476906552094,
+      "grad_norm": 0.16668518571688956,
+      "learning_rate": 7.152912453932546e-06,
+      "loss": 0.2595,
+      "mean_token_accuracy": 0.9194850385189056,
+      "step": 1625
+    },
+    {
+      "epoch": 3.498388829215897,
+      "grad_norm": 0.17386165770379072,
+      "learning_rate": 7.063686005317651e-06,
+      "loss": 0.2579,
+      "mean_token_accuracy": 0.9201728105545044,
+      "step": 1630
+    },
+    {
+      "epoch": 3.5091299677765844,
+      "grad_norm": 0.17090370338380814,
+      "learning_rate": 6.976258958819e-06,
+      "loss": 0.2583,
+      "mean_token_accuracy": 0.9202900052070617,
+      "step": 1635
+    },
+    {
+      "epoch": 3.5198711063372716,
+      "grad_norm": 0.1670190265056932,
+      "learning_rate": 6.890639012322459e-06,
+      "loss": 0.2547,
+      "mean_token_accuracy": 0.9211665093898773,
+      "step": 1640
+    },
+    {
+      "epoch": 3.5306122448979593,
+      "grad_norm": 0.17315381341418587,
+      "learning_rate": 6.806833704600082e-06,
+      "loss": 0.2561,
+      "mean_token_accuracy": 0.9206245243549347,
+      "step": 1645
+    },
+    {
+      "epoch": 3.5413533834586466,
+      "grad_norm": 0.17367639326439366,
+      "learning_rate": 6.724850414646344e-06,
+      "loss": 0.2554,
+      "mean_token_accuracy": 0.9209690392017365,
+      "step": 1650
+    },
+    {
+      "epoch": 3.552094522019334,
+      "grad_norm": 0.18356634723924625,
+      "learning_rate": 6.644696361028427e-06,
+      "loss": 0.2546,
+      "mean_token_accuracy": 0.9211890578269959,
+      "step": 1655
+    },
+    {
+      "epoch": 3.5628356605800215,
+      "grad_norm": 0.1686096868472299,
+      "learning_rate": 6.566378601250625e-06,
+      "loss": 0.258,
+      "mean_token_accuracy": 0.9201010644435883,
+      "step": 1660
+    },
+    {
+      "epoch": 3.573576799140709,
+      "grad_norm": 0.17097492830249045,
+      "learning_rate": 6.489904031132919e-06,
+      "loss": 0.2573,
+      "mean_token_accuracy": 0.9203424453735352,
+      "step": 1665
+    },
+    {
+      "epoch": 3.5843179377013965,
+      "grad_norm": 0.1708922574820426,
+      "learning_rate": 6.415279384203853e-06,
+      "loss": 0.2573,
+      "mean_token_accuracy": 0.9202109038829803,
+      "step": 1670
+    },
+    {
+      "epoch": 3.5950590762620838,
+      "grad_norm": 0.1772280034240442,
+      "learning_rate": 6.3425112311075965e-06,
+      "loss": 0.2563,
+      "mean_token_accuracy": 0.9204185366630554,
+      "step": 1675
+    },
+    {
+      "epoch": 3.6058002148227715,
+      "grad_norm": 0.17186880847864094,
+      "learning_rate": 6.271605979025448e-06,
+      "loss": 0.2555,
+      "mean_token_accuracy": 0.9206036269664765,
+      "step": 1680
+    },
+    {
+      "epoch": 3.6165413533834587,
+      "grad_norm": 0.16731807378864566,
+      "learning_rate": 6.2025698711116535e-06,
+      "loss": 0.2565,
+      "mean_token_accuracy": 0.9205489337444306,
+      "step": 1685
+    },
+    {
+      "epoch": 3.627282491944146,
+      "grad_norm": 0.17180713091530317,
+      "learning_rate": 6.135408985943734e-06,
+      "loss": 0.2573,
+      "mean_token_accuracy": 0.9204003512859344,
+      "step": 1690
+    },
+    {
+      "epoch": 3.6380236305048337,
+      "grad_norm": 0.1761977177776313,
+      "learning_rate": 6.07012923698724e-06,
+      "loss": 0.2587,
+      "mean_token_accuracy": 0.9196424603462219,
+      "step": 1695
+    },
+    {
+      "epoch": 3.648764769065521,
+      "grad_norm": 0.17221380858566646,
+      "learning_rate": 6.006736372075093e-06,
+      "loss": 0.2579,
+      "mean_token_accuracy": 0.9200917899608612,
+      "step": 1700
+    },
+    {
+      "epoch": 3.659505907626208,
+      "grad_norm": 0.16805608384415285,
+      "learning_rate": 5.9452359729015004e-06,
+      "loss": 0.2573,
+      "mean_token_accuracy": 0.9203401625156402,
+      "step": 1705
+    },
+    {
+      "epoch": 3.670247046186896,
+      "grad_norm": 0.1736765217184823,
+      "learning_rate": 5.8856334545304676e-06,
+      "loss": 0.2574,
+      "mean_token_accuracy": 0.9203644514083862,
+      "step": 1710
+    },
+    {
+      "epoch": 3.680988184747583,
+      "grad_norm": 0.1726788133620247,
+      "learning_rate": 5.8279340649190244e-06,
+      "loss": 0.2611,
+      "mean_token_accuracy": 0.9194235980510712,
+      "step": 1715
+    },
+    {
+      "epoch": 3.6917293233082704,
+      "grad_norm": 0.16707078529197217,
+      "learning_rate": 5.7721428844551425e-06,
+      "loss": 0.2611,
+      "mean_token_accuracy": 0.9193582713603974,
+      "step": 1720
+    },
+    {
+      "epoch": 3.702470461868958,
+      "grad_norm": 0.17182290992101512,
+      "learning_rate": 5.7182648255104065e-06,
+      "loss": 0.2596,
+      "mean_token_accuracy": 0.9196705460548401,
+      "step": 1725
+    },
+    {
+      "epoch": 3.7132116004296454,
+      "grad_norm": 0.17419790279430714,
+      "learning_rate": 5.666304632007487e-06,
+      "loss": 0.2595,
+      "mean_token_accuracy": 0.9197326540946961,
+      "step": 1730
+    },
+    {
+      "epoch": 3.723952738990333,
+      "grad_norm": 0.18041100180688655,
+      "learning_rate": 5.616266879002444e-06,
+      "loss": 0.2575,
+      "mean_token_accuracy": 0.9202880382537841,
+      "step": 1735
+    },
+    {
+      "epoch": 3.7346938775510203,
+      "grad_norm": 0.16636878690891047,
+      "learning_rate": 5.568155972281892e-06,
+      "loss": 0.2582,
+      "mean_token_accuracy": 0.9199542105197906,
+      "step": 1740
+    },
+    {
+      "epoch": 3.745435016111708,
+      "grad_norm": 0.17005943549418737,
+      "learning_rate": 5.521976147975078e-06,
+      "loss": 0.2575,
+      "mean_token_accuracy": 0.9207047700881958,
+      "step": 1745
+    },
+    {
+      "epoch": 3.7561761546723953,
+      "grad_norm": 0.17142683208534373,
+      "learning_rate": 5.477731472180884e-06,
+      "loss": 0.2578,
+      "mean_token_accuracy": 0.9200609147548675,
+      "step": 1750
+    },
+    {
+      "epoch": 3.7669172932330826,
+      "grad_norm": 0.19597039412044637,
+      "learning_rate": 5.4354258406098275e-06,
+      "loss": 0.2605,
+      "mean_token_accuracy": 0.9196163058280945,
+      "step": 1755
+    },
+    {
+      "epoch": 3.7776584317937703,
+      "grad_norm": 0.1891144335762954,
+      "learning_rate": 5.395062978241028e-06,
+      "loss": 0.256,
+      "mean_token_accuracy": 0.9203970789909363,
+      "step": 1760
+    },
+    {
+      "epoch": 3.7883995703544575,
+      "grad_norm": 0.1734382570098929,
+      "learning_rate": 5.356646438994236e-06,
+      "loss": 0.2562,
+      "mean_token_accuracy": 0.9206745564937592,
+      "step": 1765
+    },
+    {
+      "epoch": 3.7991407089151448,
+      "grad_norm": 0.167509733493585,
+      "learning_rate": 5.3201796054169155e-06,
+      "loss": 0.2587,
+      "mean_token_accuracy": 0.919745409488678,
+      "step": 1770
+    },
+    {
+      "epoch": 3.8098818474758325,
+      "grad_norm": 0.1758205628466223,
+      "learning_rate": 5.285665688386408e-06,
+      "loss": 0.2554,
+      "mean_token_accuracy": 0.9208223819732666,
+      "step": 1775
+    },
+    {
+      "epoch": 3.8206229860365197,
+      "grad_norm": 0.16934855068248722,
+      "learning_rate": 5.253107726827213e-06,
+      "loss": 0.2553,
+      "mean_token_accuracy": 0.9208275616168976,
+      "step": 1780
+    },
+    {
+      "epoch": 3.8313641245972074,
+      "grad_norm": 0.17212203700590173,
+      "learning_rate": 5.222508587443419e-06,
+      "loss": 0.2558,
+      "mean_token_accuracy": 0.9208298087120056,
+      "step": 1785
+    },
+    {
+      "epoch": 3.8421052631578947,
+      "grad_norm": 0.17351309384632746,
+      "learning_rate": 5.193870964466299e-06,
+      "loss": 0.2572,
+      "mean_token_accuracy": 0.9206307530403137,
+      "step": 1790
+    },
+    {
+      "epoch": 3.8528464017185824,
+      "grad_norm": 0.17423994454268188,
+      "learning_rate": 5.167197379417072e-06,
+      "loss": 0.2563,
+      "mean_token_accuracy": 0.9204454243183136,
+      "step": 1795
+    },
+    {
+      "epoch": 3.8635875402792696,
+      "grad_norm": 0.17091404042612268,
+      "learning_rate": 5.142490180884889e-06,
+      "loss": 0.2566,
+      "mean_token_accuracy": 0.920625650882721,
+      "step": 1800
+    },
+    {
+      "epoch": 3.874328678839957,
+      "grad_norm": 0.17402338382213903,
+      "learning_rate": 5.119751544320045e-06,
+      "loss": 0.2548,
+      "mean_token_accuracy": 0.9212319254875183,
+      "step": 1805
+    },
+    {
+      "epoch": 3.8850698174006446,
+      "grad_norm": 0.17785847377734187,
+      "learning_rate": 5.098983471842435e-06,
+      "loss": 0.2582,
+      "mean_token_accuracy": 0.9204130828380584,
+      "step": 1810
+    },
+    {
+      "epoch": 3.895810955961332,
+      "grad_norm": 0.17476387276762337,
+      "learning_rate": 5.080187792065258e-06,
+      "loss": 0.2576,
+      "mean_token_accuracy": 0.9203925788402557,
+      "step": 1815
+    },
+    {
+      "epoch": 3.906552094522019,
+      "grad_norm": 0.17401606856867693,
+      "learning_rate": 5.063366159934019e-06,
+      "loss": 0.257,
+      "mean_token_accuracy": 0.9207073092460633,
+      "step": 1820
+    },
+    {
+      "epoch": 3.917293233082707,
+      "grad_norm": 0.1709751716211779,
+      "learning_rate": 5.04852005658081e-06,
+      "loss": 0.2567,
+      "mean_token_accuracy": 0.9206726491451264,
+      "step": 1825
+    },
+    {
+      "epoch": 3.928034371643394,
+      "grad_norm": 0.17944667291264363,
+      "learning_rate": 5.035650789193893e-06,
+      "loss": 0.2583,
+      "mean_token_accuracy": 0.919947350025177,
+      "step": 1830
+    },
+    {
+      "epoch": 3.938775510204082,
+      "grad_norm": 0.17075839857976619,
+      "learning_rate": 5.024759490902604e-06,
+      "loss": 0.2606,
+      "mean_token_accuracy": 0.9192731857299805,
+      "step": 1835
+    },
+    {
+      "epoch": 3.949516648764769,
+      "grad_norm": 0.1725574446830871,
+      "learning_rate": 5.015847120677588e-06,
+      "loss": 0.2585,
+      "mean_token_accuracy": 0.9199050843715668,
+      "step": 1840
+    },
+    {
+      "epoch": 3.9602577873254567,
+      "grad_norm": 0.17546758649223276,
+      "learning_rate": 5.008914463246362e-06,
+      "loss": 0.2586,
+      "mean_token_accuracy": 0.920122253894806,
+      "step": 1845
+    },
+    {
+      "epoch": 3.970998925886144,
+      "grad_norm": 0.16820021081330186,
+      "learning_rate": 5.0039621290242065e-06,
+      "loss": 0.2583,
+      "mean_token_accuracy": 0.9200729191303253,
+      "step": 1850
+    },
+    {
+      "epoch": 3.9817400644468313,
+      "grad_norm": 0.17517771341096255,
+      "learning_rate": 5.000990554060436e-06,
+      "loss": 0.2604,
+      "mean_token_accuracy": 0.9193271338939667,
+      "step": 1855
+    },
+    {
+      "epoch": 3.992481203007519,
+      "grad_norm": 0.17294557291581655,
+      "learning_rate": 5e-06,
+      "loss": 0.2556,
+      "mean_token_accuracy": 0.920825207233429,
+      "step": 1860
+    },
+    {
+      "epoch": 3.992481203007519,
+      "step": 1860,
+      "total_flos": 966947082862592.0,
+      "train_loss": 0.34282420668550717,
+      "train_runtime": 10626.5662,
+      "train_samples_per_second": 2.802,
+      "train_steps_per_second": 0.175
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1860,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 966947082862592.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}