huggingCode11 commited on Mar 8

Commit

d7a9a0d

verified ·

1 Parent(s): 4e0eb60

Upload 36 files

Browse files

Files changed (36) hide show

llava1_6-vicuna-7b-instruct/README.md +202 -0
llava1_6-vicuna-7b-instruct/adapter_config.json +26 -0
llava1_6-vicuna-7b-instruct/adapter_model.safetensors +3 -0
llava1_6-vicuna-7b-instruct/additional_config.json +1 -0
llava1_6-vicuna-7b-instruct/configuration.json +11 -0
llava1_6-vicuna-7b-instruct/generation_config.json +7 -0
llava1_6-vicuna-7b-instruct/optimizer.pt +3 -0
llava1_6-vicuna-7b-instruct/rng_state.pth +3 -0
llava1_6-vicuna-7b-instruct/scheduler.pt +3 -0
llava1_6-vicuna-7b-instruct/sft_args.json +247 -0
llava1_6-vicuna-7b-instruct/trainer_state.json +1084 -0
llava1_6-vicuna-7b-instruct/training_args.bin +3 -0
minicpm-v-v2_6-chat/README.md +202 -0
minicpm-v-v2_6-chat/adapter_config.json +26 -0
minicpm-v-v2_6-chat/adapter_model.safetensors +3 -0
minicpm-v-v2_6-chat/additional_config.json +1 -0
minicpm-v-v2_6-chat/configuration.json +13 -0
minicpm-v-v2_6-chat/generation_config.json +7 -0
minicpm-v-v2_6-chat/optimizer.pt +3 -0
minicpm-v-v2_6-chat/rng_state.pth +3 -0
minicpm-v-v2_6-chat/scheduler.pt +3 -0
minicpm-v-v2_6-chat/sft_args.json +247 -0
minicpm-v-v2_6-chat/trainer_state.json +1202 -0
minicpm-v-v2_6-chat/training_args.bin +3 -0
qwen2-vl-7b-instruct/README.md +202 -0
qwen2-vl-7b-instruct/adapter_config.json +26 -0
qwen2-vl-7b-instruct/adapter_model.safetensors +3 -0
qwen2-vl-7b-instruct/additional_config.json +1 -0
qwen2-vl-7b-instruct/configuration.json +14 -0
qwen2-vl-7b-instruct/generation_config.json +11 -0
qwen2-vl-7b-instruct/optimizer.pt +3 -0
qwen2-vl-7b-instruct/rng_state.pth +3 -0
qwen2-vl-7b-instruct/scheduler.pt +3 -0
qwen2-vl-7b-instruct/sft_args.json +247 -0
qwen2-vl-7b-instruct/trainer_state.json +1202 -0
qwen2-vl-7b-instruct/training_args.bin +3 -0

llava1_6-vicuna-7b-instruct/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: /fs/clip-projects/geoguesser/vlms/llava/llava-v1.6-vicuna-7b-hf
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.12.0

llava1_6-vicuna-7b-instruct/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/fs/clip-projects/geoguesser/vlms/llava/llava-v1.6-vicuna-7b-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [],
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "^(language_model|multi_modal_projector)(?!.*(lm_head|output|emb|wte|shared)).*",
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

llava1_6-vicuna-7b-instruct/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8b66d04d5b5b9e30873fe7fbb4bd630ba8f28378484cdb0f6a6110e51a491d43
+size 80446352

llava1_6-vicuna-7b-instruct/additional_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lora_dtype": null, "lorap_lr_ratio": null, "lorap_emb_lr": 1e-06}

llava1_6-vicuna-7b-instruct/configuration.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "adapter_cfg": {
+        "model_id_or_path": "/fs/clip-projects/geoguesser/vlms/llava/llava-v1.6-vicuna-7b-hf",
+        "model_revision": "master",
+        "sft_type": "lora",
+        "tuner_backend": "peft",
+        "template_type": "llava-vicuna",
+        "dtype": "bf16",
+        "system": "A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions."
+    }
+}

llava1_6-vicuna-7b-instruct/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "max_new_tokens": 2048,
+  "pad_token_id": 0,
+  "transformers_version": "4.45.1"
+}

llava1_6-vicuna-7b-instruct/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52792b98d009058a00eb4e56e3e140b84b88c4d07f4ba35a02deaa49a20f9351
+size 161140126

llava1_6-vicuna-7b-instruct/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf85ab928113c942e29e418bc5b119c6dfca9cde55e4b30382d2ed66445b9953
+size 14244

llava1_6-vicuna-7b-instruct/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b75bb0cab5c1ac64f1f42e99abb3e1c6d095394f6dd0c73c81aee621b476d6d9
+size 1064

llava1_6-vicuna-7b-instruct/sft_args.json ADDED Viewed

	@@ -0,0 +1,247 @@

+{
+  "model_type": "llava1_6-vicuna-7b-instruct",
+  "model_id_or_path": "/fs/clip-projects/geoguesser/vlms/llava/llava-v1.6-vicuna-7b-hf",
+  "model_revision": "master",
+  "full_determinism": false,
+  "sft_type": "lora",
+  "freeze_parameters": [],
+  "freeze_vit": false,
+  "freeze_parameters_ratio": 0.0,
+  "additional_trainable_parameters": [],
+  "tuner_backend": "peft",
+  "template_type": "llava-vicuna",
+  "output_dir": "/fs/clip-projects/geoguesser/vlms/llava/output/llava1_6-vicuna-7b-instruct/v10-20241108-045625",
+  "add_output_dir_suffix": true,
+  "ddp_backend": null,
+  "ddp_find_unused_parameters": null,
+  "ddp_broadcast_buffers": null,
+  "ddp_timeout": 1800,
+  "seed": 42,
+  "resume_from_checkpoint": null,
+  "resume_only_model": false,
+  "ignore_data_skip": false,
+  "dtype": "bf16",
+  "packing": false,
+  "train_backend": "transformers",
+  "tp": 1,
+  "pp": 1,
+  "min_lr": null,
+  "sequence_parallel": false,
+  "model_kwargs": null,
+  "loss_name": null,
+  "dataset": [
+    "train_set_a.jsonl"
+  ],
+  "val_dataset": [
+    "test_set_a.jsonl"
+  ],
+  "dataset_seed": 42,
+  "dataset_test_ratio": 0.0,
+  "use_loss_scale": false,
+  "loss_scale_config_path": "/fs/clip-projects/geoguesser/zheyuan/DPO/swift/swift/llm/agent/default_loss_scale_config.json",
+  "system": "A chat between a curious human and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the human's questions.",
+  "tools_prompt": "react_en",
+  "max_length": 2048,
+  "truncation_strategy": "delete",
+  "check_dataset_strategy": "none",
+  "streaming": false,
+  "streaming_val_size": 0,
+  "streaming_buffer_size": 16384,
+  "model_name": [
+    null,
+    null
+  ],
+  "model_author": [
+    null,
+    null
+  ],
+  "quant_method": null,
+  "quantization_bit": 0,
+  "hqq_axis": 0,
+  "hqq_dynamic_config_path": null,
+  "bnb_4bit_comp_dtype": "bf16",
+  "bnb_4bit_quant_type": "nf4",
+  "bnb_4bit_use_double_quant": true,
+  "bnb_4bit_quant_storage": null,
+  "rescale_image": -1,
+  "target_modules": "^(language_model|multi_modal_projector)(?!.*(lm_head|output|emb|wte|shared)).*",
+  "target_regex": null,
+  "modules_to_save": [],
+  "lora_rank": 8,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "lora_bias_trainable": "none",
+  "lora_dtype": null,
+  "lora_lr_ratio": null,
+  "use_rslora": false,
+  "use_dora": false,
+  "init_lora_weights": true,
+  "fourier_n_frequency": 2000,
+  "fourier_scaling": 300.0,
+  "rope_scaling": null,
+  "boft_block_size": 4,
+  "boft_block_num": 0,
+  "boft_n_butterfly_factor": 1,
+  "boft_dropout": 0.0,
+  "vera_rank": 256,
+  "vera_projection_prng_key": 0,
+  "vera_dropout": 0.0,
+  "vera_d_initial": 0.1,
+  "adapter_act": "gelu",
+  "adapter_length": 128,
+  "use_galore": false,
+  "galore_target_modules": null,
+  "galore_rank": 128,
+  "galore_update_proj_gap": 50,
+  "galore_scale": 1.0,
+  "galore_proj_type": "std",
+  "galore_optim_per_parameter": false,
+  "galore_with_embedding": false,
+  "galore_quantization": false,
+  "galore_proj_quant": false,
+  "galore_proj_bits": 4,
+  "galore_proj_group_size": 256,
+  "galore_cos_threshold": 0.4,
+  "galore_gamma_proj": 2,
+  "galore_queue_size": 5,
+  "adalora_target_r": 8,
+  "adalora_init_r": 12,
+  "adalora_tinit": 0,
+  "adalora_tfinal": 0,
+  "adalora_deltaT": 1,
+  "adalora_beta1": 0.85,
+  "adalora_beta2": 0.85,
+  "adalora_orth_reg_weight": 0.5,
+  "ia3_feedforward_modules": [],
+  "llamapro_num_new_blocks": 4,
+  "llamapro_num_groups": null,
+  "neftune_noise_alpha": null,
+  "neftune_backend": "transformers",
+  "lisa_activated_layers": 0,
+  "lisa_step_interval": 20,
+  "reft_layer_key": null,
+  "reft_layers": null,
+  "reft_rank": 4,
+  "reft_intervention_type": "LoreftIntervention",
+  "reft_args": null,
+  "use_liger": false,
+  "gradient_checkpointing": true,
+  "deepspeed": null,
+  "batch_size": 1,
+  "eval_batch_size": 1,
+  "auto_find_batch_size": false,
+  "num_train_epochs": 2,
+  "max_steps": -1,
+  "optim": "adamw_torch",
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.95,
+  "adam_epsilon": 1e-08,
+  "learning_rate": 0.0001,
+  "weight_decay": 0.1,
+  "gradient_accumulation_steps": 4,
+  "max_grad_norm": 1,
+  "predict_with_generate": false,
+  "lr_scheduler_type": "cosine",
+  "lr_scheduler_kwargs": {},
+  "warmup_ratio": 0.05,
+  "warmup_steps": 0,
+  "eval_steps": 50,
+  "save_steps": 50,
+  "save_only_model": false,
+  "save_total_limit": 2,
+  "logging_steps": 5,
+  "acc_steps": 1,
+  "dataloader_num_workers": 1,
+  "dataloader_pin_memory": true,
+  "dataloader_drop_last": false,
+  "push_to_hub": false,
+  "hub_model_id": null,
+  "hub_token": null,
+  "hub_private_repo": false,
+  "hub_strategy": "every_save",
+  "test_oom_error": false,
+  "disable_tqdm": false,
+  "lazy_tokenize": true,
+  "preprocess_num_proc": 1,
+  "use_flash_attn": null,
+  "ignore_args_error": false,
+  "check_model_is_latest": true,
+  "logging_dir": "/fs/clip-projects/geoguesser/vlms/llava/output/llava1_6-vicuna-7b-instruct/v10-20241108-045625/runs",
+  "report_to": [
+    "tensorboard"
+  ],
+  "acc_strategy": "token",
+  "save_on_each_node": false,
+  "evaluation_strategy": "steps",
+  "save_strategy": "steps",
+  "save_safetensors": true,
+  "gpu_memory_fraction": null,
+  "include_num_input_tokens_seen": false,
+  "local_repo_path": null,
+  "custom_register_path": null,
+  "custom_dataset_info": null,
+  "device_map_config": null,
+  "device_max_memory": [],
+  "max_new_tokens": 2048,
+  "do_sample": null,
+  "temperature": null,
+  "top_k": null,
+  "top_p": null,
+  "repetition_penalty": null,
+  "num_beams": 1,
+  "fsdp": "",
+  "fsdp_config": null,
+  "sequence_parallel_size": 1,
+  "model_layer_cls_name": null,
+  "metric_warmup_step": 0,
+  "fsdp_num": 1,
+  "per_device_train_batch_size": null,
+  "per_device_eval_batch_size": null,
+  "eval_strategy": null,
+  "self_cognition_sample": 0,
+  "train_dataset_mix_ratio": 0.0,
+  "train_dataset_mix_ds": [
+    "ms-bench"
+  ],
+  "train_dataset_sample": -1,
+  "val_dataset_sample": null,
+  "safe_serialization": null,
+  "only_save_model": null,
+  "neftune_alpha": null,
+  "deepspeed_config_path": null,
+  "model_cache_dir": null,
+  "lora_dropout_p": null,
+  "lora_target_modules": [],
+  "lora_target_regex": null,
+  "lora_modules_to_save": [],
+  "boft_target_modules": [],
+  "boft_modules_to_save": [],
+  "vera_target_modules": [],
+  "vera_modules_to_save": [],
+  "ia3_target_modules": [],
+  "ia3_modules_to_save": [],
+  "custom_train_dataset_path": [],
+  "custom_val_dataset_path": [],
+  "device_map_config_path": null,
+  "push_hub_strategy": null,
+  "use_self_cognition": false,
+  "is_multimodal": true,
+  "is_vision": true,
+  "lora_use_embedding": false,
+  "lora_use_all": false,
+  "lora_m2s_use_embedding": false,
+  "lora_m2s_use_ln": false,
+  "torch_dtype": "torch.bfloat16",
+  "fp16": false,
+  "bf16": true,
+  "rank": -1,
+  "local_rank": -1,
+  "world_size": 1,
+  "local_world_size": 1,
+  "bnb_4bit_compute_dtype": "torch.bfloat16",
+  "load_in_4bit": false,
+  "load_in_8bit": false,
+  "train_sampler_random": true,
+  "train_type": "sft",
+  "training_args": "Seq2SeqTrainingArguments(output_dir='/fs/clip-projects/geoguesser/vlms/llava/output/llava1_6-vicuna-7b-instruct/v10-20241108-045625', overwrite_output_dir=False, do_train=False, do_eval=True, do_predict=False, eval_strategy=<IntervalStrategy.STEPS: 'steps'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=4, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=0.0001, weight_decay=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, max_grad_norm=1, num_train_epochs=2, max_steps=-1, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs={}, warmup_ratio=0.05, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/fs/clip-projects/geoguesser/vlms/llava/output/llava1_6-vicuna-7b-instruct/v10-20241108-045625/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=5, logging_nan_inf_filter=True, save_strategy=<IntervalStrategy.STEPS: 'steps'>, save_steps=50, save_total_limit=2, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, use_ipex=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=50, dataloader_num_workers=1, dataloader_prefetch_factor=None, past_index=-1, run_name='/fs/clip-projects/geoguesser/vlms/llava/output/llava1_6-vicuna-7b-instruct/v10-20241108-045625', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), deepspeed=None, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['tensorboard'], ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=False, resume_from_checkpoint=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=False, hub_always_push=False, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, include_inputs_for_metrics=False, eval_do_concat_batches=True, fp16_backend='auto', evaluation_strategy=None, push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=1800, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, dispatch_batches=None, split_batches=None, include_tokens_per_second=False, include_num_input_tokens_seen=False, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, eval_use_gather_object=False, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=GenerationConfig {\n  \"bos_token_id\": 1,\n  \"eos_token_id\": 2,\n  \"max_new_tokens\": 2048,\n  \"pad_token_id\": 0\n}\n, acc_strategy='token', loss_name=None, additional_saved_files=[], train_sampler_random=True, metric_warmup_step=0, train_dataset_sample=-1)"
+}

llava1_6-vicuna-7b-instruct/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1084 @@

+{
+  "best_metric": 1.41787565,
+  "best_model_checkpoint": "/fs/clip-projects/geoguesser/vlms/llava/output/llava1_6-vicuna-7b-instruct/v10-20241108-045625/checkpoint-534",
+  "epoch": 1.9962616822429906,
+  "eval_steps": 50,
+  "global_step": 534,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.003738317757009346,
+      "grad_norm": 0.7382091283798218,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 1.75865197,
+      "memory(GiB)": 21.51,
+      "step": 1,
+      "train_speed(iter/s)": 0.03225
+    },
+    {
+      "epoch": 0.018691588785046728,
+      "grad_norm": 0.7008568048477173,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 1.8970871,
+      "memory(GiB)": 21.51,
+      "step": 5,
+      "train_speed(iter/s)": 0.107257
+    },
+    {
+      "epoch": 0.037383177570093455,
+      "grad_norm": 0.6195642948150635,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 1.85505066,
+      "memory(GiB)": 26.65,
+      "step": 10,
+      "train_speed(iter/s)": 0.150961
+    },
+    {
+      "epoch": 0.056074766355140186,
+      "grad_norm": 0.8053833842277527,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 1.85264435,
+      "memory(GiB)": 26.65,
+      "step": 15,
+      "train_speed(iter/s)": 0.174044
+    },
+    {
+      "epoch": 0.07476635514018691,
+      "grad_norm": 0.9945815205574036,
+      "learning_rate": 7.407407407407407e-05,
+      "loss": 1.75669136,
+      "memory(GiB)": 26.65,
+      "step": 20,
+      "train_speed(iter/s)": 0.188377
+    },
+    {
+      "epoch": 0.09345794392523364,
+      "grad_norm": 1.0137534141540527,
+      "learning_rate": 9.25925925925926e-05,
+      "loss": 1.5954113,
+      "memory(GiB)": 26.65,
+      "step": 25,
+      "train_speed(iter/s)": 0.198196
+    },
+    {
+      "epoch": 0.11214953271028037,
+      "grad_norm": 1.0105948448181152,
+      "learning_rate": 9.999136119166803e-05,
+      "loss": 1.67307549,
+      "memory(GiB)": 26.65,
+      "step": 30,
+      "train_speed(iter/s)": 0.205137
+    },
+    {
+      "epoch": 0.1308411214953271,
+      "grad_norm": 1.0798794031143188,
+      "learning_rate": 9.99385792841537e-05,
+      "loss": 1.68129864,
+      "memory(GiB)": 26.65,
+      "step": 35,
+      "train_speed(iter/s)": 0.210084
+    },
+    {
+      "epoch": 0.14953271028037382,
+      "grad_norm": 1.0679413080215454,
+      "learning_rate": 9.983786540671051e-05,
+      "loss": 1.61183624,
+      "memory(GiB)": 26.65,
+      "step": 40,
+      "train_speed(iter/s)": 0.214094
+    },
+    {
+      "epoch": 0.16822429906542055,
+      "grad_norm": 0.9876216053962708,
+      "learning_rate": 9.968931622637652e-05,
+      "loss": 1.5409358,
+      "memory(GiB)": 26.65,
+      "step": 45,
+      "train_speed(iter/s)": 0.217302
+    },
+    {
+      "epoch": 0.18691588785046728,
+      "grad_norm": 0.979777991771698,
+      "learning_rate": 9.949307432339625e-05,
+      "loss": 1.60590649,
+      "memory(GiB)": 26.65,
+      "step": 50,
+      "train_speed(iter/s)": 0.219869
+    },
+    {
+      "epoch": 0.18691588785046728,
+      "eval_loss": 1.543888807296753,
+      "eval_runtime": 18.3158,
+      "eval_samples_per_second": 2.73,
+      "eval_steps_per_second": 2.73,
+      "step": 50
+    },
+    {
+      "epoch": 0.205607476635514,
+      "grad_norm": 1.0606234073638916,
+      "learning_rate": 9.924932805436949e-05,
+      "loss": 1.54525614,
+      "memory(GiB)": 26.65,
+      "step": 55,
+      "train_speed(iter/s)": 0.206189
+    },
+    {
+      "epoch": 0.22429906542056074,
+      "grad_norm": 1.0801302194595337,
+      "learning_rate": 9.895831137146318e-05,
+      "loss": 1.54319582,
+      "memory(GiB)": 26.65,
+      "step": 60,
+      "train_speed(iter/s)": 0.209015
+    },
+    {
+      "epoch": 0.24299065420560748,
+      "grad_norm": 1.0459623336791992,
+      "learning_rate": 9.862030359785981e-05,
+      "loss": 1.55986643,
+      "memory(GiB)": 26.65,
+      "step": 65,
+      "train_speed(iter/s)": 0.211483
+    },
+    {
+      "epoch": 0.2616822429906542,
+      "grad_norm": 1.0878509283065796,
+      "learning_rate": 9.82356291596578e-05,
+      "loss": 1.54775982,
+      "memory(GiB)": 26.65,
+      "step": 70,
+      "train_speed(iter/s)": 0.213594
+    },
+    {
+      "epoch": 0.2803738317757009,
+      "grad_norm": 1.0929535627365112,
+      "learning_rate": 9.780465727448149e-05,
+      "loss": 1.60084972,
+      "memory(GiB)": 26.65,
+      "step": 75,
+      "train_speed(iter/s)": 0.215384
+    },
+    {
+      "epoch": 0.29906542056074764,
+      "grad_norm": 1.0857256650924683,
+      "learning_rate": 9.732780159709912e-05,
+      "loss": 1.53291664,
+      "memory(GiB)": 26.65,
+      "step": 80,
+      "train_speed(iter/s)": 0.217022
+    },
+    {
+      "epoch": 0.3177570093457944,
+      "grad_norm": 1.0876630544662476,
+      "learning_rate": 9.680551982238942e-05,
+      "loss": 1.49946527,
+      "memory(GiB)": 26.65,
+      "step": 85,
+      "train_speed(iter/s)": 0.218544
+    },
+    {
+      "epoch": 0.3364485981308411,
+      "grad_norm": 1.0945876836776733,
+      "learning_rate": 9.623831324603754e-05,
+      "loss": 1.57413607,
+      "memory(GiB)": 26.65,
+      "step": 90,
+      "train_speed(iter/s)": 0.219824
+    },
+    {
+      "epoch": 0.35514018691588783,
+      "grad_norm": 0.9552567601203918,
+      "learning_rate": 9.562672628338233e-05,
+      "loss": 1.47238646,
+      "memory(GiB)": 26.65,
+      "step": 95,
+      "train_speed(iter/s)": 0.221014
+    },
+    {
+      "epoch": 0.37383177570093457,
+      "grad_norm": 1.0762443542480469,
+      "learning_rate": 9.497134594687634e-05,
+      "loss": 1.60602245,
+      "memory(GiB)": 26.65,
+      "step": 100,
+      "train_speed(iter/s)": 0.222132
+    },
+    {
+      "epoch": 0.37383177570093457,
+      "eval_loss": 1.4929084777832031,
+      "eval_runtime": 14.0965,
+      "eval_samples_per_second": 3.547,
+      "eval_steps_per_second": 3.547,
+      "step": 100
+    },
+    {
+      "epoch": 0.3925233644859813,
+      "grad_norm": 0.985505998134613,
+      "learning_rate": 9.42728012826605e-05,
+      "loss": 1.53017511,
+      "memory(GiB)": 26.65,
+      "step": 105,
+      "train_speed(iter/s)": 0.216155
+    },
+    {
+      "epoch": 0.411214953271028,
+      "grad_norm": 1.0371544361114502,
+      "learning_rate": 9.353176276679396e-05,
+      "loss": 1.55461969,
+      "memory(GiB)": 26.65,
+      "step": 110,
+      "train_speed(iter/s)": 0.217382
+    },
+    {
+      "epoch": 0.42990654205607476,
+      "grad_norm": 1.1553157567977905,
+      "learning_rate": 9.274894166171888e-05,
+      "loss": 1.53458586,
+      "memory(GiB)": 26.65,
+      "step": 115,
+      "train_speed(iter/s)": 0.218618
+    },
+    {
+      "epoch": 0.4485981308411215,
+      "grad_norm": 1.062723994255066,
+      "learning_rate": 9.192508933357753e-05,
+      "loss": 1.56342993,
+      "memory(GiB)": 26.65,
+      "step": 120,
+      "train_speed(iter/s)": 0.21963
+    },
+    {
+      "epoch": 0.4672897196261682,
+      "grad_norm": 0.9741066098213196,
+      "learning_rate": 9.106099653103728e-05,
+      "loss": 1.46541033,
+      "memory(GiB)": 26.65,
+      "step": 125,
+      "train_speed(iter/s)": 0.220578
+    },
+    {
+      "epoch": 0.48598130841121495,
+      "grad_norm": 1.1155296564102173,
+      "learning_rate": 9.015749262631536e-05,
+      "loss": 1.45173082,
+      "memory(GiB)": 26.65,
+      "step": 130,
+      "train_speed(iter/s)": 0.221485
+    },
+    {
+      "epoch": 0.5046728971962616,
+      "grad_norm": 1.3632838726043701,
+      "learning_rate": 8.921544481913218e-05,
+      "loss": 1.51770496,
+      "memory(GiB)": 26.65,
+      "step": 135,
+      "train_speed(iter/s)": 0.222401
+    },
+    {
+      "epoch": 0.5233644859813084,
+      "grad_norm": 1.165434718132019,
+      "learning_rate": 8.823575730435693e-05,
+      "loss": 1.55217724,
+      "memory(GiB)": 32.07,
+      "step": 140,
+      "train_speed(iter/s)": 0.223153
+    },
+    {
+      "epoch": 0.5420560747663551,
+      "grad_norm": 1.1032906770706177,
+      "learning_rate": 8.721937040414481e-05,
+      "loss": 1.43740101,
+      "memory(GiB)": 32.07,
+      "step": 145,
+      "train_speed(iter/s)": 0.223845
+    },
+    {
+      "epoch": 0.5607476635514018,
+      "grad_norm": 1.1984739303588867,
+      "learning_rate": 8.616725966539832e-05,
+      "loss": 1.58604784,
+      "memory(GiB)": 32.07,
+      "step": 150,
+      "train_speed(iter/s)": 0.224618
+    },
+    {
+      "epoch": 0.5607476635514018,
+      "eval_loss": 1.4658682346343994,
+      "eval_runtime": 14.0407,
+      "eval_samples_per_second": 3.561,
+      "eval_steps_per_second": 3.561,
+      "step": 150
+    },
+    {
+      "epoch": 0.5794392523364486,
+      "grad_norm": 1.154517650604248,
+      "learning_rate": 8.508043492341944e-05,
+      "loss": 1.49082041,
+      "memory(GiB)": 32.07,
+      "step": 155,
+      "train_speed(iter/s)": 0.220462
+    },
+    {
+      "epoch": 0.5981308411214953,
+      "grad_norm": 1.2047632932662964,
+      "learning_rate": 8.395993933265101e-05,
+      "loss": 1.53753242,
+      "memory(GiB)": 32.07,
+      "step": 160,
+      "train_speed(iter/s)": 0.221167
+    },
+    {
+      "epoch": 0.616822429906542,
+      "grad_norm": 0.9952251315116882,
+      "learning_rate": 8.280684836543794e-05,
+      "loss": 1.49997816,
+      "memory(GiB)": 32.07,
+      "step": 165,
+      "train_speed(iter/s)": 0.22173
+    },
+    {
+      "epoch": 0.6355140186915887,
+      "grad_norm": 1.1730362176895142,
+      "learning_rate": 8.162226877976887e-05,
+      "loss": 1.50385504,
+      "memory(GiB)": 32.07,
+      "step": 170,
+      "train_speed(iter/s)": 0.222363
+    },
+    {
+      "epoch": 0.6542056074766355,
+      "grad_norm": 1.066243052482605,
+      "learning_rate": 8.040733755698955e-05,
+      "loss": 1.4824049,
+      "memory(GiB)": 32.07,
+      "step": 175,
+      "train_speed(iter/s)": 0.22299
+    },
+    {
+      "epoch": 0.6728971962616822,
+      "grad_norm": 1.2189449071884155,
+      "learning_rate": 7.916322081050709e-05,
+      "loss": 1.49032326,
+      "memory(GiB)": 32.07,
+      "step": 180,
+      "train_speed(iter/s)": 0.223605
+    },
+    {
+      "epoch": 0.6915887850467289,
+      "grad_norm": 1.07020103931427,
+      "learning_rate": 7.789111266653285e-05,
+      "loss": 1.46754303,
+      "memory(GiB)": 32.07,
+      "step": 185,
+      "train_speed(iter/s)": 0.224145
+    },
+    {
+      "epoch": 0.7102803738317757,
+      "grad_norm": 1.226481318473816,
+      "learning_rate": 7.659223411793798e-05,
+      "loss": 1.42194347,
+      "memory(GiB)": 32.07,
+      "step": 190,
+      "train_speed(iter/s)": 0.224687
+    },
+    {
+      "epoch": 0.7289719626168224,
+      "grad_norm": 1.111670732498169,
+      "learning_rate": 7.526783185232207e-05,
+      "loss": 1.50790215,
+      "memory(GiB)": 32.07,
+      "step": 195,
+      "train_speed(iter/s)": 0.225152
+    },
+    {
+      "epoch": 0.7476635514018691,
+      "grad_norm": 1.1171320676803589,
+      "learning_rate": 7.391917705541927e-05,
+      "loss": 1.51145458,
+      "memory(GiB)": 32.07,
+      "step": 200,
+      "train_speed(iter/s)": 0.22563
+    },
+    {
+      "epoch": 0.7476635514018691,
+      "eval_loss": 1.4480363130569458,
+      "eval_runtime": 14.0508,
+      "eval_samples_per_second": 3.559,
+      "eval_steps_per_second": 3.559,
+      "step": 200
+    },
+    {
+      "epoch": 0.7663551401869159,
+      "grad_norm": 0.9992289543151855,
+      "learning_rate": 7.254756419099074e-05,
+      "loss": 1.53672495,
+      "memory(GiB)": 32.07,
+      "step": 205,
+      "train_speed(iter/s)": 0.222373
+    },
+    {
+      "epoch": 0.7850467289719626,
+      "grad_norm": 1.076946496963501,
+      "learning_rate": 7.115430975837457e-05,
+      "loss": 1.51113377,
+      "memory(GiB)": 32.07,
+      "step": 210,
+      "train_speed(iter/s)": 0.222912
+    },
+    {
+      "epoch": 0.8037383177570093,
+      "grad_norm": 1.3144261837005615,
+      "learning_rate": 6.974075102888536e-05,
+      "loss": 1.51253147,
+      "memory(GiB)": 32.07,
+      "step": 215,
+      "train_speed(iter/s)": 0.223388
+    },
+    {
+      "epoch": 0.822429906542056,
+      "grad_norm": 1.2429286241531372,
+      "learning_rate": 6.830824476227646e-05,
+      "loss": 1.49584999,
+      "memory(GiB)": 32.07,
+      "step": 220,
+      "train_speed(iter/s)": 0.22384
+    },
+    {
+      "epoch": 0.8411214953271028,
+      "grad_norm": 1.213188886642456,
+      "learning_rate": 6.685816590449708e-05,
+      "loss": 1.4517292,
+      "memory(GiB)": 32.07,
+      "step": 225,
+      "train_speed(iter/s)": 0.224262
+    },
+    {
+      "epoch": 0.8598130841121495,
+      "grad_norm": 1.1008031368255615,
+      "learning_rate": 6.539190626799366e-05,
+      "loss": 1.44860907,
+      "memory(GiB)": 32.07,
+      "step": 230,
+      "train_speed(iter/s)": 0.224691
+    },
+    {
+      "epoch": 0.8785046728971962,
+      "grad_norm": 1.105083703994751,
+      "learning_rate": 6.391087319582264e-05,
+      "loss": 1.45654058,
+      "memory(GiB)": 32.07,
+      "step": 235,
+      "train_speed(iter/s)": 0.225105
+    },
+    {
+      "epoch": 0.897196261682243,
+      "grad_norm": 1.1485651731491089,
+      "learning_rate": 6.241648821085666e-05,
+      "loss": 1.4626853,
+      "memory(GiB)": 32.07,
+      "step": 240,
+      "train_speed(iter/s)": 0.225456
+    },
+    {
+      "epoch": 0.9158878504672897,
+      "grad_norm": 1.2288539409637451,
+      "learning_rate": 6.0910185651380626e-05,
+      "loss": 1.41080866,
+      "memory(GiB)": 32.07,
+      "step": 245,
+      "train_speed(iter/s)": 0.225881
+    },
+    {
+      "epoch": 0.9345794392523364,
+      "grad_norm": 1.2186890840530396,
+      "learning_rate": 5.939341129438739e-05,
+      "loss": 1.53512402,
+      "memory(GiB)": 32.07,
+      "step": 250,
+      "train_speed(iter/s)": 0.226215
+    },
+    {
+      "epoch": 0.9345794392523364,
+      "eval_loss": 1.438408374786377,
+      "eval_runtime": 14.1598,
+      "eval_samples_per_second": 3.531,
+      "eval_steps_per_second": 3.531,
+      "step": 250
+    },
+    {
+      "epoch": 0.9532710280373832,
+      "grad_norm": 1.1940230131149292,
+      "learning_rate": 5.786762096789431e-05,
+      "loss": 1.55513544,
+      "memory(GiB)": 32.07,
+      "step": 255,
+      "train_speed(iter/s)": 0.223566
+    },
+    {
+      "epoch": 0.9719626168224299,
+      "grad_norm": 1.0835857391357422,
+      "learning_rate": 5.633427915361261e-05,
+      "loss": 1.51988029,
+      "memory(GiB)": 32.07,
+      "step": 260,
+      "train_speed(iter/s)": 0.22394
+    },
+    {
+      "epoch": 0.9906542056074766,
+      "grad_norm": 1.170660376548767,
+      "learning_rate": 5.479485758131089e-05,
+      "loss": 1.56143446,
+      "memory(GiB)": 32.07,
+      "step": 265,
+      "train_speed(iter/s)": 0.224337
+    },
+    {
+      "epoch": 1.0093457943925233,
+      "grad_norm": 1.0278513431549072,
+      "learning_rate": 5.325083381622165e-05,
+      "loss": 1.43758631,
+      "memory(GiB)": 32.07,
+      "step": 270,
+      "train_speed(iter/s)": 0.224666
+    },
+    {
+      "epoch": 1.02803738317757,
+      "grad_norm": 1.13231360912323,
+      "learning_rate": 5.1703689840846945e-05,
+      "loss": 1.34864044,
+      "memory(GiB)": 32.07,
+      "step": 275,
+      "train_speed(iter/s)": 0.225034
+    },
+    {
+      "epoch": 1.0467289719626167,
+      "grad_norm": 1.2419425249099731,
+      "learning_rate": 5.01549106325243e-05,
+      "loss": 1.38481417,
+      "memory(GiB)": 32.07,
+      "step": 280,
+      "train_speed(iter/s)": 0.225399
+    },
+    {
+      "epoch": 1.0654205607476634,
+      "grad_norm": 1.336288332939148,
+      "learning_rate": 4.860598273811792e-05,
+      "loss": 1.24492655,
+      "memory(GiB)": 32.07,
+      "step": 285,
+      "train_speed(iter/s)": 0.225789
+    },
+    {
+      "epoch": 1.0841121495327102,
+      "grad_norm": 1.241809368133545,
+      "learning_rate": 4.705839284720376e-05,
+      "loss": 1.36301146,
+      "memory(GiB)": 32.07,
+      "step": 290,
+      "train_speed(iter/s)": 0.226105
+    },
+    {
+      "epoch": 1.102803738317757,
+      "grad_norm": 1.4412420988082886,
+      "learning_rate": 4.55136263651172e-05,
+      "loss": 1.39876356,
+      "memory(GiB)": 32.07,
+      "step": 295,
+      "train_speed(iter/s)": 0.226405
+    },
+    {
+      "epoch": 1.1214953271028036,
+      "grad_norm": 1.6165404319763184,
+      "learning_rate": 4.397316598723385e-05,
+      "loss": 1.32808571,
+      "memory(GiB)": 32.07,
+      "step": 300,
+      "train_speed(iter/s)": 0.226709
+    },
+    {
+      "epoch": 1.1214953271028036,
+      "eval_loss": 1.4294430017471313,
+      "eval_runtime": 14.1178,
+      "eval_samples_per_second": 3.542,
+      "eval_steps_per_second": 3.542,
+      "step": 300
+    },
+    {
+      "epoch": 1.1401869158878504,
+      "grad_norm": 1.4734883308410645,
+      "learning_rate": 4.243849027585096e-05,
+      "loss": 1.37022314,
+      "memory(GiB)": 32.07,
+      "step": 305,
+      "train_speed(iter/s)": 0.224508
+    },
+    {
+      "epoch": 1.158878504672897,
+      "grad_norm": 1.5161515474319458,
+      "learning_rate": 4.0911072241036194e-05,
+      "loss": 1.40692539,
+      "memory(GiB)": 32.07,
+      "step": 310,
+      "train_speed(iter/s)": 0.224822
+    },
+    {
+      "epoch": 1.1775700934579438,
+      "grad_norm": 1.4354695081710815,
+      "learning_rate": 3.9392377926805226e-05,
+      "loss": 1.31709337,
+      "memory(GiB)": 32.07,
+      "step": 315,
+      "train_speed(iter/s)": 0.225147
+    },
+    {
+      "epoch": 1.1962616822429906,
+      "grad_norm": 1.5612841844558716,
+      "learning_rate": 3.788386500398583e-05,
+      "loss": 1.38046598,
+      "memory(GiB)": 32.07,
+      "step": 320,
+      "train_speed(iter/s)": 0.225425
+    },
+    {
+      "epoch": 1.2149532710280373,
+      "grad_norm": 1.353385090827942,
+      "learning_rate": 3.6386981371118355e-05,
+      "loss": 1.29831305,
+      "memory(GiB)": 32.07,
+      "step": 325,
+      "train_speed(iter/s)": 0.225693
+    },
+    {
+      "epoch": 1.233644859813084,
+      "grad_norm": 1.6214525699615479,
+      "learning_rate": 3.49031637647361e-05,
+      "loss": 1.33498459,
+      "memory(GiB)": 32.07,
+      "step": 330,
+      "train_speed(iter/s)": 0.225991
+    },
+    {
+      "epoch": 1.2523364485981308,
+      "grad_norm": 1.441267490386963,
+      "learning_rate": 3.343383638035902e-05,
+      "loss": 1.2935997,
+      "memory(GiB)": 32.07,
+      "step": 335,
+      "train_speed(iter/s)": 0.226241
+    },
+    {
+      "epoch": 1.2710280373831775,
+      "grad_norm": 1.5621421337127686,
+      "learning_rate": 3.1980409505524544e-05,
+      "loss": 1.32472296,
+      "memory(GiB)": 32.07,
+      "step": 340,
+      "train_speed(iter/s)": 0.226507
+    },
+    {
+      "epoch": 1.2897196261682242,
+      "grad_norm": 1.7050727605819702,
+      "learning_rate": 3.054427816616773e-05,
+      "loss": 1.25045223,
+      "memory(GiB)": 32.07,
+      "step": 345,
+      "train_speed(iter/s)": 0.226762
+    },
+    {
+      "epoch": 1.308411214953271,
+      "grad_norm": 1.5206207036972046,
+      "learning_rate": 2.91268207876494e-05,
+      "loss": 1.33886337,
+      "memory(GiB)": 32.07,
+      "step": 350,
+      "train_speed(iter/s)": 0.226984
+    },
+    {
+      "epoch": 1.308411214953271,
+      "eval_loss": 1.4251823425292969,
+      "eval_runtime": 14.0593,
+      "eval_samples_per_second": 3.556,
+      "eval_steps_per_second": 3.556,
+      "step": 350
+    },
+    {
+      "epoch": 1.3271028037383177,
+      "grad_norm": 1.5205532312393188,
+      "learning_rate": 2.7729397871718304e-05,
+      "loss": 1.28512764,
+      "memory(GiB)": 32.07,
+      "step": 355,
+      "train_speed(iter/s)": 0.225063
+    },
+    {
+      "epoch": 1.3457943925233644,
+      "grad_norm": 1.5533926486968994,
+      "learning_rate": 2.635335069067617e-05,
+      "loss": 1.30997047,
+      "memory(GiB)": 32.07,
+      "step": 360,
+      "train_speed(iter/s)": 0.225339
+    },
+    {
+      "epoch": 1.3644859813084111,
+      "grad_norm": 1.581883192062378,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.28296366,
+      "memory(GiB)": 32.07,
+      "step": 365,
+      "train_speed(iter/s)": 0.225599
+    },
+    {
+      "epoch": 1.3831775700934579,
+      "grad_norm": 1.4634901285171509,
+      "learning_rate": 2.367064477065652e-05,
+      "loss": 1.31434088,
+      "memory(GiB)": 32.07,
+      "step": 370,
+      "train_speed(iter/s)": 0.225861
+    },
+    {
+      "epoch": 1.4018691588785046,
+      "grad_norm": 1.706288456916809,
+      "learning_rate": 2.2366560942325832e-05,
+      "loss": 1.30933113,
+      "memory(GiB)": 32.07,
+      "step": 375,
+      "train_speed(iter/s)": 0.226141
+    },
+    {
+      "epoch": 1.4205607476635513,
+      "grad_norm": 1.6696898937225342,
+      "learning_rate": 2.108900019873103e-05,
+      "loss": 1.32816324,
+      "memory(GiB)": 32.07,
+      "step": 380,
+      "train_speed(iter/s)": 0.226392
+    },
+    {
+      "epoch": 1.439252336448598,
+      "grad_norm": 1.590394377708435,
+      "learning_rate": 1.983918876624902e-05,
+      "loss": 1.26775227,
+      "memory(GiB)": 32.07,
+      "step": 385,
+      "train_speed(iter/s)": 0.226637
+    },
+    {
+      "epoch": 1.4579439252336448,
+      "grad_norm": 1.7391793727874756,
+      "learning_rate": 1.8618326236955907e-05,
+      "loss": 1.33946781,
+      "memory(GiB)": 32.07,
+      "step": 390,
+      "train_speed(iter/s)": 0.226874
+    },
+    {
+      "epoch": 1.4766355140186915,
+      "grad_norm": 1.7035928964614868,
+      "learning_rate": 1.7427584417236194e-05,
+      "loss": 1.34862604,
+      "memory(GiB)": 32.07,
+      "step": 395,
+      "train_speed(iter/s)": 0.227069
+    },
+    {
+      "epoch": 1.4953271028037383,
+      "grad_norm": 1.5830693244934082,
+      "learning_rate": 1.626810620306163e-05,
+      "loss": 1.27288446,
+      "memory(GiB)": 32.07,
+      "step": 400,
+      "train_speed(iter/s)": 0.227266
+    },
+    {
+      "epoch": 1.4953271028037383,
+      "eval_loss": 1.4195191860198975,
+      "eval_runtime": 14.0879,
+      "eval_samples_per_second": 3.549,
+      "eval_steps_per_second": 3.549,
+      "step": 400
+    },
+    {
+      "epoch": 1.514018691588785,
+      "grad_norm": 1.4809561967849731,
+      "learning_rate": 1.5141004483018323e-05,
+      "loss": 1.31938076,
+      "memory(GiB)": 32.07,
+      "step": 405,
+      "train_speed(iter/s)": 0.225559
+    },
+    {
+      "epoch": 1.5327102803738317,
+      "grad_norm": 1.8556567430496216,
+      "learning_rate": 1.4047361070135995e-05,
+      "loss": 1.33600292,
+      "memory(GiB)": 32.07,
+      "step": 410,
+      "train_speed(iter/s)": 0.225804
+    },
+    {
+      "epoch": 1.5514018691588785,
+      "grad_norm": 1.5470691919326782,
+      "learning_rate": 1.2988225663543602e-05,
+      "loss": 1.40292425,
+      "memory(GiB)": 32.07,
+      "step": 415,
+      "train_speed(iter/s)": 0.226027
+    },
+    {
+      "epoch": 1.5700934579439252,
+      "grad_norm": 1.8364381790161133,
+      "learning_rate": 1.1964614840949002e-05,
+      "loss": 1.32833939,
+      "memory(GiB)": 32.07,
+      "step": 420,
+      "train_speed(iter/s)": 0.226267
+    },
+    {
+      "epoch": 1.588785046728972,
+      "grad_norm": 1.6938135623931885,
+      "learning_rate": 1.097751108290867e-05,
+      "loss": 1.35209036,
+      "memory(GiB)": 32.07,
+      "step": 425,
+      "train_speed(iter/s)": 0.226474
+    },
+    {
+      "epoch": 1.6074766355140186,
+      "grad_norm": 1.7861816883087158,
+      "learning_rate": 1.0027861829824952e-05,
+      "loss": 1.27312994,
+      "memory(GiB)": 32.07,
+      "step": 430,
+      "train_speed(iter/s)": 0.226695
+    },
+    {
+      "epoch": 1.6261682242990654,
+      "grad_norm": 1.6619056463241577,
+      "learning_rate": 9.11657857257509e-06,
+      "loss": 1.35062437,
+      "memory(GiB)": 32.07,
+      "step": 435,
+      "train_speed(iter/s)": 0.22691
+    },
+    {
+      "epoch": 1.644859813084112,
+      "grad_norm": 1.7696343660354614,
+      "learning_rate": 8.244535977645585e-06,
+      "loss": 1.32785254,
+      "memory(GiB)": 32.07,
+      "step": 440,
+      "train_speed(iter/s)": 0.227108
+    },
+    {
+      "epoch": 1.6635514018691588,
+      "grad_norm": 1.6938729286193848,
+      "learning_rate": 7.412571047611155e-06,
+      "loss": 1.3087183,
+      "memory(GiB)": 32.07,
+      "step": 445,
+      "train_speed(iter/s)": 0.227305
+    },
+    {
+      "epoch": 1.6822429906542056,
+      "grad_norm": 1.7258585691452026,
+      "learning_rate": 6.621482317764105e-06,
+      "loss": 1.30971994,
+      "memory(GiB)": 32.07,
+      "step": 450,
+      "train_speed(iter/s)": 0.227507
+    },
+    {
+      "epoch": 1.6822429906542056,
+      "eval_loss": 1.4193787574768066,
+      "eval_runtime": 17.3944,
+      "eval_samples_per_second": 2.874,
+      "eval_steps_per_second": 2.874,
+      "step": 450
+    },
+    {
+      "epoch": 1.7009345794392523,
+      "grad_norm": 1.8556472063064575,
+      "learning_rate": 5.872029089665587e-06,
+      "loss": 1.26630516,
+      "memory(GiB)": 32.07,
+      "step": 455,
+      "train_speed(iter/s)": 0.225602
+    },
+    {
+      "epoch": 1.719626168224299,
+      "grad_norm": 1.852525234222412,
+      "learning_rate": 5.164930702353782e-06,
+      "loss": 1.34138193,
+      "memory(GiB)": 32.07,
+      "step": 460,
+      "train_speed(iter/s)": 0.225826
+    },
+    {
+      "epoch": 1.7383177570093458,
+      "grad_norm": 1.557905673980713,
+      "learning_rate": 4.500865841909168e-06,
+      "loss": 1.30747194,
+      "memory(GiB)": 32.07,
+      "step": 465,
+      "train_speed(iter/s)": 0.225996
+    },
+    {
+      "epoch": 1.7570093457943925,
+      "grad_norm": 1.7627642154693604,
+      "learning_rate": 3.880471890038967e-06,
+      "loss": 1.34135695,
+      "memory(GiB)": 32.07,
+      "step": 470,
+      "train_speed(iter/s)": 0.226199
+    },
+    {
+      "epoch": 1.7757009345794392,
+      "grad_norm": 1.4336940050125122,
+      "learning_rate": 3.3043443123065286e-06,
+      "loss": 1.38070517,
+      "memory(GiB)": 32.07,
+      "step": 475,
+      "train_speed(iter/s)": 0.226358
+    },
+    {
+      "epoch": 1.794392523364486,
+      "grad_norm": 1.906886339187622,
+      "learning_rate": 2.7730360865923956e-06,
+      "loss": 1.34674683,
+      "memory(GiB)": 32.07,
+      "step": 480,
+      "train_speed(iter/s)": 0.226536
+    },
+    {
+      "epoch": 1.8130841121495327,
+      "grad_norm": 1.7454955577850342,
+      "learning_rate": 2.287057172336021e-06,
+      "loss": 1.38749065,
+      "memory(GiB)": 32.07,
+      "step": 485,
+      "train_speed(iter/s)": 0.226699
+    },
+    {
+      "epoch": 1.8317757009345794,
+      "grad_norm": 1.7366608381271362,
+      "learning_rate": 1.8468740210672076e-06,
+      "loss": 1.30795374,
+      "memory(GiB)": 32.07,
+      "step": 490,
+      "train_speed(iter/s)": 0.226882
+    },
+    {
+      "epoch": 1.8504672897196262,
+      "grad_norm": 1.5829346179962158,
+      "learning_rate": 1.4529091286973995e-06,
+      "loss": 1.32902784,
+      "memory(GiB)": 32.07,
+      "step": 495,
+      "train_speed(iter/s)": 0.227039
+    },
+    {
+      "epoch": 1.8691588785046729,
+      "grad_norm": 1.6908546686172485,
+      "learning_rate": 1.1055406300002347e-06,
+      "loss": 1.33979492,
+      "memory(GiB)": 32.07,
+      "step": 500,
+      "train_speed(iter/s)": 0.227213
+    },
+    {
+      "epoch": 1.8691588785046729,
+      "eval_loss": 1.4183509349822998,
+      "eval_runtime": 14.1519,
+      "eval_samples_per_second": 3.533,
+      "eval_steps_per_second": 3.533,
+      "step": 500
+    },
+    {
+      "epoch": 1.8878504672897196,
+      "grad_norm": 1.915726900100708,
+      "learning_rate": 8.0510193567086e-07,
+      "loss": 1.30009985,
+      "memory(GiB)": 32.07,
+      "step": 505,
+      "train_speed(iter/s)": 0.225856
+    },
+    {
+      "epoch": 1.9065420560747663,
+      "grad_norm": 1.6646161079406738,
+      "learning_rate": 5.518814123121885e-07,
+      "loss": 1.37087755,
+      "memory(GiB)": 32.07,
+      "step": 510,
+      "train_speed(iter/s)": 0.226034
+    },
+    {
+      "epoch": 1.925233644859813,
+      "grad_norm": 1.7108522653579712,
+      "learning_rate": 3.4612210565528326e-07,
+      "loss": 1.35631628,
+      "memory(GiB)": 32.07,
+      "step": 515,
+      "train_speed(iter/s)": 0.22621
+    },
+    {
+      "epoch": 1.9439252336448598,
+      "grad_norm": 1.7579667568206787,
+      "learning_rate": 1.8802150727962876e-07,
+      "loss": 1.24607553,
+      "memory(GiB)": 32.07,
+      "step": 520,
+      "train_speed(iter/s)": 0.226384
+    },
+    {
+      "epoch": 1.9626168224299065,
+      "grad_norm": 1.634746789932251,
+      "learning_rate": 7.773136505700995e-08,
+      "loss": 1.27467356,
+      "memory(GiB)": 32.07,
+      "step": 525,
+      "train_speed(iter/s)": 0.226543
+    },
+    {
+      "epoch": 1.9813084112149533,
+      "grad_norm": 1.620557188987732,
+      "learning_rate": 1.5357537501159423e-08,
+      "loss": 1.318472,
+      "memory(GiB)": 32.07,
+      "step": 530,
+      "train_speed(iter/s)": 0.226703
+    },
+    {
+      "epoch": 1.9962616822429906,
+      "eval_loss": 1.4178756475448608,
+      "eval_runtime": 14.1624,
+      "eval_samples_per_second": 3.53,
+      "eval_steps_per_second": 3.53,
+      "step": 534
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 534,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.73270917085696e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

llava1_6-vicuna-7b-instruct/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f1ee500bc16818ccb6af6404742071ed8aa5c214d899905af5c3d73f16eae7b
+size 7416

minicpm-v-v2_6-chat/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: /fs/clip-projects/geoguesser/vlms/cpm/MiniCPM-V-2_6
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.12.0

minicpm-v-v2_6-chat/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/fs/clip-projects/geoguesser/vlms/cpm/MiniCPM-V-2_6",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [],
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "^(llm|resampler)(?!.*(lm_head|output|emb|wte|shared)).*",
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

minicpm-v-v2_6-chat/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ba0c23a6f4291a7bf0ac08aadc2782defa427169e319594f0cc95f379f5c2a6f
+size 81175080

minicpm-v-v2_6-chat/additional_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lora_dtype": null, "lorap_lr_ratio": null, "lorap_emb_lr": 1e-06}

minicpm-v-v2_6-chat/configuration.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "framework": "Pytorch",
+    "task": "visual-question-answering",
+    "adapter_cfg": {
+        "model_id_or_path": "/fs/clip-projects/geoguesser/vlms/cpm/MiniCPM-V-2_6",
+        "model_revision": "master",
+        "sft_type": "lora",
+        "tuner_backend": "peft",
+        "template_type": "minicpm-v-v2_6",
+        "dtype": "bf16",
+        "system": "You are a helpful assistant."
+    }
+}

minicpm-v-v2_6-chat/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "max_new_tokens": 2048,
+  "pad_token_id": 151643,
+  "transformers_version": "4.45.1"
+}

minicpm-v-v2_6-chat/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f804033311c05e15514241ec05e2702e77e1ea22c7ddc34080f9960abca0dd0
+size 162575542

minicpm-v-v2_6-chat/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c267f7c126c2e718bba599dcd30e9c477a5b3cf23ec7812edda9d522e67d4a1b
+size 14244

minicpm-v-v2_6-chat/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b75bb0cab5c1ac64f1f42e99abb3e1c6d095394f6dd0c73c81aee621b476d6d9
+size 1064

minicpm-v-v2_6-chat/sft_args.json ADDED Viewed

	@@ -0,0 +1,247 @@

+{
+  "model_type": "minicpm-v-v2_6-chat",
+  "model_id_or_path": "/fs/clip-projects/geoguesser/vlms/cpm/MiniCPM-V-2_6",
+  "model_revision": "master",
+  "full_determinism": false,
+  "sft_type": "lora",
+  "freeze_parameters": [],
+  "freeze_vit": false,
+  "freeze_parameters_ratio": 0.0,
+  "additional_trainable_parameters": [],
+  "tuner_backend": "peft",
+  "template_type": "minicpm-v-v2_6",
+  "output_dir": "/fs/clip-projects/geoguesser/vlms/cpm/output/minicpm-v-v2_6-chat/v3-20241108-065955",
+  "add_output_dir_suffix": true,
+  "ddp_backend": null,
+  "ddp_find_unused_parameters": null,
+  "ddp_broadcast_buffers": null,
+  "ddp_timeout": 1800,
+  "seed": 42,
+  "resume_from_checkpoint": null,
+  "resume_only_model": false,
+  "ignore_data_skip": false,
+  "dtype": "bf16",
+  "packing": false,
+  "train_backend": "transformers",
+  "tp": 1,
+  "pp": 1,
+  "min_lr": null,
+  "sequence_parallel": false,
+  "model_kwargs": null,
+  "loss_name": null,
+  "dataset": [
+    "train_set_a.jsonl"
+  ],
+  "val_dataset": [
+    "test_set_a.jsonl"
+  ],
+  "dataset_seed": 42,
+  "dataset_test_ratio": 0.0,
+  "use_loss_scale": false,
+  "loss_scale_config_path": "/fs/clip-projects/geoguesser/zheyuan/DPO/swift/swift/llm/agent/default_loss_scale_config.json",
+  "system": "You are a helpful assistant.",
+  "tools_prompt": "react_en",
+  "max_length": 2048,
+  "truncation_strategy": "delete",
+  "check_dataset_strategy": "none",
+  "streaming": false,
+  "streaming_val_size": 0,
+  "streaming_buffer_size": 16384,
+  "model_name": [
+    null,
+    null
+  ],
+  "model_author": [
+    null,
+    null
+  ],
+  "quant_method": null,
+  "quantization_bit": 0,
+  "hqq_axis": 0,
+  "hqq_dynamic_config_path": null,
+  "bnb_4bit_comp_dtype": "bf16",
+  "bnb_4bit_quant_type": "nf4",
+  "bnb_4bit_use_double_quant": true,
+  "bnb_4bit_quant_storage": null,
+  "rescale_image": -1,
+  "target_modules": "^(llm|resampler)(?!.*(lm_head|output|emb|wte|shared)).*",
+  "target_regex": null,
+  "modules_to_save": [],
+  "lora_rank": 8,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "lora_bias_trainable": "none",
+  "lora_dtype": null,
+  "lora_lr_ratio": null,
+  "use_rslora": false,
+  "use_dora": false,
+  "init_lora_weights": true,
+  "fourier_n_frequency": 2000,
+  "fourier_scaling": 300.0,
+  "rope_scaling": null,
+  "boft_block_size": 4,
+  "boft_block_num": 0,
+  "boft_n_butterfly_factor": 1,
+  "boft_dropout": 0.0,
+  "vera_rank": 256,
+  "vera_projection_prng_key": 0,
+  "vera_dropout": 0.0,
+  "vera_d_initial": 0.1,
+  "adapter_act": "gelu",
+  "adapter_length": 128,
+  "use_galore": false,
+  "galore_target_modules": null,
+  "galore_rank": 128,
+  "galore_update_proj_gap": 50,
+  "galore_scale": 1.0,
+  "galore_proj_type": "std",
+  "galore_optim_per_parameter": false,
+  "galore_with_embedding": false,
+  "galore_quantization": false,
+  "galore_proj_quant": false,
+  "galore_proj_bits": 4,
+  "galore_proj_group_size": 256,
+  "galore_cos_threshold": 0.4,
+  "galore_gamma_proj": 2,
+  "galore_queue_size": 5,
+  "adalora_target_r": 8,
+  "adalora_init_r": 12,
+  "adalora_tinit": 0,
+  "adalora_tfinal": 0,
+  "adalora_deltaT": 1,
+  "adalora_beta1": 0.85,
+  "adalora_beta2": 0.85,
+  "adalora_orth_reg_weight": 0.5,
+  "ia3_feedforward_modules": [],
+  "llamapro_num_new_blocks": 4,
+  "llamapro_num_groups": null,
+  "neftune_noise_alpha": null,
+  "neftune_backend": "transformers",
+  "lisa_activated_layers": 0,
+  "lisa_step_interval": 20,
+  "reft_layer_key": null,
+  "reft_layers": null,
+  "reft_rank": 4,
+  "reft_intervention_type": "LoreftIntervention",
+  "reft_args": null,
+  "use_liger": false,
+  "gradient_checkpointing": true,
+  "deepspeed": null,
+  "batch_size": 1,
+  "eval_batch_size": 1,
+  "auto_find_batch_size": false,
+  "num_train_epochs": 2,
+  "max_steps": -1,
+  "optim": "adamw_torch",
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.95,
+  "adam_epsilon": 1e-08,
+  "learning_rate": 0.0001,
+  "weight_decay": 0.1,
+  "gradient_accumulation_steps": 4,
+  "max_grad_norm": 1,
+  "predict_with_generate": false,
+  "lr_scheduler_type": "cosine",
+  "lr_scheduler_kwargs": {},
+  "warmup_ratio": 0.05,
+  "warmup_steps": 0,
+  "eval_steps": 50,
+  "save_steps": 50,
+  "save_only_model": false,
+  "save_total_limit": 2,
+  "logging_steps": 5,
+  "acc_steps": 1,
+  "dataloader_num_workers": 1,
+  "dataloader_pin_memory": true,
+  "dataloader_drop_last": false,
+  "push_to_hub": false,
+  "hub_model_id": null,
+  "hub_token": null,
+  "hub_private_repo": false,
+  "hub_strategy": "every_save",
+  "test_oom_error": false,
+  "disable_tqdm": false,
+  "lazy_tokenize": true,
+  "preprocess_num_proc": 1,
+  "use_flash_attn": null,
+  "ignore_args_error": false,
+  "check_model_is_latest": true,
+  "logging_dir": "/fs/clip-projects/geoguesser/vlms/cpm/output/minicpm-v-v2_6-chat/v3-20241108-065955/runs",
+  "report_to": [
+    "tensorboard"
+  ],
+  "acc_strategy": "token",
+  "save_on_each_node": false,
+  "evaluation_strategy": "steps",
+  "save_strategy": "steps",
+  "save_safetensors": true,
+  "gpu_memory_fraction": null,
+  "include_num_input_tokens_seen": false,
+  "local_repo_path": null,
+  "custom_register_path": null,
+  "custom_dataset_info": null,
+  "device_map_config": null,
+  "device_max_memory": [],
+  "max_new_tokens": 2048,
+  "do_sample": null,
+  "temperature": null,
+  "top_k": null,
+  "top_p": null,
+  "repetition_penalty": null,
+  "num_beams": 1,
+  "fsdp": "",
+  "fsdp_config": null,
+  "sequence_parallel_size": 1,
+  "model_layer_cls_name": null,
+  "metric_warmup_step": 0,
+  "fsdp_num": 1,
+  "per_device_train_batch_size": null,
+  "per_device_eval_batch_size": null,
+  "eval_strategy": null,
+  "self_cognition_sample": 0,
+  "train_dataset_mix_ratio": 0.0,
+  "train_dataset_mix_ds": [
+    "ms-bench"
+  ],
+  "train_dataset_sample": -1,
+  "val_dataset_sample": null,
+  "safe_serialization": null,
+  "only_save_model": null,
+  "neftune_alpha": null,
+  "deepspeed_config_path": null,
+  "model_cache_dir": null,
+  "lora_dropout_p": null,
+  "lora_target_modules": [],
+  "lora_target_regex": null,
+  "lora_modules_to_save": [],
+  "boft_target_modules": [],
+  "boft_modules_to_save": [],
+  "vera_target_modules": [],
+  "vera_modules_to_save": [],
+  "ia3_target_modules": [],
+  "ia3_modules_to_save": [],
+  "custom_train_dataset_path": [],
+  "custom_val_dataset_path": [],
+  "device_map_config_path": null,
+  "push_hub_strategy": null,
+  "use_self_cognition": false,
+  "is_multimodal": true,
+  "is_vision": true,
+  "lora_use_embedding": false,
+  "lora_use_all": false,
+  "lora_m2s_use_embedding": false,
+  "lora_m2s_use_ln": false,
+  "torch_dtype": "torch.bfloat16",
+  "fp16": false,
+  "bf16": true,
+  "rank": -1,
+  "local_rank": -1,
+  "world_size": 1,
+  "local_world_size": 1,
+  "bnb_4bit_compute_dtype": "torch.bfloat16",
+  "load_in_4bit": false,
+  "load_in_8bit": false,
+  "train_sampler_random": true,
+  "train_type": "sft",
+  "training_args": "Seq2SeqTrainingArguments(output_dir='/fs/clip-projects/geoguesser/vlms/cpm/output/minicpm-v-v2_6-chat/v3-20241108-065955', overwrite_output_dir=False, do_train=False, do_eval=True, do_predict=False, eval_strategy=<IntervalStrategy.STEPS: 'steps'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=4, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=0.0001, weight_decay=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, max_grad_norm=1, num_train_epochs=2, max_steps=-1, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs={}, warmup_ratio=0.05, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/fs/clip-projects/geoguesser/vlms/cpm/output/minicpm-v-v2_6-chat/v3-20241108-065955/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=5, logging_nan_inf_filter=True, save_strategy=<IntervalStrategy.STEPS: 'steps'>, save_steps=50, save_total_limit=2, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, use_ipex=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=50, dataloader_num_workers=1, dataloader_prefetch_factor=None, past_index=-1, run_name='/fs/clip-projects/geoguesser/vlms/cpm/output/minicpm-v-v2_6-chat/v3-20241108-065955', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), deepspeed=None, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['tensorboard'], ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=False, resume_from_checkpoint=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=False, hub_always_push=False, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, include_inputs_for_metrics=False, eval_do_concat_batches=True, fp16_backend='auto', evaluation_strategy=None, push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=1800, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, dispatch_batches=None, split_batches=None, include_tokens_per_second=False, include_num_input_tokens_seen=False, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, eval_use_gather_object=False, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=GenerationConfig {\n  \"bos_token_id\": 151643,\n  \"eos_token_id\": 151645,\n  \"max_new_tokens\": 2048,\n  \"pad_token_id\": 151643\n}\n, acc_strategy='token', loss_name=None, additional_saved_files=[], train_sampler_random=True, metric_warmup_step=0, train_dataset_sample=-1)"
+}

minicpm-v-v2_6-chat/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1202 @@

+{
+  "best_metric": 1.53044581,
+  "best_model_checkpoint": "/fs/clip-projects/geoguesser/vlms/cpm/output/minicpm-v-v2_6-chat/v3-20241108-065955/checkpoint-534",
+  "epoch": 1.9962616822429906,
+  "eval_steps": 50,
+  "global_step": 534,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "acc": 0.55045807,
+      "epoch": 0.003738317757009346,
+      "grad_norm": 1.613571286201477,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 1.95084548,
+      "memory(GiB)": 18.97,
+      "step": 1,
+      "train_speed(iter/s)": 0.133639
+    },
+    {
+      "acc": 0.50916213,
+      "epoch": 0.018691588785046728,
+      "grad_norm": 1.757776141166687,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 2.09828925,
+      "memory(GiB)": 19.98,
+      "step": 5,
+      "train_speed(iter/s)": 0.287053
+    },
+    {
+      "acc": 0.54273653,
+      "epoch": 0.037383177570093455,
+      "grad_norm": 1.2750011682510376,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 1.98593979,
+      "memory(GiB)": 19.98,
+      "step": 10,
+      "train_speed(iter/s)": 0.333912
+    },
+    {
+      "acc": 0.53456535,
+      "epoch": 0.056074766355140186,
+      "grad_norm": 1.1665784120559692,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 1.90109081,
+      "memory(GiB)": 21.0,
+      "step": 15,
+      "train_speed(iter/s)": 0.352318
+    },
+    {
+      "acc": 0.54925652,
+      "epoch": 0.07476635514018691,
+      "grad_norm": 1.3744975328445435,
+      "learning_rate": 7.407407407407407e-05,
+      "loss": 1.76896648,
+      "memory(GiB)": 21.0,
+      "step": 20,
+      "train_speed(iter/s)": 0.362181
+    },
+    {
+      "acc": 0.5564671,
+      "epoch": 0.09345794392523364,
+      "grad_norm": 1.2068527936935425,
+      "learning_rate": 9.25925925925926e-05,
+      "loss": 1.65932693,
+      "memory(GiB)": 21.0,
+      "step": 25,
+      "train_speed(iter/s)": 0.368232
+    },
+    {
+      "acc": 0.55754151,
+      "epoch": 0.11214953271028037,
+      "grad_norm": 0.974327802658081,
+      "learning_rate": 9.999136119166803e-05,
+      "loss": 1.7156683,
+      "memory(GiB)": 22.04,
+      "step": 30,
+      "train_speed(iter/s)": 0.3718
+    },
+    {
+      "acc": 0.554459,
+      "epoch": 0.1308411214953271,
+      "grad_norm": 1.1023714542388916,
+      "learning_rate": 9.99385792841537e-05,
+      "loss": 1.76657219,
+      "memory(GiB)": 22.04,
+      "step": 35,
+      "train_speed(iter/s)": 0.37456
+    },
+    {
+      "acc": 0.55972748,
+      "epoch": 0.14953271028037382,
+      "grad_norm": 1.0901970863342285,
+      "learning_rate": 9.983786540671051e-05,
+      "loss": 1.64107857,
+      "memory(GiB)": 23.08,
+      "step": 40,
+      "train_speed(iter/s)": 0.376463
+    },
+    {
+      "acc": 0.5773067,
+      "epoch": 0.16822429906542055,
+      "grad_norm": 1.043094277381897,
+      "learning_rate": 9.968931622637652e-05,
+      "loss": 1.62755222,
+      "memory(GiB)": 23.08,
+      "step": 45,
+      "train_speed(iter/s)": 0.378202
+    },
+    {
+      "acc": 0.5643084,
+      "epoch": 0.18691588785046728,
+      "grad_norm": 1.1167865991592407,
+      "learning_rate": 9.949307432339625e-05,
+      "loss": 1.67872505,
+      "memory(GiB)": 23.08,
+      "step": 50,
+      "train_speed(iter/s)": 0.379293
+    },
+    {
+      "epoch": 0.18691588785046728,
+      "eval_acc": 0.5715999400209927,
+      "eval_loss": 1.6141570806503296,
+      "eval_runtime": 19.3426,
+      "eval_samples_per_second": 2.585,
+      "eval_steps_per_second": 2.585,
+      "step": 50
+    },
+    {
+      "acc": 0.57612801,
+      "epoch": 0.205607476635514,
+      "grad_norm": 1.0558923482894897,
+      "learning_rate": 9.924932805436949e-05,
+      "loss": 1.57275066,
+      "memory(GiB)": 23.08,
+      "step": 55,
+      "train_speed(iter/s)": 0.333772
+    },
+    {
+      "acc": 0.56456318,
+      "epoch": 0.22429906542056074,
+      "grad_norm": 1.2267849445343018,
+      "learning_rate": 9.895831137146318e-05,
+      "loss": 1.62593994,
+      "memory(GiB)": 23.08,
+      "step": 60,
+      "train_speed(iter/s)": 0.337909
+    },
+    {
+      "acc": 0.57293587,
+      "epoch": 0.24299065420560748,
+      "grad_norm": 1.203539252281189,
+      "learning_rate": 9.862030359785981e-05,
+      "loss": 1.62202415,
+      "memory(GiB)": 23.08,
+      "step": 65,
+      "train_speed(iter/s)": 0.341402
+    },
+    {
+      "acc": 0.56972237,
+      "epoch": 0.2616822429906542,
+      "grad_norm": 1.1968094110488892,
+      "learning_rate": 9.82356291596578e-05,
+      "loss": 1.62049065,
+      "memory(GiB)": 23.08,
+      "step": 70,
+      "train_speed(iter/s)": 0.344462
+    },
+    {
+      "acc": 0.56793709,
+      "epoch": 0.2803738317757009,
+      "grad_norm": 1.1416860818862915,
+      "learning_rate": 9.780465727448149e-05,
+      "loss": 1.68797512,
+      "memory(GiB)": 24.13,
+      "step": 75,
+      "train_speed(iter/s)": 0.346849
+    },
+    {
+      "acc": 0.58297682,
+      "epoch": 0.29906542056074764,
+      "grad_norm": 1.1054881811141968,
+      "learning_rate": 9.732780159709912e-05,
+      "loss": 1.57775593,
+      "memory(GiB)": 24.13,
+      "step": 80,
+      "train_speed(iter/s)": 0.349274
+    },
+    {
+      "acc": 0.57728238,
+      "epoch": 0.3177570093457944,
+      "grad_norm": 1.1610243320465088,
+      "learning_rate": 9.680551982238942e-05,
+      "loss": 1.59094667,
+      "memory(GiB)": 24.13,
+      "step": 85,
+      "train_speed(iter/s)": 0.351479
+    },
+    {
+      "acc": 0.5719296,
+      "epoch": 0.3364485981308411,
+      "grad_norm": 1.1896332502365112,
+      "learning_rate": 9.623831324603754e-05,
+      "loss": 1.65499535,
+      "memory(GiB)": 24.13,
+      "step": 90,
+      "train_speed(iter/s)": 0.353415
+    },
+    {
+      "acc": 0.58935571,
+      "epoch": 0.35514018691588783,
+      "grad_norm": 1.0724711418151855,
+      "learning_rate": 9.562672628338233e-05,
+      "loss": 1.58491564,
+      "memory(GiB)": 24.13,
+      "step": 95,
+      "train_speed(iter/s)": 0.355195
+    },
+    {
+      "acc": 0.56192031,
+      "epoch": 0.37383177570093457,
+      "grad_norm": 1.0967603921890259,
+      "learning_rate": 9.497134594687634e-05,
+      "loss": 1.68490829,
+      "memory(GiB)": 24.13,
+      "step": 100,
+      "train_speed(iter/s)": 0.356737
+    },
+    {
+      "epoch": 0.37383177570093457,
+      "eval_acc": 0.5846453741190584,
+      "eval_loss": 1.5773682594299316,
+      "eval_runtime": 19.3689,
+      "eval_samples_per_second": 2.581,
+      "eval_steps_per_second": 2.581,
+      "step": 100
+    },
+    {
+      "acc": 0.58094668,
+      "epoch": 0.3925233644859813,
+      "grad_norm": 1.0203641653060913,
+      "learning_rate": 9.42728012826605e-05,
+      "loss": 1.63088989,
+      "memory(GiB)": 24.13,
+      "step": 105,
+      "train_speed(iter/s)": 0.334857
+    },
+    {
+      "acc": 0.56821561,
+      "epoch": 0.411214953271028,
+      "grad_norm": 1.0685813426971436,
+      "learning_rate": 9.353176276679396e-05,
+      "loss": 1.67582684,
+      "memory(GiB)": 24.13,
+      "step": 110,
+      "train_speed(iter/s)": 0.33707
+    },
+    {
+      "acc": 0.56454325,
+      "epoch": 0.42990654205607476,
+      "grad_norm": 1.1684739589691162,
+      "learning_rate": 9.274894166171888e-05,
+      "loss": 1.63463154,
+      "memory(GiB)": 24.13,
+      "step": 115,
+      "train_speed(iter/s)": 0.33915
+    },
+    {
+      "acc": 0.57855415,
+      "epoch": 0.4485981308411215,
+      "grad_norm": 1.077269434928894,
+      "learning_rate": 9.192508933357753e-05,
+      "loss": 1.67274055,
+      "memory(GiB)": 24.13,
+      "step": 120,
+      "train_speed(iter/s)": 0.341042
+    },
+    {
+      "acc": 0.57130666,
+      "epoch": 0.4672897196261682,
+      "grad_norm": 1.066927194595337,
+      "learning_rate": 9.106099653103728e-05,
+      "loss": 1.57755241,
+      "memory(GiB)": 24.13,
+      "step": 125,
+      "train_speed(iter/s)": 0.34276
+    },
+    {
+      "acc": 0.57805595,
+      "epoch": 0.48598130841121495,
+      "grad_norm": 1.214378833770752,
+      "learning_rate": 9.015749262631536e-05,
+      "loss": 1.5515789,
+      "memory(GiB)": 24.13,
+      "step": 130,
+      "train_speed(iter/s)": 0.344333
+    },
+    {
+      "acc": 0.58489175,
+      "epoch": 0.5046728971962616,
+      "grad_norm": 1.2008962631225586,
+      "learning_rate": 8.921544481913218e-05,
+      "loss": 1.60749855,
+      "memory(GiB)": 24.13,
+      "step": 135,
+      "train_speed(iter/s)": 0.345892
+    },
+    {
+      "acc": 0.55853381,
+      "epoch": 0.5233644859813084,
+      "grad_norm": 1.1639275550842285,
+      "learning_rate": 8.823575730435693e-05,
+      "loss": 1.63589153,
+      "memory(GiB)": 25.22,
+      "step": 140,
+      "train_speed(iter/s)": 0.3473
+    },
+    {
+      "acc": 0.57799473,
+      "epoch": 0.5420560747663551,
+      "grad_norm": 1.0502570867538452,
+      "learning_rate": 8.721937040414481e-05,
+      "loss": 1.55451593,
+      "memory(GiB)": 25.22,
+      "step": 145,
+      "train_speed(iter/s)": 0.348596
+    },
+    {
+      "acc": 0.56694794,
+      "epoch": 0.5607476635514018,
+      "grad_norm": 1.2373900413513184,
+      "learning_rate": 8.616725966539832e-05,
+      "loss": 1.64150391,
+      "memory(GiB)": 25.22,
+      "step": 150,
+      "train_speed(iter/s)": 0.349855
+    },
+    {
+      "epoch": 0.5607476635514018,
+      "eval_acc": 0.5879442195231669,
+      "eval_loss": 1.5577113628387451,
+      "eval_runtime": 19.4081,
+      "eval_samples_per_second": 2.576,
+      "eval_steps_per_second": 2.576,
+      "step": 150
+    },
+    {
+      "acc": 0.57931132,
+      "epoch": 0.5794392523364486,
+      "grad_norm": 1.148728847503662,
+      "learning_rate": 8.508043492341944e-05,
+      "loss": 1.59622688,
+      "memory(GiB)": 25.22,
+      "step": 155,
+      "train_speed(iter/s)": 0.335587
+    },
+    {
+      "acc": 0.57598162,
+      "epoch": 0.5981308411214953,
+      "grad_norm": 1.1714155673980713,
+      "learning_rate": 8.395993933265101e-05,
+      "loss": 1.63730679,
+      "memory(GiB)": 25.22,
+      "step": 160,
+      "train_speed(iter/s)": 0.337039
+    },
+    {
+      "acc": 0.56635065,
+      "epoch": 0.616822429906542,
+      "grad_norm": 1.000349521636963,
+      "learning_rate": 8.280684836543794e-05,
+      "loss": 1.61145477,
+      "memory(GiB)": 25.22,
+      "step": 165,
+      "train_speed(iter/s)": 0.338357
+    },
+    {
+      "acc": 0.57298255,
+      "epoch": 0.6355140186915887,
+      "grad_norm": 1.1170839071273804,
+      "learning_rate": 8.162226877976887e-05,
+      "loss": 1.59238987,
+      "memory(GiB)": 25.22,
+      "step": 170,
+      "train_speed(iter/s)": 0.339705
+    },
+    {
+      "acc": 0.58343244,
+      "epoch": 0.6542056074766355,
+      "grad_norm": 1.0932862758636475,
+      "learning_rate": 8.040733755698955e-05,
+      "loss": 1.58805714,
+      "memory(GiB)": 25.22,
+      "step": 175,
+      "train_speed(iter/s)": 0.340942
+    },
+    {
+      "acc": 0.5746861,
+      "epoch": 0.6728971962616822,
+      "grad_norm": 1.147817850112915,
+      "learning_rate": 7.916322081050709e-05,
+      "loss": 1.58162947,
+      "memory(GiB)": 25.22,
+      "step": 180,
+      "train_speed(iter/s)": 0.342139
+    },
+    {
+      "acc": 0.57306166,
+      "epoch": 0.6915887850467289,
+      "grad_norm": 1.076221227645874,
+      "learning_rate": 7.789111266653285e-05,
+      "loss": 1.58194542,
+      "memory(GiB)": 25.22,
+      "step": 185,
+      "train_speed(iter/s)": 0.343249
+    },
+    {
+      "acc": 0.58896809,
+      "epoch": 0.7102803738317757,
+      "grad_norm": 1.1743425130844116,
+      "learning_rate": 7.659223411793798e-05,
+      "loss": 1.53554783,
+      "memory(GiB)": 25.22,
+      "step": 190,
+      "train_speed(iter/s)": 0.344334
+    },
+    {
+      "acc": 0.57240195,
+      "epoch": 0.7289719626168224,
+      "grad_norm": 1.0945876836776733,
+      "learning_rate": 7.526783185232207e-05,
+      "loss": 1.59289436,
+      "memory(GiB)": 25.22,
+      "step": 195,
+      "train_speed(iter/s)": 0.345336
+    },
+    {
+      "acc": 0.5794302,
+      "epoch": 0.7476635514018691,
+      "grad_norm": 1.1055279970169067,
+      "learning_rate": 7.391917705541927e-05,
+      "loss": 1.621562,
+      "memory(GiB)": 25.22,
+      "step": 200,
+      "train_speed(iter/s)": 0.346324
+    },
+    {
+      "epoch": 0.7476635514018691,
+      "eval_acc": 0.5871944819313241,
+      "eval_loss": 1.5511505603790283,
+      "eval_runtime": 19.403,
+      "eval_samples_per_second": 2.577,
+      "eval_steps_per_second": 2.577,
+      "step": 200
+    },
+    {
+      "acc": 0.56806307,
+      "epoch": 0.7663551401869159,
+      "grad_norm": 1.017061471939087,
+      "learning_rate": 7.254756419099074e-05,
+      "loss": 1.6349041,
+      "memory(GiB)": 25.22,
+      "step": 205,
+      "train_speed(iter/s)": 0.335703
+    },
+    {
+      "acc": 0.56848702,
+      "epoch": 0.7850467289719626,
+      "grad_norm": 1.1138246059417725,
+      "learning_rate": 7.115430975837457e-05,
+      "loss": 1.60775127,
+      "memory(GiB)": 25.22,
+      "step": 210,
+      "train_speed(iter/s)": 0.336869
+    },
+    {
+      "acc": 0.58039517,
+      "epoch": 0.8037383177570093,
+      "grad_norm": 1.2759917974472046,
+      "learning_rate": 6.974075102888536e-05,
+      "loss": 1.59430618,
+      "memory(GiB)": 25.22,
+      "step": 215,
+      "train_speed(iter/s)": 0.337979
+    },
+    {
+      "acc": 0.56688986,
+      "epoch": 0.822429906542056,
+      "grad_norm": 1.259171724319458,
+      "learning_rate": 6.830824476227646e-05,
+      "loss": 1.61376076,
+      "memory(GiB)": 25.22,
+      "step": 220,
+      "train_speed(iter/s)": 0.339033
+    },
+    {
+      "acc": 0.58966751,
+      "epoch": 0.8411214953271028,
+      "grad_norm": 1.1861165761947632,
+      "learning_rate": 6.685816590449708e-05,
+      "loss": 1.56043501,
+      "memory(GiB)": 25.22,
+      "step": 225,
+      "train_speed(iter/s)": 0.340035
+    },
+    {
+      "acc": 0.58497729,
+      "epoch": 0.8598130841121495,
+      "grad_norm": 1.1015815734863281,
+      "learning_rate": 6.539190626799366e-05,
+      "loss": 1.57877932,
+      "memory(GiB)": 25.22,
+      "step": 230,
+      "train_speed(iter/s)": 0.341016
+    },
+    {
+      "acc": 0.58781128,
+      "epoch": 0.8785046728971962,
+      "grad_norm": 1.2020829916000366,
+      "learning_rate": 6.391087319582264e-05,
+      "loss": 1.57381382,
+      "memory(GiB)": 25.22,
+      "step": 235,
+      "train_speed(iter/s)": 0.341901
+    },
+    {
+      "acc": 0.57930512,
+      "epoch": 0.897196261682243,
+      "grad_norm": 1.1107765436172485,
+      "learning_rate": 6.241648821085666e-05,
+      "loss": 1.56744556,
+      "memory(GiB)": 25.22,
+      "step": 240,
+      "train_speed(iter/s)": 0.338406
+    },
+    {
+      "acc": 0.57636843,
+      "epoch": 0.9158878504672897,
+      "grad_norm": 1.1953294277191162,
+      "learning_rate": 6.0910185651380626e-05,
+      "loss": 1.53063288,
+      "memory(GiB)": 25.22,
+      "step": 245,
+      "train_speed(iter/s)": 0.339394
+    },
+    {
+      "acc": 0.57735896,
+      "epoch": 0.9345794392523364,
+      "grad_norm": 1.1470882892608643,
+      "learning_rate": 5.939341129438739e-05,
+      "loss": 1.64163361,
+      "memory(GiB)": 25.22,
+      "step": 250,
+      "train_speed(iter/s)": 0.340265
+    },
+    {
+      "epoch": 0.9345794392523364,
+      "eval_acc": 0.5865946918578497,
+      "eval_loss": 1.539453148841858,
+      "eval_runtime": 19.2796,
+      "eval_samples_per_second": 2.593,
+      "eval_steps_per_second": 2.593,
+      "step": 250
+    },
+    {
+      "acc": 0.55690722,
+      "epoch": 0.9532710280373832,
+      "grad_norm": 1.225205421447754,
+      "learning_rate": 5.786762096789431e-05,
+      "loss": 1.68273106,
+      "memory(GiB)": 25.22,
+      "step": 255,
+      "train_speed(iter/s)": 0.332148
+    },
+    {
+      "acc": 0.56964278,
+      "epoch": 0.9719626168224299,
+      "grad_norm": 1.0283957719802856,
+      "learning_rate": 5.633427915361261e-05,
+      "loss": 1.64168797,
+      "memory(GiB)": 25.22,
+      "step": 260,
+      "train_speed(iter/s)": 0.333054
+    },
+    {
+      "acc": 0.55817146,
+      "epoch": 0.9906542056074766,
+      "grad_norm": 1.0989590883255005,
+      "learning_rate": 5.479485758131089e-05,
+      "loss": 1.61564522,
+      "memory(GiB)": 25.22,
+      "step": 265,
+      "train_speed(iter/s)": 0.333997
+    },
+    {
+      "acc": 0.59431157,
+      "epoch": 1.0093457943925233,
+      "grad_norm": 1.0156042575836182,
+      "learning_rate": 5.325083381622165e-05,
+      "loss": 1.54522419,
+      "memory(GiB)": 25.22,
+      "step": 270,
+      "train_speed(iter/s)": 0.334781
+    },
+    {
+      "acc": 0.59816217,
+      "epoch": 1.02803738317757,
+      "grad_norm": 1.1333341598510742,
+      "learning_rate": 5.1703689840846945e-05,
+      "loss": 1.43400564,
+      "memory(GiB)": 25.22,
+      "step": 275,
+      "train_speed(iter/s)": 0.335687
+    },
+    {
+      "acc": 0.5830586,
+      "epoch": 1.0467289719626167,
+      "grad_norm": 1.289959192276001,
+      "learning_rate": 5.01549106325243e-05,
+      "loss": 1.52126703,
+      "memory(GiB)": 25.22,
+      "step": 280,
+      "train_speed(iter/s)": 0.336526
+    },
+    {
+      "acc": 0.62401681,
+      "epoch": 1.0654205607476634,
+      "grad_norm": 1.3222240209579468,
+      "learning_rate": 4.860598273811792e-05,
+      "loss": 1.36042976,
+      "memory(GiB)": 25.22,
+      "step": 285,
+      "train_speed(iter/s)": 0.337368
+    },
+    {
+      "acc": 0.57799129,
+      "epoch": 1.0841121495327102,
+      "grad_norm": 1.261518120765686,
+      "learning_rate": 4.705839284720376e-05,
+      "loss": 1.48789501,
+      "memory(GiB)": 25.22,
+      "step": 290,
+      "train_speed(iter/s)": 0.338162
+    },
+    {
+      "acc": 0.60333071,
+      "epoch": 1.102803738317757,
+      "grad_norm": 1.351491928100586,
+      "learning_rate": 4.55136263651172e-05,
+      "loss": 1.49587126,
+      "memory(GiB)": 25.22,
+      "step": 295,
+      "train_speed(iter/s)": 0.338912
+    },
+    {
+      "acc": 0.61315393,
+      "epoch": 1.1214953271028036,
+      "grad_norm": 1.6314853429794312,
+      "learning_rate": 4.397316598723385e-05,
+      "loss": 1.43088112,
+      "memory(GiB)": 25.22,
+      "step": 300,
+      "train_speed(iter/s)": 0.339653
+    },
+    {
+      "epoch": 1.1214953271028036,
+      "eval_acc": 0.5912430649272754,
+      "eval_loss": 1.5384690761566162,
+      "eval_runtime": 19.3435,
+      "eval_samples_per_second": 2.585,
+      "eval_steps_per_second": 2.585,
+      "step": 300
+    },
+    {
+      "acc": 0.60021753,
+      "epoch": 1.1401869158878504,
+      "grad_norm": 1.4269309043884277,
+      "learning_rate": 4.243849027585096e-05,
+      "loss": 1.47466078,
+      "memory(GiB)": 25.22,
+      "step": 305,
+      "train_speed(iter/s)": 0.332888
+    },
+    {
+      "acc": 0.58526664,
+      "epoch": 1.158878504672897,
+      "grad_norm": 1.4827656745910645,
+      "learning_rate": 4.0911072241036194e-05,
+      "loss": 1.53870859,
+      "memory(GiB)": 25.22,
+      "step": 310,
+      "train_speed(iter/s)": 0.333651
+    },
+    {
+      "acc": 0.6124382,
+      "epoch": 1.1775700934579438,
+      "grad_norm": 1.428358793258667,
+      "learning_rate": 3.9392377926805226e-05,
+      "loss": 1.44478369,
+      "memory(GiB)": 25.22,
+      "step": 315,
+      "train_speed(iter/s)": 0.334437
+    },
+    {
+      "acc": 0.58961325,
+      "epoch": 1.1962616822429906,
+      "grad_norm": 1.4965459108352661,
+      "learning_rate": 3.788386500398583e-05,
+      "loss": 1.49487057,
+      "memory(GiB)": 25.22,
+      "step": 320,
+      "train_speed(iter/s)": 0.335206
+    },
+    {
+      "acc": 0.58942304,
+      "epoch": 1.2149532710280373,
+      "grad_norm": 1.3801062107086182,
+      "learning_rate": 3.6386981371118355e-05,
+      "loss": 1.44996719,
+      "memory(GiB)": 25.22,
+      "step": 325,
+      "train_speed(iter/s)": 0.335913
+    },
+    {
+      "acc": 0.5930171,
+      "epoch": 1.233644859813084,
+      "grad_norm": 1.550034523010254,
+      "learning_rate": 3.49031637647361e-05,
+      "loss": 1.4618269,
+      "memory(GiB)": 25.22,
+      "step": 330,
+      "train_speed(iter/s)": 0.336661
+    },
+    {
+      "acc": 0.61733942,
+      "epoch": 1.2523364485981308,
+      "grad_norm": 1.467942237854004,
+      "learning_rate": 3.343383638035902e-05,
+      "loss": 1.37453032,
+      "memory(GiB)": 25.22,
+      "step": 335,
+      "train_speed(iter/s)": 0.337353
+    },
+    {
+      "acc": 0.60188942,
+      "epoch": 1.2710280373831775,
+      "grad_norm": 1.571946620941162,
+      "learning_rate": 3.1980409505524544e-05,
+      "loss": 1.42003136,
+      "memory(GiB)": 25.22,
+      "step": 340,
+      "train_speed(iter/s)": 0.33804
+    },
+    {
+      "acc": 0.60350924,
+      "epoch": 1.2897196261682242,
+      "grad_norm": 1.773979663848877,
+      "learning_rate": 3.054427816616773e-05,
+      "loss": 1.40252638,
+      "memory(GiB)": 25.22,
+      "step": 345,
+      "train_speed(iter/s)": 0.338706
+    },
+    {
+      "acc": 0.59472365,
+      "epoch": 1.308411214953271,
+      "grad_norm": 1.5724050998687744,
+      "learning_rate": 2.91268207876494e-05,
+      "loss": 1.46759853,
+      "memory(GiB)": 25.22,
+      "step": 350,
+      "train_speed(iter/s)": 0.339365
+    },
+    {
+      "epoch": 1.308411214953271,
+      "eval_acc": 0.5880941670415355,
+      "eval_loss": 1.5372613668441772,
+      "eval_runtime": 19.309,
+      "eval_samples_per_second": 2.589,
+      "eval_steps_per_second": 2.589,
+      "step": 350
+    },
+    {
+      "acc": 0.60742517,
+      "epoch": 1.3271028037383177,
+      "grad_norm": 1.6696964502334595,
+      "learning_rate": 2.7729397871718304e-05,
+      "loss": 1.41251793,
+      "memory(GiB)": 25.22,
+      "step": 355,
+      "train_speed(iter/s)": 0.333524
+    },
+    {
+      "acc": 0.59874382,
+      "epoch": 1.3457943925233644,
+      "grad_norm": 1.631954550743103,
+      "learning_rate": 2.635335069067617e-05,
+      "loss": 1.43565807,
+      "memory(GiB)": 25.22,
+      "step": 360,
+      "train_speed(iter/s)": 0.33422
+    },
+    {
+      "acc": 0.62206426,
+      "epoch": 1.3644859813084111,
+      "grad_norm": 1.6964654922485352,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.40124302,
+      "memory(GiB)": 25.22,
+      "step": 365,
+      "train_speed(iter/s)": 0.334875
+    },
+    {
+      "acc": 0.60629749,
+      "epoch": 1.3831775700934579,
+      "grad_norm": 1.4727040529251099,
+      "learning_rate": 2.367064477065652e-05,
+      "loss": 1.4464427,
+      "memory(GiB)": 25.22,
+      "step": 370,
+      "train_speed(iter/s)": 0.335544
+    },
+    {
+      "acc": 0.60391579,
+      "epoch": 1.4018691588785046,
+      "grad_norm": 1.7280242443084717,
+      "learning_rate": 2.2366560942325832e-05,
+      "loss": 1.41403561,
+      "memory(GiB)": 25.22,
+      "step": 375,
+      "train_speed(iter/s)": 0.336204
+    },
+    {
+      "acc": 0.60924401,
+      "epoch": 1.4205607476635513,
+      "grad_norm": 1.7434614896774292,
+      "learning_rate": 2.108900019873103e-05,
+      "loss": 1.44466,
+      "memory(GiB)": 25.22,
+      "step": 380,
+      "train_speed(iter/s)": 0.336821
+    },
+    {
+      "acc": 0.62293906,
+      "epoch": 1.439252336448598,
+      "grad_norm": 1.5931147336959839,
+      "learning_rate": 1.983918876624902e-05,
+      "loss": 1.36733408,
+      "memory(GiB)": 25.22,
+      "step": 385,
+      "train_speed(iter/s)": 0.337406
+    },
+    {
+      "acc": 0.60391083,
+      "epoch": 1.4579439252336448,
+      "grad_norm": 1.8774250745773315,
+      "learning_rate": 1.8618326236955907e-05,
+      "loss": 1.47434216,
+      "memory(GiB)": 25.22,
+      "step": 390,
+      "train_speed(iter/s)": 0.337991
+    },
+    {
+      "acc": 0.59494829,
+      "epoch": 1.4766355140186915,
+      "grad_norm": 1.6903536319732666,
+      "learning_rate": 1.7427584417236194e-05,
+      "loss": 1.4961113,
+      "memory(GiB)": 25.22,
+      "step": 395,
+      "train_speed(iter/s)": 0.338556
+    },
+    {
+      "acc": 0.61160607,
+      "epoch": 1.4953271028037383,
+      "grad_norm": 1.6840981245040894,
+      "learning_rate": 1.626810620306163e-05,
+      "loss": 1.3965476,
+      "memory(GiB)": 25.22,
+      "step": 400,
+      "train_speed(iter/s)": 0.339121
+    },
+    {
+      "epoch": 1.4953271028037383,
+      "eval_acc": 0.5915429599640126,
+      "eval_loss": 1.5317269563674927,
+      "eval_runtime": 19.3286,
+      "eval_samples_per_second": 2.587,
+      "eval_steps_per_second": 2.587,
+      "step": 400
+    },
+    {
+      "acc": 0.59379582,
+      "epoch": 1.514018691588785,
+      "grad_norm": 1.6205955743789673,
+      "learning_rate": 1.5141004483018323e-05,
+      "loss": 1.44787579,
+      "memory(GiB)": 25.22,
+      "step": 405,
+      "train_speed(iter/s)": 0.333982
+    },
+    {
+      "acc": 0.61180854,
+      "epoch": 1.5327102803738317,
+      "grad_norm": 1.9331731796264648,
+      "learning_rate": 1.4047361070135995e-05,
+      "loss": 1.46465635,
+      "memory(GiB)": 25.22,
+      "step": 410,
+      "train_speed(iter/s)": 0.334588
+    },
+    {
+      "acc": 0.59493322,
+      "epoch": 1.5514018691588785,
+      "grad_norm": 1.579399824142456,
+      "learning_rate": 1.2988225663543602e-05,
+      "loss": 1.51334658,
+      "memory(GiB)": 25.22,
+      "step": 415,
+      "train_speed(iter/s)": 0.335141
+    },
+    {
+      "acc": 0.60085406,
+      "epoch": 1.5700934579439252,
+      "grad_norm": 1.7813141345977783,
+      "learning_rate": 1.1964614840949002e-05,
+      "loss": 1.44739676,
+      "memory(GiB)": 25.22,
+      "step": 420,
+      "train_speed(iter/s)": 0.335707
+    },
+    {
+      "acc": 0.59427462,
+      "epoch": 1.588785046728972,
+      "grad_norm": 1.6966168880462646,
+      "learning_rate": 1.097751108290867e-05,
+      "loss": 1.47780085,
+      "memory(GiB)": 25.22,
+      "step": 425,
+      "train_speed(iter/s)": 0.336254
+    },
+    {
+      "acc": 0.623209,
+      "epoch": 1.6074766355140186,
+      "grad_norm": 1.801193118095398,
+      "learning_rate": 1.0027861829824952e-05,
+      "loss": 1.37850494,
+      "memory(GiB)": 25.22,
+      "step": 430,
+      "train_speed(iter/s)": 0.336818
+    },
+    {
+      "acc": 0.60559597,
+      "epoch": 1.6261682242990654,
+      "grad_norm": 1.694907307624817,
+      "learning_rate": 9.11657857257509e-06,
+      "loss": 1.47119045,
+      "memory(GiB)": 25.22,
+      "step": 435,
+      "train_speed(iter/s)": 0.337357
+    },
+    {
+      "acc": 0.60444808,
+      "epoch": 1.644859813084112,
+      "grad_norm": 1.8144758939743042,
+      "learning_rate": 8.244535977645585e-06,
+      "loss": 1.46991854,
+      "memory(GiB)": 25.22,
+      "step": 440,
+      "train_speed(iter/s)": 0.337883
+    },
+    {
+      "acc": 0.61087198,
+      "epoch": 1.6635514018691588,
+      "grad_norm": 1.8258271217346191,
+      "learning_rate": 7.412571047611155e-06,
+      "loss": 1.39234638,
+      "memory(GiB)": 25.22,
+      "step": 445,
+      "train_speed(iter/s)": 0.3384
+    },
+    {
+      "acc": 0.60143399,
+      "epoch": 1.6822429906542056,
+      "grad_norm": 1.8941428661346436,
+      "learning_rate": 6.621482317764105e-06,
+      "loss": 1.43530188,
+      "memory(GiB)": 25.22,
+      "step": 450,
+      "train_speed(iter/s)": 0.338913
+    },
+    {
+      "epoch": 1.6822429906542056,
+      "eval_acc": 0.5921427500374868,
+      "eval_loss": 1.532676100730896,
+      "eval_runtime": 19.3483,
+      "eval_samples_per_second": 2.584,
+      "eval_steps_per_second": 2.584,
+      "step": 450
+    },
+    {
+      "acc": 0.61480565,
+      "epoch": 1.7009345794392523,
+      "grad_norm": 1.939122200012207,
+      "learning_rate": 5.872029089665587e-06,
+      "loss": 1.39058199,
+      "memory(GiB)": 25.22,
+      "step": 455,
+      "train_speed(iter/s)": 0.33434
+    },
+    {
+      "acc": 0.60005183,
+      "epoch": 1.719626168224299,
+      "grad_norm": 1.91712486743927,
+      "learning_rate": 5.164930702353782e-06,
+      "loss": 1.45630856,
+      "memory(GiB)": 25.22,
+      "step": 460,
+      "train_speed(iter/s)": 0.334872
+    },
+    {
+      "acc": 0.59249868,
+      "epoch": 1.7383177570093458,
+      "grad_norm": 1.6661227941513062,
+      "learning_rate": 4.500865841909168e-06,
+      "loss": 1.46352968,
+      "memory(GiB)": 25.22,
+      "step": 465,
+      "train_speed(iter/s)": 0.335375
+    },
+    {
+      "acc": 0.6019537,
+      "epoch": 1.7570093457943925,
+      "grad_norm": 1.7562310695648193,
+      "learning_rate": 3.880471890038967e-06,
+      "loss": 1.4511817,
+      "memory(GiB)": 25.22,
+      "step": 470,
+      "train_speed(iter/s)": 0.335886
+    },
+    {
+      "acc": 0.60008221,
+      "epoch": 1.7757009345794392,
+      "grad_norm": 1.6243735551834106,
+      "learning_rate": 3.3043443123065286e-06,
+      "loss": 1.49449492,
+      "memory(GiB)": 25.22,
+      "step": 475,
+      "train_speed(iter/s)": 0.336362
+    },
+    {
+      "acc": 0.59502878,
+      "epoch": 1.794392523364486,
+      "grad_norm": 2.1284008026123047,
+      "learning_rate": 2.7730360865923956e-06,
+      "loss": 1.46432257,
+      "memory(GiB)": 25.22,
+      "step": 480,
+      "train_speed(iter/s)": 0.336856
+    },
+    {
+      "acc": 0.58453884,
+      "epoch": 1.8130841121495327,
+      "grad_norm": 1.7423293590545654,
+      "learning_rate": 2.287057172336021e-06,
+      "loss": 1.53189554,
+      "memory(GiB)": 25.22,
+      "step": 485,
+      "train_speed(iter/s)": 0.337332
+    },
+    {
+      "acc": 0.59840698,
+      "epoch": 1.8317757009345794,
+      "grad_norm": 1.787650227546692,
+      "learning_rate": 1.8468740210672076e-06,
+      "loss": 1.44042816,
+      "memory(GiB)": 25.22,
+      "step": 490,
+      "train_speed(iter/s)": 0.337808
+    },
+    {
+      "acc": 0.60692272,
+      "epoch": 1.8504672897196262,
+      "grad_norm": 1.7444405555725098,
+      "learning_rate": 1.4529091286973995e-06,
+      "loss": 1.42584867,
+      "memory(GiB)": 25.22,
+      "step": 495,
+      "train_speed(iter/s)": 0.338284
+    },
+    {
+      "acc": 0.58918037,
+      "epoch": 1.8691588785046729,
+      "grad_norm": 1.7888891696929932,
+      "learning_rate": 1.1055406300002347e-06,
+      "loss": 1.48684044,
+      "memory(GiB)": 25.22,
+      "step": 500,
+      "train_speed(iter/s)": 0.338742
+    },
+    {
+      "epoch": 1.8691588785046729,
+      "eval_acc": 0.5931923826660669,
+      "eval_loss": 1.5313353538513184,
+      "eval_runtime": 19.3381,
+      "eval_samples_per_second": 2.586,
+      "eval_steps_per_second": 2.586,
+      "step": 500
+    },
+    {
+      "acc": 0.61618199,
+      "epoch": 1.8878504672897196,
+      "grad_norm": 1.9864728450775146,
+      "learning_rate": 8.0510193567086e-07,
+      "loss": 1.43374748,
+      "memory(GiB)": 25.22,
+      "step": 505,
+      "train_speed(iter/s)": 0.334578
+    },
+    {
+      "acc": 0.60259299,
+      "epoch": 1.9065420560747663,
+      "grad_norm": 1.688388705253601,
+      "learning_rate": 5.518814123121885e-07,
+      "loss": 1.49144144,
+      "memory(GiB)": 25.22,
+      "step": 510,
+      "train_speed(iter/s)": 0.335056
+    },
+    {
+      "acc": 0.61285515,
+      "epoch": 1.925233644859813,
+      "grad_norm": 1.6542000770568848,
+      "learning_rate": 3.4612210565528326e-07,
+      "loss": 1.44376268,
+      "memory(GiB)": 25.22,
+      "step": 515,
+      "train_speed(iter/s)": 0.335522
+    },
+    {
+      "acc": 0.61628981,
+      "epoch": 1.9439252336448598,
+      "grad_norm": 2.033604145050049,
+      "learning_rate": 1.8802150727962876e-07,
+      "loss": 1.39236612,
+      "memory(GiB)": 25.22,
+      "step": 520,
+      "train_speed(iter/s)": 0.335983
+    },
+    {
+      "acc": 0.62410831,
+      "epoch": 1.9626168224299065,
+      "grad_norm": 1.6692521572113037,
+      "learning_rate": 7.773136505700995e-08,
+      "loss": 1.36968622,
+      "memory(GiB)": 25.22,
+      "step": 525,
+      "train_speed(iter/s)": 0.336429
+    },
+    {
+      "acc": 0.60063834,
+      "epoch": 1.9813084112149533,
+      "grad_norm": 1.7963093519210815,
+      "learning_rate": 1.5357537501159423e-08,
+      "loss": 1.46681242,
+      "memory(GiB)": 25.22,
+      "step": 530,
+      "train_speed(iter/s)": 0.336698
+    },
+    {
+      "epoch": 1.9962616822429906,
+      "eval_acc": 0.5915429599640126,
+      "eval_loss": 1.5304458141326904,
+      "eval_runtime": 20.9568,
+      "eval_samples_per_second": 2.386,
+      "eval_steps_per_second": 2.386,
+      "step": 534
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 534,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.23057811304193e+16,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

minicpm-v-v2_6-chat/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3af870f81f5afa455e78d0a60a99ba632dc9eca9239b594c659caed624b59bf
+size 7416

qwen2-vl-7b-instruct/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: /fs/clip-projects/geoguesser/vlms/qwen/Qwen2-VL-7B-Instruct
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.12.0

qwen2-vl-7b-instruct/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/fs/clip-projects/geoguesser/vlms/qwen/Qwen2-VL-7B-Instruct",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": [],
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": "^(model)(?!.*(lm_head|output|emb|wte|shared)).*",
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

qwen2-vl-7b-instruct/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad3e18d84609148116c11627b4ee17df62b366c21aa774b2f935d104dc175a31
+size 80792096

qwen2-vl-7b-instruct/additional_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"lora_dtype": null, "lorap_lr_ratio": null, "lorap_emb_lr": 1e-06}

qwen2-vl-7b-instruct/configuration.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+    "framework": "pytorch",
+    "task": "image-text-to-text",
+    "allow_remote": true,
+    "adapter_cfg": {
+        "model_id_or_path": "/fs/clip-projects/geoguesser/vlms/qwen/Qwen2-VL-7B-Instruct",
+        "model_revision": "master",
+        "sft_type": "lora",
+        "tuner_backend": "peft",
+        "template_type": "qwen2-vl",
+        "dtype": "bf16",
+        "system": "You are a helpful assistant."
+    }
+}

qwen2-vl-7b-instruct/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": 151645,
+  "max_new_tokens": 2048,
+  "pad_token_id": 151643,
+  "temperature": 0.01,
+  "top_k": 1,
+  "top_p": 0.001,
+  "transformers_version": "4.45.1"
+}

qwen2-vl-7b-instruct/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47a76e0fedff89408fd4f5f5cc90b9d92a914f72baf530908a077c32e47e894e
+size 161810282

qwen2-vl-7b-instruct/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13685db7db07a31ba75d2613df933051064ed0b3f50d2ac2fbbb543b65f88f0c
+size 14244

qwen2-vl-7b-instruct/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b75bb0cab5c1ac64f1f42e99abb3e1c6d095394f6dd0c73c81aee621b476d6d9
+size 1064

qwen2-vl-7b-instruct/sft_args.json ADDED Viewed

	@@ -0,0 +1,247 @@

+{
+  "model_type": "qwen2-vl-7b-instruct",
+  "model_id_or_path": "/fs/clip-projects/geoguesser/vlms/qwen/Qwen2-VL-7B-Instruct",
+  "model_revision": "master",
+  "full_determinism": false,
+  "sft_type": "lora",
+  "freeze_parameters": [],
+  "freeze_vit": false,
+  "freeze_parameters_ratio": 0.0,
+  "additional_trainable_parameters": [],
+  "tuner_backend": "peft",
+  "template_type": "qwen2-vl",
+  "output_dir": "/fs/clip-projects/geoguesser/vlms/qwen/output/qwen2-vl-7b-instruct/v5-20241108-053635",
+  "add_output_dir_suffix": true,
+  "ddp_backend": null,
+  "ddp_find_unused_parameters": null,
+  "ddp_broadcast_buffers": null,
+  "ddp_timeout": 1800,
+  "seed": 42,
+  "resume_from_checkpoint": null,
+  "resume_only_model": false,
+  "ignore_data_skip": false,
+  "dtype": "bf16",
+  "packing": false,
+  "train_backend": "transformers",
+  "tp": 1,
+  "pp": 1,
+  "min_lr": null,
+  "sequence_parallel": false,
+  "model_kwargs": null,
+  "loss_name": null,
+  "dataset": [
+    "train_set_a.jsonl"
+  ],
+  "val_dataset": [
+    "test_set_a.jsonl"
+  ],
+  "dataset_seed": 42,
+  "dataset_test_ratio": 0.0,
+  "use_loss_scale": false,
+  "loss_scale_config_path": "/fs/clip-projects/geoguesser/zheyuan/DPO/swift/swift/llm/agent/default_loss_scale_config.json",
+  "system": "You are a helpful assistant.",
+  "tools_prompt": "react_en",
+  "max_length": 2048,
+  "truncation_strategy": "delete",
+  "check_dataset_strategy": "none",
+  "streaming": false,
+  "streaming_val_size": 0,
+  "streaming_buffer_size": 16384,
+  "model_name": [
+    null,
+    null
+  ],
+  "model_author": [
+    null,
+    null
+  ],
+  "quant_method": null,
+  "quantization_bit": 0,
+  "hqq_axis": 0,
+  "hqq_dynamic_config_path": null,
+  "bnb_4bit_comp_dtype": "bf16",
+  "bnb_4bit_quant_type": "nf4",
+  "bnb_4bit_use_double_quant": true,
+  "bnb_4bit_quant_storage": null,
+  "rescale_image": -1,
+  "target_modules": "^(model)(?!.*(lm_head|output|emb|wte|shared)).*",
+  "target_regex": null,
+  "modules_to_save": [],
+  "lora_rank": 8,
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "lora_bias_trainable": "none",
+  "lora_dtype": null,
+  "lora_lr_ratio": null,
+  "use_rslora": false,
+  "use_dora": false,
+  "init_lora_weights": true,
+  "fourier_n_frequency": 2000,
+  "fourier_scaling": 300.0,
+  "rope_scaling": null,
+  "boft_block_size": 4,
+  "boft_block_num": 0,
+  "boft_n_butterfly_factor": 1,
+  "boft_dropout": 0.0,
+  "vera_rank": 256,
+  "vera_projection_prng_key": 0,
+  "vera_dropout": 0.0,
+  "vera_d_initial": 0.1,
+  "adapter_act": "gelu",
+  "adapter_length": 128,
+  "use_galore": false,
+  "galore_target_modules": null,
+  "galore_rank": 128,
+  "galore_update_proj_gap": 50,
+  "galore_scale": 1.0,
+  "galore_proj_type": "std",
+  "galore_optim_per_parameter": false,
+  "galore_with_embedding": false,
+  "galore_quantization": false,
+  "galore_proj_quant": false,
+  "galore_proj_bits": 4,
+  "galore_proj_group_size": 256,
+  "galore_cos_threshold": 0.4,
+  "galore_gamma_proj": 2,
+  "galore_queue_size": 5,
+  "adalora_target_r": 8,
+  "adalora_init_r": 12,
+  "adalora_tinit": 0,
+  "adalora_tfinal": 0,
+  "adalora_deltaT": 1,
+  "adalora_beta1": 0.85,
+  "adalora_beta2": 0.85,
+  "adalora_orth_reg_weight": 0.5,
+  "ia3_feedforward_modules": [],
+  "llamapro_num_new_blocks": 4,
+  "llamapro_num_groups": null,
+  "neftune_noise_alpha": null,
+  "neftune_backend": "transformers",
+  "lisa_activated_layers": 0,
+  "lisa_step_interval": 20,
+  "reft_layer_key": null,
+  "reft_layers": null,
+  "reft_rank": 4,
+  "reft_intervention_type": "LoreftIntervention",
+  "reft_args": null,
+  "use_liger": false,
+  "gradient_checkpointing": true,
+  "deepspeed": null,
+  "batch_size": 1,
+  "eval_batch_size": 1,
+  "auto_find_batch_size": false,
+  "num_train_epochs": 2,
+  "max_steps": -1,
+  "optim": "adamw_torch",
+  "adam_beta1": 0.9,
+  "adam_beta2": 0.95,
+  "adam_epsilon": 1e-08,
+  "learning_rate": 0.0001,
+  "weight_decay": 0.1,
+  "gradient_accumulation_steps": 4,
+  "max_grad_norm": 1,
+  "predict_with_generate": false,
+  "lr_scheduler_type": "cosine",
+  "lr_scheduler_kwargs": {},
+  "warmup_ratio": 0.05,
+  "warmup_steps": 0,
+  "eval_steps": 50,
+  "save_steps": 50,
+  "save_only_model": false,
+  "save_total_limit": 2,
+  "logging_steps": 5,
+  "acc_steps": 1,
+  "dataloader_num_workers": 1,
+  "dataloader_pin_memory": true,
+  "dataloader_drop_last": false,
+  "push_to_hub": false,
+  "hub_model_id": null,
+  "hub_token": null,
+  "hub_private_repo": false,
+  "hub_strategy": "every_save",
+  "test_oom_error": false,
+  "disable_tqdm": false,
+  "lazy_tokenize": true,
+  "preprocess_num_proc": 1,
+  "use_flash_attn": null,
+  "ignore_args_error": false,
+  "check_model_is_latest": true,
+  "logging_dir": "/fs/clip-projects/geoguesser/vlms/qwen/output/qwen2-vl-7b-instruct/v5-20241108-053635/runs",
+  "report_to": [
+    "tensorboard"
+  ],
+  "acc_strategy": "token",
+  "save_on_each_node": false,
+  "evaluation_strategy": "steps",
+  "save_strategy": "steps",
+  "save_safetensors": true,
+  "gpu_memory_fraction": null,
+  "include_num_input_tokens_seen": false,
+  "local_repo_path": null,
+  "custom_register_path": null,
+  "custom_dataset_info": null,
+  "device_map_config": null,
+  "device_max_memory": [],
+  "max_new_tokens": 2048,
+  "do_sample": null,
+  "temperature": null,
+  "top_k": null,
+  "top_p": null,
+  "repetition_penalty": null,
+  "num_beams": 1,
+  "fsdp": "",
+  "fsdp_config": null,
+  "sequence_parallel_size": 1,
+  "model_layer_cls_name": null,
+  "metric_warmup_step": 0,
+  "fsdp_num": 1,
+  "per_device_train_batch_size": null,
+  "per_device_eval_batch_size": null,
+  "eval_strategy": null,
+  "self_cognition_sample": 0,
+  "train_dataset_mix_ratio": 0.0,
+  "train_dataset_mix_ds": [
+    "ms-bench"
+  ],
+  "train_dataset_sample": -1,
+  "val_dataset_sample": null,
+  "safe_serialization": null,
+  "only_save_model": null,
+  "neftune_alpha": null,
+  "deepspeed_config_path": null,
+  "model_cache_dir": null,
+  "lora_dropout_p": null,
+  "lora_target_modules": [],
+  "lora_target_regex": null,
+  "lora_modules_to_save": [],
+  "boft_target_modules": [],
+  "boft_modules_to_save": [],
+  "vera_target_modules": [],
+  "vera_modules_to_save": [],
+  "ia3_target_modules": [],
+  "ia3_modules_to_save": [],
+  "custom_train_dataset_path": [],
+  "custom_val_dataset_path": [],
+  "device_map_config_path": null,
+  "push_hub_strategy": null,
+  "use_self_cognition": false,
+  "is_multimodal": true,
+  "is_vision": true,
+  "lora_use_embedding": false,
+  "lora_use_all": false,
+  "lora_m2s_use_embedding": false,
+  "lora_m2s_use_ln": false,
+  "torch_dtype": "torch.bfloat16",
+  "fp16": false,
+  "bf16": true,
+  "rank": -1,
+  "local_rank": -1,
+  "world_size": 1,
+  "local_world_size": 1,
+  "bnb_4bit_compute_dtype": "torch.bfloat16",
+  "load_in_4bit": false,
+  "load_in_8bit": false,
+  "train_sampler_random": true,
+  "train_type": "sft",
+  "training_args": "Seq2SeqTrainingArguments(output_dir='/fs/clip-projects/geoguesser/vlms/qwen/output/qwen2-vl-7b-instruct/v5-20241108-053635', overwrite_output_dir=False, do_train=False, do_eval=True, do_predict=False, eval_strategy=<IntervalStrategy.STEPS: 'steps'>, prediction_loss_only=False, per_device_train_batch_size=1, per_device_eval_batch_size=1, per_gpu_train_batch_size=None, per_gpu_eval_batch_size=None, gradient_accumulation_steps=4, eval_accumulation_steps=None, eval_delay=0, torch_empty_cache_steps=None, learning_rate=0.0001, weight_decay=0.1, adam_beta1=0.9, adam_beta2=0.95, adam_epsilon=1e-08, max_grad_norm=1, num_train_epochs=2, max_steps=-1, lr_scheduler_type=<SchedulerType.COSINE: 'cosine'>, lr_scheduler_kwargs={}, warmup_ratio=0.05, warmup_steps=0, log_level='passive', log_level_replica='warning', log_on_each_node=True, logging_dir='/fs/clip-projects/geoguesser/vlms/qwen/output/qwen2-vl-7b-instruct/v5-20241108-053635/runs', logging_strategy=<IntervalStrategy.STEPS: 'steps'>, logging_first_step=True, logging_steps=5, logging_nan_inf_filter=True, save_strategy=<IntervalStrategy.STEPS: 'steps'>, save_steps=50, save_total_limit=2, save_safetensors=True, save_on_each_node=False, save_only_model=False, restore_callback_states_from_checkpoint=False, no_cuda=False, use_cpu=False, use_mps_device=False, seed=42, data_seed=42, jit_mode_eval=False, use_ipex=False, bf16=True, fp16=False, fp16_opt_level='O1', half_precision_backend='auto', bf16_full_eval=False, fp16_full_eval=False, tf32=None, local_rank=0, ddp_backend=None, tpu_num_cores=None, tpu_metrics_debug=False, debug=[], dataloader_drop_last=False, eval_steps=50, dataloader_num_workers=1, dataloader_prefetch_factor=None, past_index=-1, run_name='/fs/clip-projects/geoguesser/vlms/qwen/output/qwen2-vl-7b-instruct/v5-20241108-053635', disable_tqdm=False, remove_unused_columns=False, label_names=None, load_best_model_at_end=False, metric_for_best_model='loss', greater_is_better=False, ignore_data_skip=False, fsdp=[], fsdp_min_num_params=0, fsdp_config={'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}, fsdp_transformer_layer_cls_to_wrap=None, accelerator_config=AcceleratorConfig(split_batches=False, dispatch_batches=False, even_batches=True, use_seedable_sampler=True, non_blocking=False, gradient_accumulation_kwargs=None, use_configured_state=False), deepspeed=None, label_smoothing_factor=0.0, optim=<OptimizerNames.ADAMW_TORCH: 'adamw_torch'>, optim_args=None, adafactor=False, group_by_length=False, length_column_name='length', report_to=['tensorboard'], ddp_find_unused_parameters=None, ddp_bucket_cap_mb=None, ddp_broadcast_buffers=None, dataloader_pin_memory=True, dataloader_persistent_workers=False, skip_memory_metrics=True, use_legacy_prediction_loop=False, push_to_hub=False, resume_from_checkpoint=None, hub_model_id=None, hub_strategy=<HubStrategy.EVERY_SAVE: 'every_save'>, hub_token=None, hub_private_repo=False, hub_always_push=False, gradient_checkpointing=True, gradient_checkpointing_kwargs=None, include_inputs_for_metrics=False, eval_do_concat_batches=True, fp16_backend='auto', evaluation_strategy=None, push_to_hub_model_id=None, push_to_hub_organization=None, push_to_hub_token=None, mp_parameters='', auto_find_batch_size=False, full_determinism=False, torchdynamo=None, ray_scope='last', ddp_timeout=1800, torch_compile=False, torch_compile_backend=None, torch_compile_mode=None, dispatch_batches=None, split_batches=None, include_tokens_per_second=False, include_num_input_tokens_seen=False, neftune_noise_alpha=None, optim_target_modules=None, batch_eval_metrics=False, eval_on_start=False, use_liger_kernel=False, eval_use_gather_object=False, sortish_sampler=False, predict_with_generate=False, generation_max_length=None, generation_num_beams=None, generation_config=GenerationConfig {\n  \"bos_token_id\": 151643,\n  \"do_sample\": true,\n  \"eos_token_id\": 151645,\n  \"max_new_tokens\": 2048,\n  \"pad_token_id\": 151643,\n  \"temperature\": 0.01,\n  \"top_k\": 1,\n  \"top_p\": 0.001\n}\n, acc_strategy='token', loss_name=None, additional_saved_files=[], train_sampler_random=True, metric_warmup_step=0, train_dataset_sample=-1)"
+}

qwen2-vl-7b-instruct/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1202 @@

+{
+  "best_metric": 1.55006742,
+  "best_model_checkpoint": "/fs/clip-projects/geoguesser/vlms/qwen/output/qwen2-vl-7b-instruct/v5-20241108-053635/checkpoint-500",
+  "epoch": 1.9962616822429906,
+  "eval_steps": 50,
+  "global_step": 534,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "acc": 0.55171263,
+      "epoch": 0.003738317757009346,
+      "grad_norm": 1.868323802947998,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 1.850384,
+      "memory(GiB)": 31.32,
+      "step": 1,
+      "train_speed(iter/s)": 0.082547
+    },
+    {
+      "acc": 0.51965243,
+      "epoch": 0.018691588785046728,
+      "grad_norm": 1.9730364084243774,
+      "learning_rate": 1.8518518518518518e-05,
+      "loss": 2.06072664,
+      "memory(GiB)": 39.03,
+      "step": 5,
+      "train_speed(iter/s)": 0.11522
+    },
+    {
+      "acc": 0.54611473,
+      "epoch": 0.037383177570093455,
+      "grad_norm": 1.2351425886154175,
+      "learning_rate": 3.7037037037037037e-05,
+      "loss": 1.92748413,
+      "memory(GiB)": 40.38,
+      "step": 10,
+      "train_speed(iter/s)": 0.120543
+    },
+    {
+      "acc": 0.53391666,
+      "epoch": 0.056074766355140186,
+      "grad_norm": 1.3700778484344482,
+      "learning_rate": 5.555555555555556e-05,
+      "loss": 1.8874958,
+      "memory(GiB)": 41.74,
+      "step": 15,
+      "train_speed(iter/s)": 0.122255
+    },
+    {
+      "acc": 0.53817282,
+      "epoch": 0.07476635514018691,
+      "grad_norm": 1.5009832382202148,
+      "learning_rate": 7.407407407407407e-05,
+      "loss": 1.8099781,
+      "memory(GiB)": 41.74,
+      "step": 20,
+      "train_speed(iter/s)": 0.123099
+    },
+    {
+      "acc": 0.55321841,
+      "epoch": 0.09345794392523364,
+      "grad_norm": 1.3406466245651245,
+      "learning_rate": 9.25925925925926e-05,
+      "loss": 1.6683075,
+      "memory(GiB)": 41.74,
+      "step": 25,
+      "train_speed(iter/s)": 0.123552
+    },
+    {
+      "acc": 0.55131054,
+      "epoch": 0.11214953271028037,
+      "grad_norm": 1.2054580450057983,
+      "learning_rate": 9.999136119166803e-05,
+      "loss": 1.78306332,
+      "memory(GiB)": 43.11,
+      "step": 30,
+      "train_speed(iter/s)": 0.120219
+    },
+    {
+      "acc": 0.54619265,
+      "epoch": 0.1308411214953271,
+      "grad_norm": 1.3058720827102661,
+      "learning_rate": 9.99385792841537e-05,
+      "loss": 1.81088448,
+      "memory(GiB)": 43.11,
+      "step": 35,
+      "train_speed(iter/s)": 0.120961
+    },
+    {
+      "acc": 0.56460981,
+      "epoch": 0.14953271028037382,
+      "grad_norm": 1.2871434688568115,
+      "learning_rate": 9.983786540671051e-05,
+      "loss": 1.69376984,
+      "memory(GiB)": 44.48,
+      "step": 40,
+      "train_speed(iter/s)": 0.121524
+    },
+    {
+      "acc": 0.57231364,
+      "epoch": 0.16822429906542055,
+      "grad_norm": 1.1757748126983643,
+      "learning_rate": 9.968931622637652e-05,
+      "loss": 1.6526125,
+      "memory(GiB)": 44.48,
+      "step": 45,
+      "train_speed(iter/s)": 0.121972
+    },
+    {
+      "acc": 0.56770124,
+      "epoch": 0.18691588785046728,
+      "grad_norm": 1.3221774101257324,
+      "learning_rate": 9.949307432339625e-05,
+      "loss": 1.70850391,
+      "memory(GiB)": 44.48,
+      "step": 50,
+      "train_speed(iter/s)": 0.122298
+    },
+    {
+      "epoch": 0.18691588785046728,
+      "eval_acc": 0.5727995201679412,
+      "eval_loss": 1.6454861164093018,
+      "eval_runtime": 60.9474,
+      "eval_samples_per_second": 0.82,
+      "eval_steps_per_second": 0.82,
+      "step": 50
+    },
+    {
+      "acc": 0.56792145,
+      "epoch": 0.205607476635514,
+      "grad_norm": 1.3802762031555176,
+      "learning_rate": 9.924932805436949e-05,
+      "loss": 1.61318073,
+      "memory(GiB)": 44.48,
+      "step": 55,
+      "train_speed(iter/s)": 0.10774
+    },
+    {
+      "acc": 0.56201911,
+      "epoch": 0.22429906542056074,
+      "grad_norm": 1.4624619483947754,
+      "learning_rate": 9.895831137146318e-05,
+      "loss": 1.68176594,
+      "memory(GiB)": 44.48,
+      "step": 60,
+      "train_speed(iter/s)": 0.109037
+    },
+    {
+      "acc": 0.56515856,
+      "epoch": 0.24299065420560748,
+      "grad_norm": 1.3205868005752563,
+      "learning_rate": 9.862030359785981e-05,
+      "loss": 1.65190887,
+      "memory(GiB)": 44.48,
+      "step": 65,
+      "train_speed(iter/s)": 0.110146
+    },
+    {
+      "acc": 0.55511956,
+      "epoch": 0.2616822429906542,
+      "grad_norm": 1.3879112005233765,
+      "learning_rate": 9.82356291596578e-05,
+      "loss": 1.6682188,
+      "memory(GiB)": 44.48,
+      "step": 70,
+      "train_speed(iter/s)": 0.111111
+    },
+    {
+      "acc": 0.56104274,
+      "epoch": 0.2803738317757009,
+      "grad_norm": 1.3009270429611206,
+      "learning_rate": 9.780465727448149e-05,
+      "loss": 1.7461134,
+      "memory(GiB)": 45.86,
+      "step": 75,
+      "train_speed(iter/s)": 0.110878
+    },
+    {
+      "acc": 0.57672982,
+      "epoch": 0.29906542056074764,
+      "grad_norm": 1.3524978160858154,
+      "learning_rate": 9.732780159709912e-05,
+      "loss": 1.61342182,
+      "memory(GiB)": 45.86,
+      "step": 80,
+      "train_speed(iter/s)": 0.111688
+    },
+    {
+      "acc": 0.56858454,
+      "epoch": 0.3177570093457944,
+      "grad_norm": 1.368619680404663,
+      "learning_rate": 9.680551982238942e-05,
+      "loss": 1.62513695,
+      "memory(GiB)": 45.86,
+      "step": 85,
+      "train_speed(iter/s)": 0.112415
+    },
+    {
+      "acc": 0.56374822,
+      "epoch": 0.3364485981308411,
+      "grad_norm": 1.397831916809082,
+      "learning_rate": 9.623831324603754e-05,
+      "loss": 1.69306774,
+      "memory(GiB)": 45.86,
+      "step": 90,
+      "train_speed(iter/s)": 0.113063
+    },
+    {
+      "acc": 0.57811651,
+      "epoch": 0.35514018691588783,
+      "grad_norm": 1.271440029144287,
+      "learning_rate": 9.562672628338233e-05,
+      "loss": 1.63228798,
+      "memory(GiB)": 45.86,
+      "step": 95,
+      "train_speed(iter/s)": 0.113645
+    },
+    {
+      "acc": 0.5570353,
+      "epoch": 0.37383177570093457,
+      "grad_norm": 1.2964327335357666,
+      "learning_rate": 9.497134594687634e-05,
+      "loss": 1.72664585,
+      "memory(GiB)": 45.86,
+      "step": 100,
+      "train_speed(iter/s)": 0.114174
+    },
+    {
+      "epoch": 0.37383177570093457,
+      "eval_acc": 0.5792472634577898,
+      "eval_loss": 1.6085342168807983,
+      "eval_runtime": 62.4797,
+      "eval_samples_per_second": 0.8,
+      "eval_steps_per_second": 0.8,
+      "step": 100
+    },
+    {
+      "acc": 0.57630959,
+      "epoch": 0.3925233644859813,
+      "grad_norm": 1.244130253791809,
+      "learning_rate": 9.42728012826605e-05,
+      "loss": 1.64715214,
+      "memory(GiB)": 45.86,
+      "step": 105,
+      "train_speed(iter/s)": 0.107229
+    },
+    {
+      "acc": 0.5584549,
+      "epoch": 0.411214953271028,
+      "grad_norm": 1.3243989944458008,
+      "learning_rate": 9.353176276679396e-05,
+      "loss": 1.68698692,
+      "memory(GiB)": 45.86,
+      "step": 110,
+      "train_speed(iter/s)": 0.107951
+    },
+    {
+      "acc": 0.5546257,
+      "epoch": 0.42990654205607476,
+      "grad_norm": 1.437445878982544,
+      "learning_rate": 9.274894166171888e-05,
+      "loss": 1.66922894,
+      "memory(GiB)": 45.86,
+      "step": 115,
+      "train_speed(iter/s)": 0.10862
+    },
+    {
+      "acc": 0.57244515,
+      "epoch": 0.4485981308411215,
+      "grad_norm": 1.3543046712875366,
+      "learning_rate": 9.192508933357753e-05,
+      "loss": 1.70311775,
+      "memory(GiB)": 45.86,
+      "step": 120,
+      "train_speed(iter/s)": 0.109232
+    },
+    {
+      "acc": 0.56850109,
+      "epoch": 0.4672897196261682,
+      "grad_norm": 1.287984013557434,
+      "learning_rate": 9.106099653103728e-05,
+      "loss": 1.61406059,
+      "memory(GiB)": 45.86,
+      "step": 125,
+      "train_speed(iter/s)": 0.109801
+    },
+    {
+      "acc": 0.56755419,
+      "epoch": 0.48598130841121495,
+      "grad_norm": 1.4639618396759033,
+      "learning_rate": 9.015749262631536e-05,
+      "loss": 1.57637978,
+      "memory(GiB)": 45.86,
+      "step": 130,
+      "train_speed(iter/s)": 0.110329
+    },
+    {
+      "acc": 0.58115373,
+      "epoch": 0.5046728971962616,
+      "grad_norm": 1.5570566654205322,
+      "learning_rate": 8.921544481913218e-05,
+      "loss": 1.62401295,
+      "memory(GiB)": 45.86,
+      "step": 135,
+      "train_speed(iter/s)": 0.110827
+    },
+    {
+      "acc": 0.55897279,
+      "epoch": 0.5233644859813084,
+      "grad_norm": 1.4730037450790405,
+      "learning_rate": 8.823575730435693e-05,
+      "loss": 1.66579857,
+      "memory(GiB)": 52.51,
+      "step": 140,
+      "train_speed(iter/s)": 0.111291
+    },
+    {
+      "acc": 0.56799178,
+      "epoch": 0.5420560747663551,
+      "grad_norm": 1.350874423980713,
+      "learning_rate": 8.721937040414481e-05,
+      "loss": 1.60019073,
+      "memory(GiB)": 52.51,
+      "step": 145,
+      "train_speed(iter/s)": 0.111724
+    },
+    {
+      "acc": 0.55238876,
+      "epoch": 0.5607476635514018,
+      "grad_norm": 1.5056456327438354,
+      "learning_rate": 8.616725966539832e-05,
+      "loss": 1.68097,
+      "memory(GiB)": 52.51,
+      "step": 150,
+      "train_speed(iter/s)": 0.11205
+    },
+    {
+      "epoch": 0.5607476635514018,
+      "eval_acc": 0.5831458989353726,
+      "eval_loss": 1.588950753211975,
+      "eval_runtime": 60.5954,
+      "eval_samples_per_second": 0.825,
+      "eval_steps_per_second": 0.825,
+      "step": 150
+    },
+    {
+      "acc": 0.56648855,
+      "epoch": 0.5794392523364486,
+      "grad_norm": 1.4353731870651245,
+      "learning_rate": 8.508043492341944e-05,
+      "loss": 1.61546593,
+      "memory(GiB)": 52.51,
+      "step": 155,
+      "train_speed(iter/s)": 0.107639
+    },
+    {
+      "acc": 0.57423716,
+      "epoch": 0.5981308411214953,
+      "grad_norm": 1.514600396156311,
+      "learning_rate": 8.395993933265101e-05,
+      "loss": 1.65116329,
+      "memory(GiB)": 52.51,
+      "step": 160,
+      "train_speed(iter/s)": 0.108123
+    },
+    {
+      "acc": 0.56541142,
+      "epoch": 0.616822429906542,
+      "grad_norm": 1.3241384029388428,
+      "learning_rate": 8.280684836543794e-05,
+      "loss": 1.65839729,
+      "memory(GiB)": 52.51,
+      "step": 165,
+      "train_speed(iter/s)": 0.108573
+    },
+    {
+      "acc": 0.57026463,
+      "epoch": 0.6355140186915887,
+      "grad_norm": 1.3388739824295044,
+      "learning_rate": 8.162226877976887e-05,
+      "loss": 1.61102333,
+      "memory(GiB)": 52.51,
+      "step": 170,
+      "train_speed(iter/s)": 0.109007
+    },
+    {
+      "acc": 0.57890859,
+      "epoch": 0.6542056074766355,
+      "grad_norm": 1.37869131565094,
+      "learning_rate": 8.040733755698955e-05,
+      "loss": 1.60712547,
+      "memory(GiB)": 52.51,
+      "step": 175,
+      "train_speed(iter/s)": 0.109415
+    },
+    {
+      "acc": 0.57019186,
+      "epoch": 0.6728971962616822,
+      "grad_norm": 1.4313998222351074,
+      "learning_rate": 7.916322081050709e-05,
+      "loss": 1.62115898,
+      "memory(GiB)": 52.51,
+      "step": 180,
+      "train_speed(iter/s)": 0.109805
+    },
+    {
+      "acc": 0.57807865,
+      "epoch": 0.6915887850467289,
+      "grad_norm": 1.3123388290405273,
+      "learning_rate": 7.789111266653285e-05,
+      "loss": 1.63029137,
+      "memory(GiB)": 52.51,
+      "step": 185,
+      "train_speed(iter/s)": 0.110173
+    },
+    {
+      "acc": 0.58090611,
+      "epoch": 0.7102803738317757,
+      "grad_norm": 1.460463047027588,
+      "learning_rate": 7.659223411793798e-05,
+      "loss": 1.57071505,
+      "memory(GiB)": 52.51,
+      "step": 190,
+      "train_speed(iter/s)": 0.110531
+    },
+    {
+      "acc": 0.57307801,
+      "epoch": 0.7289719626168224,
+      "grad_norm": 1.3995453119277954,
+      "learning_rate": 7.526783185232207e-05,
+      "loss": 1.61080112,
+      "memory(GiB)": 52.51,
+      "step": 195,
+      "train_speed(iter/s)": 0.110867
+    },
+    {
+      "acc": 0.5799108,
+      "epoch": 0.7476635514018691,
+      "grad_norm": 1.4361484050750732,
+      "learning_rate": 7.391917705541927e-05,
+      "loss": 1.64733868,
+      "memory(GiB)": 52.51,
+      "step": 200,
+      "train_speed(iter/s)": 0.111188
+    },
+    {
+      "epoch": 0.7476635514018691,
+      "eval_acc": 0.5834457939721097,
+      "eval_loss": 1.570568561553955,
+      "eval_runtime": 60.5903,
+      "eval_samples_per_second": 0.825,
+      "eval_steps_per_second": 0.825,
+      "step": 200
+    },
+    {
+      "acc": 0.56698923,
+      "epoch": 0.7663551401869159,
+      "grad_norm": 1.3287904262542725,
+      "learning_rate": 7.254756419099074e-05,
+      "loss": 1.64705162,
+      "memory(GiB)": 52.51,
+      "step": 205,
+      "train_speed(iter/s)": 0.107887
+    },
+    {
+      "acc": 0.57151198,
+      "epoch": 0.7850467289719626,
+      "grad_norm": 1.38331139087677,
+      "learning_rate": 7.115430975837457e-05,
+      "loss": 1.64652443,
+      "memory(GiB)": 52.51,
+      "step": 210,
+      "train_speed(iter/s)": 0.108252
+    },
+    {
+      "acc": 0.58841505,
+      "epoch": 0.8037383177570093,
+      "grad_norm": 1.5937939882278442,
+      "learning_rate": 6.974075102888536e-05,
+      "loss": 1.61707039,
+      "memory(GiB)": 52.51,
+      "step": 215,
+      "train_speed(iter/s)": 0.108603
+    },
+    {
+      "acc": 0.55511918,
+      "epoch": 0.822429906542056,
+      "grad_norm": 1.6487551927566528,
+      "learning_rate": 6.830824476227646e-05,
+      "loss": 1.65553608,
+      "memory(GiB)": 52.51,
+      "step": 220,
+      "train_speed(iter/s)": 0.108935
+    },
+    {
+      "acc": 0.58533549,
+      "epoch": 0.8411214953271028,
+      "grad_norm": 1.4343266487121582,
+      "learning_rate": 6.685816590449708e-05,
+      "loss": 1.58468885,
+      "memory(GiB)": 52.51,
+      "step": 225,
+      "train_speed(iter/s)": 0.109256
+    },
+    {
+      "acc": 0.57694592,
+      "epoch": 0.8598130841121495,
+      "grad_norm": 1.368004560470581,
+      "learning_rate": 6.539190626799366e-05,
+      "loss": 1.60840836,
+      "memory(GiB)": 52.51,
+      "step": 230,
+      "train_speed(iter/s)": 0.109563
+    },
+    {
+      "acc": 0.57554379,
+      "epoch": 0.8785046728971962,
+      "grad_norm": 1.513482928276062,
+      "learning_rate": 6.391087319582264e-05,
+      "loss": 1.59513159,
+      "memory(GiB)": 52.51,
+      "step": 235,
+      "train_speed(iter/s)": 0.109855
+    },
+    {
+      "acc": 0.56200686,
+      "epoch": 0.897196261682243,
+      "grad_norm": 1.447696566581726,
+      "learning_rate": 6.241648821085666e-05,
+      "loss": 1.61208496,
+      "memory(GiB)": 52.51,
+      "step": 240,
+      "train_speed(iter/s)": 0.110135
+    },
+    {
+      "acc": 0.57686815,
+      "epoch": 0.9158878504672897,
+      "grad_norm": 1.4834848642349243,
+      "learning_rate": 6.0910185651380626e-05,
+      "loss": 1.56525345,
+      "memory(GiB)": 52.51,
+      "step": 245,
+      "train_speed(iter/s)": 0.110415
+    },
+    {
+      "acc": 0.57838049,
+      "epoch": 0.9345794392523364,
+      "grad_norm": 1.4449986219406128,
+      "learning_rate": 5.939341129438739e-05,
+      "loss": 1.66088371,
+      "memory(GiB)": 52.51,
+      "step": 250,
+      "train_speed(iter/s)": 0.110677
+    },
+    {
+      "epoch": 0.9345794392523364,
+      "eval_acc": 0.5871944819313241,
+      "eval_loss": 1.5589616298675537,
+      "eval_runtime": 60.6063,
+      "eval_samples_per_second": 0.825,
+      "eval_steps_per_second": 0.825,
+      "step": 250
+    },
+    {
+      "acc": 0.56091037,
+      "epoch": 0.9532710280373832,
+      "grad_norm": 1.4498945474624634,
+      "learning_rate": 5.786762096789431e-05,
+      "loss": 1.6876915,
+      "memory(GiB)": 52.51,
+      "step": 255,
+      "train_speed(iter/s)": 0.108045
+    },
+    {
+      "acc": 0.57053814,
+      "epoch": 0.9719626168224299,
+      "grad_norm": 1.2757234573364258,
+      "learning_rate": 5.633427915361261e-05,
+      "loss": 1.65799484,
+      "memory(GiB)": 52.51,
+      "step": 260,
+      "train_speed(iter/s)": 0.108333
+    },
+    {
+      "acc": 0.56272326,
+      "epoch": 0.9906542056074766,
+      "grad_norm": 1.4214109182357788,
+      "learning_rate": 5.479485758131089e-05,
+      "loss": 1.64700985,
+      "memory(GiB)": 52.51,
+      "step": 265,
+      "train_speed(iter/s)": 0.108614
+    },
+    {
+      "acc": 0.59196057,
+      "epoch": 1.0093457943925233,
+      "grad_norm": 1.255962610244751,
+      "learning_rate": 5.325083381622165e-05,
+      "loss": 1.56780367,
+      "memory(GiB)": 52.51,
+      "step": 270,
+      "train_speed(iter/s)": 0.108871
+    },
+    {
+      "acc": 0.60109649,
+      "epoch": 1.02803738317757,
+      "grad_norm": 1.4240363836288452,
+      "learning_rate": 5.1703689840846945e-05,
+      "loss": 1.45532875,
+      "memory(GiB)": 52.51,
+      "step": 275,
+      "train_speed(iter/s)": 0.109138
+    },
+    {
+      "acc": 0.59727616,
+      "epoch": 1.0467289719626167,
+      "grad_norm": 1.5935661792755127,
+      "learning_rate": 5.01549106325243e-05,
+      "loss": 1.51683445,
+      "memory(GiB)": 52.51,
+      "step": 280,
+      "train_speed(iter/s)": 0.109392
+    },
+    {
+      "acc": 0.62937155,
+      "epoch": 1.0654205607476634,
+      "grad_norm": 1.6722455024719238,
+      "learning_rate": 4.860598273811792e-05,
+      "loss": 1.35466251,
+      "memory(GiB)": 52.51,
+      "step": 285,
+      "train_speed(iter/s)": 0.109642
+    },
+    {
+      "acc": 0.58850698,
+      "epoch": 1.0841121495327102,
+      "grad_norm": 1.524778127670288,
+      "learning_rate": 4.705839284720376e-05,
+      "loss": 1.48758812,
+      "memory(GiB)": 52.51,
+      "step": 290,
+      "train_speed(iter/s)": 0.109812
+    },
+    {
+      "acc": 0.60075417,
+      "epoch": 1.102803738317757,
+      "grad_norm": 1.757370114326477,
+      "learning_rate": 4.55136263651172e-05,
+      "loss": 1.50896826,
+      "memory(GiB)": 52.51,
+      "step": 295,
+      "train_speed(iter/s)": 0.110044
+    },
+    {
+      "acc": 0.61744561,
+      "epoch": 1.1214953271028036,
+      "grad_norm": 2.0011301040649414,
+      "learning_rate": 4.397316598723385e-05,
+      "loss": 1.42747393,
+      "memory(GiB)": 52.51,
+      "step": 300,
+      "train_speed(iter/s)": 0.110269
+    },
+    {
+      "epoch": 1.1214953271028036,
+      "eval_acc": 0.5852451641925326,
+      "eval_loss": 1.5581213235855103,
+      "eval_runtime": 60.6131,
+      "eval_samples_per_second": 0.825,
+      "eval_steps_per_second": 0.825,
+      "step": 300
+    },
+    {
+      "acc": 0.59082665,
+      "epoch": 1.1401869158878504,
+      "grad_norm": 1.8005529642105103,
+      "learning_rate": 4.243849027585096e-05,
+      "loss": 1.49810066,
+      "memory(GiB)": 52.51,
+      "step": 305,
+      "train_speed(iter/s)": 0.108082
+    },
+    {
+      "acc": 0.58803234,
+      "epoch": 1.158878504672897,
+      "grad_norm": 1.8836215734481812,
+      "learning_rate": 4.0911072241036194e-05,
+      "loss": 1.53769073,
+      "memory(GiB)": 52.51,
+      "step": 310,
+      "train_speed(iter/s)": 0.108325
+    },
+    {
+      "acc": 0.61663084,
+      "epoch": 1.1775700934579438,
+      "grad_norm": 1.7952263355255127,
+      "learning_rate": 3.9392377926805226e-05,
+      "loss": 1.44214535,
+      "memory(GiB)": 52.51,
+      "step": 315,
+      "train_speed(iter/s)": 0.108566
+    },
+    {
+      "acc": 0.59271388,
+      "epoch": 1.1962616822429906,
+      "grad_norm": 1.8852580785751343,
+      "learning_rate": 3.788386500398583e-05,
+      "loss": 1.49927893,
+      "memory(GiB)": 52.51,
+      "step": 320,
+      "train_speed(iter/s)": 0.108797
+    },
+    {
+      "acc": 0.60236468,
+      "epoch": 1.2149532710280373,
+      "grad_norm": 1.737602949142456,
+      "learning_rate": 3.6386981371118355e-05,
+      "loss": 1.42521906,
+      "memory(GiB)": 52.51,
+      "step": 325,
+      "train_speed(iter/s)": 0.109019
+    },
+    {
+      "acc": 0.6055068,
+      "epoch": 1.233644859813084,
+      "grad_norm": 1.914955496788025,
+      "learning_rate": 3.49031637647361e-05,
+      "loss": 1.47248116,
+      "memory(GiB)": 52.51,
+      "step": 330,
+      "train_speed(iter/s)": 0.109238
+    },
+    {
+      "acc": 0.61518903,
+      "epoch": 1.2523364485981308,
+      "grad_norm": 1.7206995487213135,
+      "learning_rate": 3.343383638035902e-05,
+      "loss": 1.38390493,
+      "memory(GiB)": 52.51,
+      "step": 335,
+      "train_speed(iter/s)": 0.109447
+    },
+    {
+      "acc": 0.60801978,
+      "epoch": 1.2710280373831775,
+      "grad_norm": 1.9262409210205078,
+      "learning_rate": 3.1980409505524544e-05,
+      "loss": 1.41381416,
+      "memory(GiB)": 52.51,
+      "step": 340,
+      "train_speed(iter/s)": 0.109652
+    },
+    {
+      "acc": 0.60384398,
+      "epoch": 1.2897196261682242,
+      "grad_norm": 2.144967794418335,
+      "learning_rate": 3.054427816616773e-05,
+      "loss": 1.40025005,
+      "memory(GiB)": 52.51,
+      "step": 345,
+      "train_speed(iter/s)": 0.109855
+    },
+    {
+      "acc": 0.60187116,
+      "epoch": 1.308411214953271,
+      "grad_norm": 2.0876433849334717,
+      "learning_rate": 2.91268207876494e-05,
+      "loss": 1.44376688,
+      "memory(GiB)": 52.51,
+      "step": 350,
+      "train_speed(iter/s)": 0.110051
+    },
+    {
+      "epoch": 1.308411214953271,
+      "eval_acc": 0.5856950067476383,
+      "eval_loss": 1.5565516948699951,
+      "eval_runtime": 60.5775,
+      "eval_samples_per_second": 0.825,
+      "eval_steps_per_second": 0.825,
+      "step": 350
+    },
+    {
+      "acc": 0.61420636,
+      "epoch": 1.3271028037383177,
+      "grad_norm": 1.9940565824508667,
+      "learning_rate": 2.7729397871718304e-05,
+      "loss": 1.40987692,
+      "memory(GiB)": 52.51,
+      "step": 355,
+      "train_speed(iter/s)": 0.108178
+    },
+    {
+      "acc": 0.59907641,
+      "epoch": 1.3457943925233644,
+      "grad_norm": 1.9915255308151245,
+      "learning_rate": 2.635335069067617e-05,
+      "loss": 1.44835072,
+      "memory(GiB)": 52.51,
+      "step": 360,
+      "train_speed(iter/s)": 0.108387
+    },
+    {
+      "acc": 0.62042379,
+      "epoch": 1.3644859813084111,
+      "grad_norm": 2.130258798599243,
+      "learning_rate": 2.500000000000001e-05,
+      "loss": 1.41162367,
+      "memory(GiB)": 52.51,
+      "step": 365,
+      "train_speed(iter/s)": 0.108589
+    },
+    {
+      "acc": 0.6139565,
+      "epoch": 1.3831775700934579,
+      "grad_norm": 1.8815335035324097,
+      "learning_rate": 2.367064477065652e-05,
+      "loss": 1.41061649,
+      "memory(GiB)": 52.51,
+      "step": 370,
+      "train_speed(iter/s)": 0.108788
+    },
+    {
+      "acc": 0.60995245,
+      "epoch": 1.4018691588785046,
+      "grad_norm": 2.237551689147949,
+      "learning_rate": 2.2366560942325832e-05,
+      "loss": 1.41165752,
+      "memory(GiB)": 52.51,
+      "step": 375,
+      "train_speed(iter/s)": 0.108982
+    },
+    {
+      "acc": 0.61310611,
+      "epoch": 1.4205607476635513,
+      "grad_norm": 2.2738187313079834,
+      "learning_rate": 2.108900019873103e-05,
+      "loss": 1.46329918,
+      "memory(GiB)": 52.51,
+      "step": 380,
+      "train_speed(iter/s)": 0.109169
+    },
+    {
+      "acc": 0.61972389,
+      "epoch": 1.439252336448598,
+      "grad_norm": 2.050431966781616,
+      "learning_rate": 1.983918876624902e-05,
+      "loss": 1.39380827,
+      "memory(GiB)": 52.51,
+      "step": 385,
+      "train_speed(iter/s)": 0.109353
+    },
+    {
+      "acc": 0.60818005,
+      "epoch": 1.4579439252336448,
+      "grad_norm": 2.2794229984283447,
+      "learning_rate": 1.8618326236955907e-05,
+      "loss": 1.46415033,
+      "memory(GiB)": 52.51,
+      "step": 390,
+      "train_speed(iter/s)": 0.109532
+    },
+    {
+      "acc": 0.59707479,
+      "epoch": 1.4766355140186915,
+      "grad_norm": 2.2006595134735107,
+      "learning_rate": 1.7427584417236194e-05,
+      "loss": 1.49114666,
+      "memory(GiB)": 52.51,
+      "step": 395,
+      "train_speed(iter/s)": 0.109705
+    },
+    {
+      "acc": 0.6111486,
+      "epoch": 1.4953271028037383,
+      "grad_norm": 2.0496108531951904,
+      "learning_rate": 1.626810620306163e-05,
+      "loss": 1.38812447,
+      "memory(GiB)": 52.51,
+      "step": 400,
+      "train_speed(iter/s)": 0.109877
+    },
+    {
+      "epoch": 1.4953271028037383,
+      "eval_acc": 0.5873444294496926,
+      "eval_loss": 1.5544381141662598,
+      "eval_runtime": 60.5613,
+      "eval_samples_per_second": 0.826,
+      "eval_steps_per_second": 0.826,
+      "step": 400
+    },
+    {
+      "acc": 0.60279655,
+      "epoch": 1.514018691588785,
+      "grad_norm": 1.954108476638794,
+      "learning_rate": 1.5141004483018323e-05,
+      "loss": 1.44826994,
+      "memory(GiB)": 52.51,
+      "step": 405,
+      "train_speed(iter/s)": 0.108237
+    },
+    {
+      "acc": 0.60491271,
+      "epoch": 1.5327102803738317,
+      "grad_norm": 2.4498937129974365,
+      "learning_rate": 1.4047361070135995e-05,
+      "loss": 1.4636652,
+      "memory(GiB)": 52.51,
+      "step": 410,
+      "train_speed(iter/s)": 0.108423
+    },
+    {
+      "acc": 0.59805059,
+      "epoch": 1.5514018691588785,
+      "grad_norm": 1.9891496896743774,
+      "learning_rate": 1.2988225663543602e-05,
+      "loss": 1.51361618,
+      "memory(GiB)": 52.51,
+      "step": 415,
+      "train_speed(iter/s)": 0.108601
+    },
+    {
+      "acc": 0.60604153,
+      "epoch": 1.5700934579439252,
+      "grad_norm": 2.281243324279785,
+      "learning_rate": 1.1964614840949002e-05,
+      "loss": 1.43464155,
+      "memory(GiB)": 52.51,
+      "step": 420,
+      "train_speed(iter/s)": 0.108777
+    },
+    {
+      "acc": 0.59663863,
+      "epoch": 1.588785046728972,
+      "grad_norm": 2.1692161560058594,
+      "learning_rate": 1.097751108290867e-05,
+      "loss": 1.47755518,
+      "memory(GiB)": 52.51,
+      "step": 425,
+      "train_speed(iter/s)": 0.108947
+    },
+    {
+      "acc": 0.62566915,
+      "epoch": 1.6074766355140186,
+      "grad_norm": 2.370448112487793,
+      "learning_rate": 1.0027861829824952e-05,
+      "loss": 1.36240664,
+      "memory(GiB)": 52.51,
+      "step": 430,
+      "train_speed(iter/s)": 0.109117
+    },
+    {
+      "acc": 0.60366473,
+      "epoch": 1.6261682242990654,
+      "grad_norm": 2.143240451812744,
+      "learning_rate": 9.11657857257509e-06,
+      "loss": 1.49398394,
+      "memory(GiB)": 52.51,
+      "step": 435,
+      "train_speed(iter/s)": 0.109226
+    },
+    {
+      "acc": 0.60729022,
+      "epoch": 1.644859813084112,
+      "grad_norm": 2.266324758529663,
+      "learning_rate": 8.244535977645585e-06,
+      "loss": 1.4582058,
+      "memory(GiB)": 52.51,
+      "step": 440,
+      "train_speed(iter/s)": 0.109388
+    },
+    {
+      "acc": 0.61000395,
+      "epoch": 1.6635514018691588,
+      "grad_norm": 2.243384599685669,
+      "learning_rate": 7.412571047611155e-06,
+      "loss": 1.39406261,
+      "memory(GiB)": 52.51,
+      "step": 445,
+      "train_speed(iter/s)": 0.109547
+    },
+    {
+      "acc": 0.60550241,
+      "epoch": 1.6822429906542056,
+      "grad_norm": 2.3402411937713623,
+      "learning_rate": 6.621482317764105e-06,
+      "loss": 1.44629755,
+      "memory(GiB)": 52.51,
+      "step": 450,
+      "train_speed(iter/s)": 0.109702
+    },
+    {
+      "epoch": 1.6822429906542056,
+      "eval_acc": 0.5838956365272154,
+      "eval_loss": 1.5518497228622437,
+      "eval_runtime": 60.463,
+      "eval_samples_per_second": 0.827,
+      "eval_steps_per_second": 0.827,
+      "step": 450
+    },
+    {
+      "acc": 0.62354083,
+      "epoch": 1.7009345794392523,
+      "grad_norm": 2.3499748706817627,
+      "learning_rate": 5.872029089665587e-06,
+      "loss": 1.36534414,
+      "memory(GiB)": 52.51,
+      "step": 455,
+      "train_speed(iter/s)": 0.108251
+    },
+    {
+      "acc": 0.60730128,
+      "epoch": 1.719626168224299,
+      "grad_norm": 2.479720115661621,
+      "learning_rate": 5.164930702353782e-06,
+      "loss": 1.44677553,
+      "memory(GiB)": 52.51,
+      "step": 460,
+      "train_speed(iter/s)": 0.108417
+    },
+    {
+      "acc": 0.59804258,
+      "epoch": 1.7383177570093458,
+      "grad_norm": 2.117152214050293,
+      "learning_rate": 4.500865841909168e-06,
+      "loss": 1.46659861,
+      "memory(GiB)": 52.51,
+      "step": 465,
+      "train_speed(iter/s)": 0.108577
+    },
+    {
+      "acc": 0.60334945,
+      "epoch": 1.7570093457943925,
+      "grad_norm": 2.2500483989715576,
+      "learning_rate": 3.880471890038967e-06,
+      "loss": 1.4467123,
+      "memory(GiB)": 52.51,
+      "step": 470,
+      "train_speed(iter/s)": 0.108736
+    },
+    {
+      "acc": 0.60877209,
+      "epoch": 1.7757009345794392,
+      "grad_norm": 2.166339635848999,
+      "learning_rate": 3.3043443123065286e-06,
+      "loss": 1.49398079,
+      "memory(GiB)": 52.51,
+      "step": 475,
+      "train_speed(iter/s)": 0.108888
+    },
+    {
+      "acc": 0.59179163,
+      "epoch": 1.794392523364486,
+      "grad_norm": 2.554819107055664,
+      "learning_rate": 2.7730360865923956e-06,
+      "loss": 1.47536173,
+      "memory(GiB)": 52.51,
+      "step": 480,
+      "train_speed(iter/s)": 0.109034
+    },
+    {
+      "acc": 0.58686528,
+      "epoch": 1.8130841121495327,
+      "grad_norm": 2.176454544067383,
+      "learning_rate": 2.287057172336021e-06,
+      "loss": 1.51853113,
+      "memory(GiB)": 52.51,
+      "step": 485,
+      "train_speed(iter/s)": 0.10918
+    },
+    {
+      "acc": 0.61157169,
+      "epoch": 1.8317757009345794,
+      "grad_norm": 2.2419204711914062,
+      "learning_rate": 1.8468740210672076e-06,
+      "loss": 1.45838099,
+      "memory(GiB)": 52.51,
+      "step": 490,
+      "train_speed(iter/s)": 0.109326
+    },
+    {
+      "acc": 0.604812,
+      "epoch": 1.8504672897196262,
+      "grad_norm": 2.1367015838623047,
+      "learning_rate": 1.4529091286973995e-06,
+      "loss": 1.42373133,
+      "memory(GiB)": 52.51,
+      "step": 495,
+      "train_speed(iter/s)": 0.10947
+    },
+    {
+      "acc": 0.59049854,
+      "epoch": 1.8691588785046729,
+      "grad_norm": 2.212156057357788,
+      "learning_rate": 1.1055406300002347e-06,
+      "loss": 1.47500782,
+      "memory(GiB)": 52.51,
+      "step": 500,
+      "train_speed(iter/s)": 0.10961
+    },
+    {
+      "epoch": 1.8691588785046729,
+      "eval_acc": 0.5858449542660069,
+      "eval_loss": 1.55006742477417,
+      "eval_runtime": 60.5418,
+      "eval_samples_per_second": 0.826,
+      "eval_steps_per_second": 0.826,
+      "step": 500
+    },
+    {
+      "acc": 0.61764479,
+      "epoch": 1.8878504672897196,
+      "grad_norm": 2.375039577484131,
+      "learning_rate": 8.0510193567086e-07,
+      "loss": 1.4303463,
+      "memory(GiB)": 52.51,
+      "step": 505,
+      "train_speed(iter/s)": 0.108303
+    },
+    {
+      "acc": 0.60544062,
+      "epoch": 1.9065420560747663,
+      "grad_norm": 2.1975295543670654,
+      "learning_rate": 5.518814123121885e-07,
+      "loss": 1.48970194,
+      "memory(GiB)": 52.51,
+      "step": 510,
+      "train_speed(iter/s)": 0.108451
+    },
+    {
+      "acc": 0.60760684,
+      "epoch": 1.925233644859813,
+      "grad_norm": 2.173210859298706,
+      "learning_rate": 3.4612210565528326e-07,
+      "loss": 1.43905754,
+      "memory(GiB)": 52.51,
+      "step": 515,
+      "train_speed(iter/s)": 0.108595
+    },
+    {
+      "acc": 0.61625342,
+      "epoch": 1.9439252336448598,
+      "grad_norm": 2.543931245803833,
+      "learning_rate": 1.8802150727962876e-07,
+      "loss": 1.40175552,
+      "memory(GiB)": 52.51,
+      "step": 520,
+      "train_speed(iter/s)": 0.108738
+    },
+    {
+      "acc": 0.61394835,
+      "epoch": 1.9626168224299065,
+      "grad_norm": 2.0409328937530518,
+      "learning_rate": 7.773136505700995e-08,
+      "loss": 1.36281643,
+      "memory(GiB)": 52.51,
+      "step": 525,
+      "train_speed(iter/s)": 0.108834
+    },
+    {
+      "acc": 0.60506306,
+      "epoch": 1.9813084112149533,
+      "grad_norm": 2.187635898590088,
+      "learning_rate": 1.5357537501159423e-08,
+      "loss": 1.45838461,
+      "memory(GiB)": 52.51,
+      "step": 530,
+      "train_speed(iter/s)": 0.10897
+    },
+    {
+      "epoch": 1.9962616822429906,
+      "eval_acc": 0.5853951117109012,
+      "eval_loss": 1.550318956375122,
+      "eval_runtime": 60.5393,
+      "eval_samples_per_second": 0.826,
+      "eval_steps_per_second": 0.826,
+      "step": 534
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 534,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.3344607126351155e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

qwen2-vl-7b-instruct/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d6094c64b2cfee66d8dd4d404b6e3d87c884814eed3dac6a3df1297447208dc
+size 7416