MuhammadHelmy commited on Jul 24, 2025

Commit

6c71039

verified ·

1 Parent(s): 38b5b0c

Upload folder using huggingface_hub

Browse files

Files changed (22) hide show

checkpoint-7500/config.json +71 -0
checkpoint-7500/model.safetensors +3 -0
checkpoint-7500/optimizer.pt +3 -0
checkpoint-7500/rng_state.pth +3 -0
checkpoint-7500/scheduler.pt +3 -0
checkpoint-7500/special_tokens_map.json +37 -0
checkpoint-7500/tokenizer.json +0 -0
checkpoint-7500/tokenizer_config.json +56 -0
checkpoint-7500/trainer_state.json +319 -0
checkpoint-7500/training_args.bin +3 -0
checkpoint-7500/vocab.txt +0 -0
checkpoint-8236/config.json +71 -0
checkpoint-8236/model.safetensors +3 -0
checkpoint-8236/optimizer.pt +3 -0
checkpoint-8236/rng_state.pth +3 -0
checkpoint-8236/scheduler.pt +3 -0
checkpoint-8236/special_tokens_map.json +37 -0
checkpoint-8236/tokenizer.json +0 -0
checkpoint-8236/tokenizer_config.json +56 -0
checkpoint-8236/trainer_state.json +338 -0
checkpoint-8236/training_args.bin +3 -0
checkpoint-8236/vocab.txt +0 -0

checkpoint-7500/config.json ADDED Viewed

	@@ -0,0 +1,71 @@

+{
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19",
+    "20": "LABEL_20"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_12": 12,
+    "LABEL_13": 13,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_20": 20,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "vocab_size": 119547
+}

checkpoint-7500/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b447bfea7bb6819377e4bc9d0017e0ab2ef9ae6ecd0dd40c942d9b10c0f84813
+size 541375820

checkpoint-7500/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c339221ce89f64717876c8d8fabb0be656009767716741cdc6be194d5b0f4d4
+size 1082813754

checkpoint-7500/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c2f3a5c7fc54692d0487a13705cf9d02e88136c3a95e75ac8c71c9c37468837
+size 14244

checkpoint-7500/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5c510928b4428c49d3a993c5f72a9e1be30277be840fb66eeb42ec30a0e2ffee
+size 1064

checkpoint-7500/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-7500/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-7500/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-7500/trainer_state.json ADDED Viewed

	@@ -0,0 +1,319 @@

+{
+  "best_global_step": 7500,
+  "best_metric": 0.7842453714436081,
+  "best_model_checkpoint": "./distilbert-base-AuthId/checkpoint-7500",
+  "epoch": 3.642544924720738,
+  "eval_steps": 500,
+  "global_step": 7500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.24283632831471588,
+      "grad_norm": 10.536812782287598,
+      "learning_rate": 4.8446601941747576e-05,
+      "loss": 2.4424,
+      "step": 500
+    },
+    {
+      "epoch": 0.24283632831471588,
+      "eval_accuracy": 0.4645176810199663,
+      "eval_f1_macro": 0.38214194553778474,
+      "eval_loss": 1.7513902187347412,
+      "eval_precision_macro": 0.42410548716505947,
+      "eval_recall_macro": 0.4570777134531091,
+      "eval_runtime": 44.1019,
+      "eval_samples_per_second": 94.259,
+      "eval_steps_per_second": 5.895,
+      "step": 500
+    },
+    {
+      "epoch": 0.48567265662943176,
+      "grad_norm": 8.661422729492188,
+      "learning_rate": 7.989001438410175e-05,
+      "loss": 1.3721,
+      "step": 1000
+    },
+    {
+      "epoch": 0.48567265662943176,
+      "eval_accuracy": 0.5208082751984604,
+      "eval_f1_macro": 0.4454367070109959,
+      "eval_loss": 1.5558406114578247,
+      "eval_precision_macro": 0.49026128200564273,
+      "eval_recall_macro": 0.5024706104342445,
+      "eval_runtime": 44.445,
+      "eval_samples_per_second": 93.531,
+      "eval_steps_per_second": 5.85,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7285089849441476,
+      "grad_norm": 11.807583808898926,
+      "learning_rate": 7.837406915300635e-05,
+      "loss": 0.9647,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7285089849441476,
+      "eval_accuracy": 0.6812605244166466,
+      "eval_f1_macro": 0.5864448295094548,
+      "eval_loss": 1.1119331121444702,
+      "eval_precision_macro": 0.5984183492980578,
+      "eval_recall_macro": 0.6268369019392432,
+      "eval_runtime": 44.5983,
+      "eval_samples_per_second": 93.21,
+      "eval_steps_per_second": 5.83,
+      "step": 1500
+    },
+    {
+      "epoch": 0.9713453132588635,
+      "grad_norm": 27.49161720275879,
+      "learning_rate": 7.514108265155405e-05,
+      "loss": 0.7867,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9713453132588635,
+      "eval_accuracy": 0.713014192927592,
+      "eval_f1_macro": 0.6520857054306285,
+      "eval_loss": 1.003157615661621,
+      "eval_precision_macro": 0.6618591636767543,
+      "eval_recall_macro": 0.6977243147676733,
+      "eval_runtime": 45.2348,
+      "eval_samples_per_second": 91.898,
+      "eval_steps_per_second": 5.748,
+      "step": 2000
+    },
+    {
+      "epoch": 1.2141816415735793,
+      "grad_norm": 17.49410629272461,
+      "learning_rate": 7.033571431701654e-05,
+      "loss": 0.5712,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2141816415735793,
+      "eval_accuracy": 0.7101274957902334,
+      "eval_f1_macro": 0.6578185186923463,
+      "eval_loss": 1.0687695741653442,
+      "eval_precision_macro": 0.6947126776112352,
+      "eval_recall_macro": 0.6807690177369954,
+      "eval_runtime": 45.4304,
+      "eval_samples_per_second": 91.503,
+      "eval_steps_per_second": 5.723,
+      "step": 2500
+    },
+    {
+      "epoch": 1.4570179698882952,
+      "grad_norm": 14.797587394714355,
+      "learning_rate": 6.417297954733794e-05,
+      "loss": 0.5118,
+      "step": 3000
+    },
+    {
+      "epoch": 1.4570179698882952,
+      "eval_accuracy": 0.7466923261967765,
+      "eval_f1_macro": 0.6802785705299167,
+      "eval_loss": 0.9464945197105408,
+      "eval_precision_macro": 0.6962547831411214,
+      "eval_recall_macro": 0.7067511752266095,
+      "eval_runtime": 45.0782,
+      "eval_samples_per_second": 92.217,
+      "eval_steps_per_second": 5.768,
+      "step": 3000
+    },
+    {
+      "epoch": 1.6998542982030111,
+      "grad_norm": 11.592080116271973,
+      "learning_rate": 5.692862887331573e-05,
+      "loss": 0.4238,
+      "step": 3500
+    },
+    {
+      "epoch": 1.6998542982030111,
+      "eval_accuracy": 0.7529468366610537,
+      "eval_f1_macro": 0.6887735293131003,
+      "eval_loss": 1.0284276008605957,
+      "eval_precision_macro": 0.7004815690389604,
+      "eval_recall_macro": 0.7209895448469402,
+      "eval_runtime": 45.0958,
+      "eval_samples_per_second": 92.182,
+      "eval_steps_per_second": 5.766,
+      "step": 3500
+    },
+    {
+      "epoch": 1.942690626517727,
+      "grad_norm": 1.7279024124145508,
+      "learning_rate": 4.892680954747708e-05,
+      "loss": 0.383,
+      "step": 4000
+    },
+    {
+      "epoch": 1.942690626517727,
+      "eval_accuracy": 0.7784459947077219,
+      "eval_f1_macro": 0.7004470067611618,
+      "eval_loss": 0.9373700618743896,
+      "eval_precision_macro": 0.7012745858922871,
+      "eval_recall_macro": 0.7363165995805543,
+      "eval_runtime": 45.0166,
+      "eval_samples_per_second": 92.344,
+      "eval_steps_per_second": 5.776,
+      "step": 4000
+    },
+    {
+      "epoch": 2.1855269548324427,
+      "grad_norm": 11.464333534240723,
+      "learning_rate": 4.052556162978074e-05,
+      "loss": 0.2498,
+      "step": 4500
+    },
+    {
+      "epoch": 2.1855269548324427,
+      "eval_accuracy": 0.7897522251623768,
+      "eval_f1_macro": 0.736934271206392,
+      "eval_loss": 0.8516831398010254,
+      "eval_precision_macro": 0.7471052855094972,
+      "eval_recall_macro": 0.7513822718605427,
+      "eval_runtime": 45.2063,
+      "eval_samples_per_second": 91.956,
+      "eval_steps_per_second": 5.751,
+      "step": 4500
+    },
+    {
+      "epoch": 2.4283632831471587,
+      "grad_norm": 13.227448463439941,
+      "learning_rate": 3.2100797545350794e-05,
+      "loss": 0.2012,
+      "step": 5000
+    },
+    {
+      "epoch": 2.4283632831471587,
+      "eval_accuracy": 0.7952850613423141,
+      "eval_f1_macro": 0.7384644794255656,
+      "eval_loss": 0.8422956466674805,
+      "eval_precision_macro": 0.7407858112231859,
+      "eval_recall_macro": 0.7593629429944239,
+      "eval_runtime": 45.0668,
+      "eval_samples_per_second": 92.241,
+      "eval_steps_per_second": 5.769,
+      "step": 5000
+    },
+    {
+      "epoch": 2.6711996114618746,
+      "grad_norm": 14.610297203063965,
+      "learning_rate": 2.402948194623674e-05,
+      "loss": 0.1888,
+      "step": 5500
+    },
+    {
+      "epoch": 2.6711996114618746,
+      "eval_accuracy": 0.8383449603079144,
+      "eval_f1_macro": 0.7668856441209034,
+      "eval_loss": 0.7612192034721375,
+      "eval_precision_macro": 0.759848794474667,
+      "eval_recall_macro": 0.7875978932242379,
+      "eval_runtime": 44.9628,
+      "eval_samples_per_second": 92.454,
+      "eval_steps_per_second": 5.783,
+      "step": 5500
+    },
+    {
+      "epoch": 2.9140359397765905,
+      "grad_norm": 2.9459526538848877,
+      "learning_rate": 1.667276449145691e-05,
+      "loss": 0.1478,
+      "step": 6000
+    },
+    {
+      "epoch": 2.9140359397765905,
+      "eval_accuracy": 0.8284820784219389,
+      "eval_f1_macro": 0.7648949869466338,
+      "eval_loss": 0.7956407070159912,
+      "eval_precision_macro": 0.7582819516660327,
+      "eval_recall_macro": 0.7872534623468304,
+      "eval_runtime": 45.0026,
+      "eval_samples_per_second": 92.372,
+      "eval_steps_per_second": 5.777,
+      "step": 6000
+    },
+    {
+      "epoch": 3.1568722680913064,
+      "grad_norm": 0.04966867342591286,
+      "learning_rate": 1.035982026624521e-05,
+      "loss": 0.0805,
+      "step": 6500
+    },
+    {
+      "epoch": 3.1568722680913064,
+      "eval_accuracy": 0.8397883088765937,
+      "eval_f1_macro": 0.779163123362359,
+      "eval_loss": 0.7845637798309326,
+      "eval_precision_macro": 0.7736785485737475,
+      "eval_recall_macro": 0.7972932500440235,
+      "eval_runtime": 44.623,
+      "eval_samples_per_second": 93.158,
+      "eval_steps_per_second": 5.827,
+      "step": 6500
+    },
+    {
+      "epoch": 3.3997085964060223,
+      "grad_norm": 0.054828643798828125,
+      "learning_rate": 5.373120898224163e-06,
+      "loss": 0.054,
+      "step": 7000
+    },
+    {
+      "epoch": 3.3997085964060223,
+      "eval_accuracy": 0.8390666345922541,
+      "eval_f1_macro": 0.7789886096417518,
+      "eval_loss": 0.8231712579727173,
+      "eval_precision_macro": 0.7722144919792829,
+      "eval_recall_macro": 0.7985903156380745,
+      "eval_runtime": 44.6487,
+      "eval_samples_per_second": 93.105,
+      "eval_steps_per_second": 5.823,
+      "step": 7000
+    },
+    {
+      "epoch": 3.642544924720738,
+      "grad_norm": 8.141491889953613,
+      "learning_rate": 1.935795411934156e-06,
+      "loss": 0.0683,
+      "step": 7500
+    },
+    {
+      "epoch": 3.642544924720738,
+      "eval_accuracy": 0.8448400288669714,
+      "eval_f1_macro": 0.7842453714436081,
+      "eval_loss": 0.7753947377204895,
+      "eval_precision_macro": 0.7754804853445821,
+      "eval_recall_macro": 0.8051232260351716,
+      "eval_runtime": 45.7414,
+      "eval_samples_per_second": 90.881,
+      "eval_steps_per_second": 5.684,
+      "step": 7500
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 8236,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.5900281427207168e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-7500/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c62d5b95ae007f7f68dfb168685d5940013d7e1bd191a6beea90ad5b2a515d2
+size 5304

checkpoint-7500/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-8236/config.json ADDED Viewed

	@@ -0,0 +1,71 @@

+{
+  "activation": "gelu",
+  "architectures": [
+    "DistilBertForSequenceClassification"
+  ],
+  "attention_dropout": 0.1,
+  "dim": 768,
+  "dropout": 0.1,
+  "hidden_dim": 3072,
+  "id2label": {
+    "0": "LABEL_0",
+    "1": "LABEL_1",
+    "2": "LABEL_2",
+    "3": "LABEL_3",
+    "4": "LABEL_4",
+    "5": "LABEL_5",
+    "6": "LABEL_6",
+    "7": "LABEL_7",
+    "8": "LABEL_8",
+    "9": "LABEL_9",
+    "10": "LABEL_10",
+    "11": "LABEL_11",
+    "12": "LABEL_12",
+    "13": "LABEL_13",
+    "14": "LABEL_14",
+    "15": "LABEL_15",
+    "16": "LABEL_16",
+    "17": "LABEL_17",
+    "18": "LABEL_18",
+    "19": "LABEL_19",
+    "20": "LABEL_20"
+  },
+  "initializer_range": 0.02,
+  "label2id": {
+    "LABEL_0": 0,
+    "LABEL_1": 1,
+    "LABEL_10": 10,
+    "LABEL_11": 11,
+    "LABEL_12": 12,
+    "LABEL_13": 13,
+    "LABEL_14": 14,
+    "LABEL_15": 15,
+    "LABEL_16": 16,
+    "LABEL_17": 17,
+    "LABEL_18": 18,
+    "LABEL_19": 19,
+    "LABEL_2": 2,
+    "LABEL_20": 20,
+    "LABEL_3": 3,
+    "LABEL_4": 4,
+    "LABEL_5": 5,
+    "LABEL_6": 6,
+    "LABEL_7": 7,
+    "LABEL_8": 8,
+    "LABEL_9": 9
+  },
+  "max_position_embeddings": 512,
+  "model_type": "distilbert",
+  "n_heads": 12,
+  "n_layers": 6,
+  "output_past": true,
+  "pad_token_id": 0,
+  "problem_type": "single_label_classification",
+  "qa_dropout": 0.1,
+  "seq_classif_dropout": 0.2,
+  "sinusoidal_pos_embds": false,
+  "tie_weights_": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.52.4",
+  "vocab_size": 119547
+}

checkpoint-8236/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d8c09c964704450d30bdf16a7bce3bd35bf7cad7584aaf22d0887c8d8c4049d8
+size 541375820

checkpoint-8236/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbd604e8121a1aad18c07afe65fdd51c8847b353dc9b5e7799c19f6796f67a53
+size 1082813754

checkpoint-8236/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f02a331b8c1685303ee1bd826ee3941a0f7b04e224e46dfc2aba6569c30d8d2
+size 14244

checkpoint-8236/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5e2b1f25c371d63298550c6da386797b1ba9ea81a1fd6253e3b886b2bcc792d7
+size 1064

checkpoint-8236/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-8236/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-8236/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "DistilBertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-8236/trainer_state.json ADDED Viewed

	@@ -0,0 +1,338 @@

+{
+  "best_global_step": 7500,
+  "best_metric": 0.7842453714436081,
+  "best_model_checkpoint": "./distilbert-base-AuthId/checkpoint-7500",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 8236,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.24283632831471588,
+      "grad_norm": 10.536812782287598,
+      "learning_rate": 4.8446601941747576e-05,
+      "loss": 2.4424,
+      "step": 500
+    },
+    {
+      "epoch": 0.24283632831471588,
+      "eval_accuracy": 0.4645176810199663,
+      "eval_f1_macro": 0.38214194553778474,
+      "eval_loss": 1.7513902187347412,
+      "eval_precision_macro": 0.42410548716505947,
+      "eval_recall_macro": 0.4570777134531091,
+      "eval_runtime": 44.1019,
+      "eval_samples_per_second": 94.259,
+      "eval_steps_per_second": 5.895,
+      "step": 500
+    },
+    {
+      "epoch": 0.48567265662943176,
+      "grad_norm": 8.661422729492188,
+      "learning_rate": 7.989001438410175e-05,
+      "loss": 1.3721,
+      "step": 1000
+    },
+    {
+      "epoch": 0.48567265662943176,
+      "eval_accuracy": 0.5208082751984604,
+      "eval_f1_macro": 0.4454367070109959,
+      "eval_loss": 1.5558406114578247,
+      "eval_precision_macro": 0.49026128200564273,
+      "eval_recall_macro": 0.5024706104342445,
+      "eval_runtime": 44.445,
+      "eval_samples_per_second": 93.531,
+      "eval_steps_per_second": 5.85,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7285089849441476,
+      "grad_norm": 11.807583808898926,
+      "learning_rate": 7.837406915300635e-05,
+      "loss": 0.9647,
+      "step": 1500
+    },
+    {
+      "epoch": 0.7285089849441476,
+      "eval_accuracy": 0.6812605244166466,
+      "eval_f1_macro": 0.5864448295094548,
+      "eval_loss": 1.1119331121444702,
+      "eval_precision_macro": 0.5984183492980578,
+      "eval_recall_macro": 0.6268369019392432,
+      "eval_runtime": 44.5983,
+      "eval_samples_per_second": 93.21,
+      "eval_steps_per_second": 5.83,
+      "step": 1500
+    },
+    {
+      "epoch": 0.9713453132588635,
+      "grad_norm": 27.49161720275879,
+      "learning_rate": 7.514108265155405e-05,
+      "loss": 0.7867,
+      "step": 2000
+    },
+    {
+      "epoch": 0.9713453132588635,
+      "eval_accuracy": 0.713014192927592,
+      "eval_f1_macro": 0.6520857054306285,
+      "eval_loss": 1.003157615661621,
+      "eval_precision_macro": 0.6618591636767543,
+      "eval_recall_macro": 0.6977243147676733,
+      "eval_runtime": 45.2348,
+      "eval_samples_per_second": 91.898,
+      "eval_steps_per_second": 5.748,
+      "step": 2000
+    },
+    {
+      "epoch": 1.2141816415735793,
+      "grad_norm": 17.49410629272461,
+      "learning_rate": 7.033571431701654e-05,
+      "loss": 0.5712,
+      "step": 2500
+    },
+    {
+      "epoch": 1.2141816415735793,
+      "eval_accuracy": 0.7101274957902334,
+      "eval_f1_macro": 0.6578185186923463,
+      "eval_loss": 1.0687695741653442,
+      "eval_precision_macro": 0.6947126776112352,
+      "eval_recall_macro": 0.6807690177369954,
+      "eval_runtime": 45.4304,
+      "eval_samples_per_second": 91.503,
+      "eval_steps_per_second": 5.723,
+      "step": 2500
+    },
+    {
+      "epoch": 1.4570179698882952,
+      "grad_norm": 14.797587394714355,
+      "learning_rate": 6.417297954733794e-05,
+      "loss": 0.5118,
+      "step": 3000
+    },
+    {
+      "epoch": 1.4570179698882952,
+      "eval_accuracy": 0.7466923261967765,
+      "eval_f1_macro": 0.6802785705299167,
+      "eval_loss": 0.9464945197105408,
+      "eval_precision_macro": 0.6962547831411214,
+      "eval_recall_macro": 0.7067511752266095,
+      "eval_runtime": 45.0782,
+      "eval_samples_per_second": 92.217,
+      "eval_steps_per_second": 5.768,
+      "step": 3000
+    },
+    {
+      "epoch": 1.6998542982030111,
+      "grad_norm": 11.592080116271973,
+      "learning_rate": 5.692862887331573e-05,
+      "loss": 0.4238,
+      "step": 3500
+    },
+    {
+      "epoch": 1.6998542982030111,
+      "eval_accuracy": 0.7529468366610537,
+      "eval_f1_macro": 0.6887735293131003,
+      "eval_loss": 1.0284276008605957,
+      "eval_precision_macro": 0.7004815690389604,
+      "eval_recall_macro": 0.7209895448469402,
+      "eval_runtime": 45.0958,
+      "eval_samples_per_second": 92.182,
+      "eval_steps_per_second": 5.766,
+      "step": 3500
+    },
+    {
+      "epoch": 1.942690626517727,
+      "grad_norm": 1.7279024124145508,
+      "learning_rate": 4.892680954747708e-05,
+      "loss": 0.383,
+      "step": 4000
+    },
+    {
+      "epoch": 1.942690626517727,
+      "eval_accuracy": 0.7784459947077219,
+      "eval_f1_macro": 0.7004470067611618,
+      "eval_loss": 0.9373700618743896,
+      "eval_precision_macro": 0.7012745858922871,
+      "eval_recall_macro": 0.7363165995805543,
+      "eval_runtime": 45.0166,
+      "eval_samples_per_second": 92.344,
+      "eval_steps_per_second": 5.776,
+      "step": 4000
+    },
+    {
+      "epoch": 2.1855269548324427,
+      "grad_norm": 11.464333534240723,
+      "learning_rate": 4.052556162978074e-05,
+      "loss": 0.2498,
+      "step": 4500
+    },
+    {
+      "epoch": 2.1855269548324427,
+      "eval_accuracy": 0.7897522251623768,
+      "eval_f1_macro": 0.736934271206392,
+      "eval_loss": 0.8516831398010254,
+      "eval_precision_macro": 0.7471052855094972,
+      "eval_recall_macro": 0.7513822718605427,
+      "eval_runtime": 45.2063,
+      "eval_samples_per_second": 91.956,
+      "eval_steps_per_second": 5.751,
+      "step": 4500
+    },
+    {
+      "epoch": 2.4283632831471587,
+      "grad_norm": 13.227448463439941,
+      "learning_rate": 3.2100797545350794e-05,
+      "loss": 0.2012,
+      "step": 5000
+    },
+    {
+      "epoch": 2.4283632831471587,
+      "eval_accuracy": 0.7952850613423141,
+      "eval_f1_macro": 0.7384644794255656,
+      "eval_loss": 0.8422956466674805,
+      "eval_precision_macro": 0.7407858112231859,
+      "eval_recall_macro": 0.7593629429944239,
+      "eval_runtime": 45.0668,
+      "eval_samples_per_second": 92.241,
+      "eval_steps_per_second": 5.769,
+      "step": 5000
+    },
+    {
+      "epoch": 2.6711996114618746,
+      "grad_norm": 14.610297203063965,
+      "learning_rate": 2.402948194623674e-05,
+      "loss": 0.1888,
+      "step": 5500
+    },
+    {
+      "epoch": 2.6711996114618746,
+      "eval_accuracy": 0.8383449603079144,
+      "eval_f1_macro": 0.7668856441209034,
+      "eval_loss": 0.7612192034721375,
+      "eval_precision_macro": 0.759848794474667,
+      "eval_recall_macro": 0.7875978932242379,
+      "eval_runtime": 44.9628,
+      "eval_samples_per_second": 92.454,
+      "eval_steps_per_second": 5.783,
+      "step": 5500
+    },
+    {
+      "epoch": 2.9140359397765905,
+      "grad_norm": 2.9459526538848877,
+      "learning_rate": 1.667276449145691e-05,
+      "loss": 0.1478,
+      "step": 6000
+    },
+    {
+      "epoch": 2.9140359397765905,
+      "eval_accuracy": 0.8284820784219389,
+      "eval_f1_macro": 0.7648949869466338,
+      "eval_loss": 0.7956407070159912,
+      "eval_precision_macro": 0.7582819516660327,
+      "eval_recall_macro": 0.7872534623468304,
+      "eval_runtime": 45.0026,
+      "eval_samples_per_second": 92.372,
+      "eval_steps_per_second": 5.777,
+      "step": 6000
+    },
+    {
+      "epoch": 3.1568722680913064,
+      "grad_norm": 0.04966867342591286,
+      "learning_rate": 1.035982026624521e-05,
+      "loss": 0.0805,
+      "step": 6500
+    },
+    {
+      "epoch": 3.1568722680913064,
+      "eval_accuracy": 0.8397883088765937,
+      "eval_f1_macro": 0.779163123362359,
+      "eval_loss": 0.7845637798309326,
+      "eval_precision_macro": 0.7736785485737475,
+      "eval_recall_macro": 0.7972932500440235,
+      "eval_runtime": 44.623,
+      "eval_samples_per_second": 93.158,
+      "eval_steps_per_second": 5.827,
+      "step": 6500
+    },
+    {
+      "epoch": 3.3997085964060223,
+      "grad_norm": 0.054828643798828125,
+      "learning_rate": 5.373120898224163e-06,
+      "loss": 0.054,
+      "step": 7000
+    },
+    {
+      "epoch": 3.3997085964060223,
+      "eval_accuracy": 0.8390666345922541,
+      "eval_f1_macro": 0.7789886096417518,
+      "eval_loss": 0.8231712579727173,
+      "eval_precision_macro": 0.7722144919792829,
+      "eval_recall_macro": 0.7985903156380745,
+      "eval_runtime": 44.6487,
+      "eval_samples_per_second": 93.105,
+      "eval_steps_per_second": 5.823,
+      "step": 7000
+    },
+    {
+      "epoch": 3.642544924720738,
+      "grad_norm": 8.141491889953613,
+      "learning_rate": 1.935795411934156e-06,
+      "loss": 0.0683,
+      "step": 7500
+    },
+    {
+      "epoch": 3.642544924720738,
+      "eval_accuracy": 0.8448400288669714,
+      "eval_f1_macro": 0.7842453714436081,
+      "eval_loss": 0.7753947377204895,
+      "eval_precision_macro": 0.7754804853445821,
+      "eval_recall_macro": 0.8051232260351716,
+      "eval_runtime": 45.7414,
+      "eval_samples_per_second": 90.881,
+      "eval_steps_per_second": 5.684,
+      "step": 7500
+    },
+    {
+      "epoch": 3.885381253035454,
+      "grad_norm": 4.538354873657227,
+      "learning_rate": 2.0164635815698608e-07,
+      "loss": 0.0531,
+      "step": 8000
+    },
+    {
+      "epoch": 3.885381253035454,
+      "eval_accuracy": 0.8462833774356507,
+      "eval_f1_macro": 0.7836126243666646,
+      "eval_loss": 0.778516948223114,
+      "eval_precision_macro": 0.773015814199716,
+      "eval_recall_macro": 0.8048624371833594,
+      "eval_runtime": 45.7139,
+      "eval_samples_per_second": 90.935,
+      "eval_steps_per_second": 5.688,
+      "step": 8000
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 8236,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.7460348542595072e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-8236/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c62d5b95ae007f7f68dfb168685d5940013d7e1bd191a6beea90ad5b2a515d2
+size 5304

checkpoint-8236/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff