(chat) root@dsw-372547-675546dd46-gjcqb:/mnt/workspace/ChatGLM3/finetune_demo# python finetune_hf.py formatted_data/ /mnt/workspace/ChatGLM3/chatglm3-6b configs/lora.yaml yes Setting eos_token is not supported, use the default one. Setting pad_token is not supported, use the default one. Setting unk_token is not supported, use the default one. Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████| 7/7 [00:03<00:00, 1.89it/s] trainable params: 1,949,696 || all params: 6,245,533,696 || trainable%: 0.031217444255383614 --> Model --> model has 1.949696M params Map (num_proc=4): 100%|███████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 37.45 examples/s] train_dataset: Dataset({ features: ['input_ids', 'labels'], num_rows: 20 }) Map (num_proc=4): 100%|████████████████████████████████████████████████████████████████████████| 130/130 [00:00<00:00, 249.88 examples/s] val_dataset: Dataset({ features: ['input_ids', 'output_ids'], num_rows: 130 }) Map (num_proc=4): 100%|████████████████████████████████████████████████████████████████████████| 130/130 [00:00<00:00, 245.95 examples/s] test_dataset: Dataset({ features: ['input_ids', 'output_ids'], num_rows: 130 }) --> Sanity check '[gMASK]': 64790 -> -100 'sop': 64792 -> -100 '<|system|>': 64794 -> -100 '': 30910 -> -100 '\n': 13 -> -100 'You': 809 -> -100 'are': 383 -> -100 'Chat': 22011 -> -100 'GL': 10461 -> -100 'M': 30944 -> -100 '3': 30966 -> -100 ',': 30932 -> -100 'a': 260 -> -100 'large': 1796 -> -100 'language': 3239 -> -100 'model': 2092 -> -100 'trained': 7594 -> -100 'by': 422 -> -100 'Z': 1192 -> -100 'hip': 899 -> -100 'u': 30923 -> -100 '.': 30930 -> -100 'AI': 23833 -> -100 '.': 30930 -> -100 'Follow': 5741 -> -100 'the': 267 -> -100 'user': 2795 -> -100 "'": 30953 -> -100 's': 30917 -> -100 'instructions': 8417 -> -100 'carefully': 7724 -> -100 '.': 30930 -> -100 'Respond': 21911 -> -100 'using': 1227 -> -100 'mark': 3478 -> -100 'down': 3536 -> -100 '.': 30930 -> -100 '<|user|>': 64795 -> -100 '': 30910 -> -100 '\n': 13 -> -100 '': 30910 -> -100 '董': 55727 -> -100 '宇': 55773 -> -100 '辉': 56060 -> -100 '<|assistant|>': 64796 -> -100 '': 30910 -> 30910 '\n': 13 -> 13 '': 30910 -> 30910 '董': 55727 -> 55727 '宇': 55773 -> 55773 '辉': 56060 -> 56060 ',': 31123 -> 31123 '男': 55033 -> 55033 ',': 31123 -> 31123 '1': 30939 -> 30939 '9': 30969 -> 30969 '9': 30969 -> 30969 '3': 30966 -> 30966 '年': 54540 -> 54540 '出生于': 36982 -> 36982 '陕西省': 36658 -> 36658 '渭': 58024 -> 58024 '南市': 46184 -> 46184 '潼': 58830 -> 58830 '关': 54637 -> 54637 '县': 54946 -> 54946 '。': 31155 -> 31155 '2': 30943 -> 30943 '0': 30940 -> 30940 '1': 30939 -> 30939 '5': 30970 -> 30970 '年毕业于': 45804 -> 45804 '西安': 33083 -> 33083 '外国语': 39890 -> 39890 '大学': 31650 -> 31650 '。': 31155 -> 31155 '2': 30943 -> 30943 '0': 30940 -> 30940 '1': 30939 -> 30939 '6': 30978 -> 30978 '年': 54540 -> 54540 '加入': 32142 -> 32142 '西安': 33083 -> 33083 '新': 54575 -> 54575 '东方': 33424 -> 33424 ',': 31123 -> 31123 '当选': 35985 -> 35985 '(': 31301 -> 31301 '新': 54575 -> 54575 '东方': 33424 -> 33424 ')': 31300 -> 31300 '当时': 32038 -> 32038 '最': 54628 -> 54628 '年轻的': 39859 -> 39859 '英语': 32886 -> 32886 '教研': 35481 -> 35481 '主管': 33262 -> 33262 ';': 54659 -> 54659 '2': 30943 -> 30943 '0': 30940 -> 30940 '1': 30939 -> 30939 '9': 30969 -> 30969 '年': 54540 -> 54540 '加入': 32142 -> 32142 '新': 54575 -> 54575 '东方': 33424 -> 33424 '在线': 33303 -> 33303 ',': 31123 -> 31123 '是': 54532 -> 54532 '高三': 39366 -> 39366 '英语': 32886 -> 32886 '名师': 39380 -> 39380 '并': 54724 -> 54724 '成为': 31705 -> 31705 '高三': 39366 -> 39366 '英语': 32886 -> 32886 '学科': 32392 -> 32392 '最': 54628 -> 54628 '年轻的': 39859 -> 39859 '负责人': 32610 -> 32610 ',': 31123 -> 31123 '被称为': 34947 -> 34947 '“': 30989 -> 30989 '中': 54538 -> 54538 '关村': 49803 -> 49803 '周杰伦': 50542 -> 50542 '”。': 31681 -> 31681 '现': 54600 -> 54600 '是': 54532 -> 54532 '东方': 33424 -> 33424 '甄': 57494 -> 57494 '选': 54878 -> 54878 '高级': 32970 -> 32970 '合伙人': 41026 -> 41026 '、': 31201 -> 31201 '新': 54575 -> 54575 '东方': 33424 -> 33424 '教育': 31634 -> 31634 '科技': 31748 -> 31748 '集团董事长': 50120 -> 50120 '文化': 31653 -> 31653 '助理': 34712 -> 34712 ',': 31123 -> 31123 '兼任': 39687 -> 39687 '新': 54575 -> 54575 '东方': 33424 -> 33424 '文旅': 36750 -> 36750 '集团': 31839 -> 31839 '副总裁': 40082 -> 40082 '。': 31155 -> 31155 '': 2 -> 2 Detected kernel version 4.19.24, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher. max_steps is given, it will override any value given in num_train_epochs ***** Running training ***** Num examples = 20 Num Epochs = 300 Instantaneous batch size per device = 2 Total train batch size (w. parallel, distributed & accumulation) = 2 Gradient Accumulation steps = 1 Total optimization steps = 3,000 Number of trainable parameters = 1,949,696 {'loss': 3.6582, 'learning_rate': 4.9833333333333336e-05, 'epoch': 1.0} {'loss': 2.8107, 'learning_rate': 4.966666666666667e-05, 'epoch': 2.0} {'loss': 1.8519, 'learning_rate': 4.9500000000000004e-05, 'epoch': 3.0} {'loss': 0.9567, 'learning_rate': 4.933333333333334e-05, 'epoch': 4.0} {'loss': 0.3649, 'learning_rate': 4.9166666666666665e-05, 'epoch': 5.0} {'loss': 0.0711, 'learning_rate': 4.9e-05, 'epoch': 6.0} {'loss': 0.0125, 'learning_rate': 4.883333333333334e-05, 'epoch': 7.0} {'loss': 0.0061, 'learning_rate': 4.866666666666667e-05, 'epoch': 8.0} {'loss': 0.0053, 'learning_rate': 4.85e-05, 'epoch': 9.0} {'loss': 0.0063, 'learning_rate': 4.8333333333333334e-05, 'epoch': 10.0} {'loss': 0.0068, 'learning_rate': 4.8166666666666674e-05, 'epoch': 11.0} {'loss': 0.0075, 'learning_rate': 4.8e-05, 'epoch': 12.0} {'loss': 0.0076, 'learning_rate': 4.7833333333333335e-05, 'epoch': 13.0} {'loss': 0.0084, 'learning_rate': 4.766666666666667e-05, 'epoch': 14.0} {'loss': 0.0095, 'learning_rate': 4.75e-05, 'epoch': 15.0} {'loss': 0.01, 'learning_rate': 4.7333333333333336e-05, 'epoch': 16.0} {'loss': 0.0111, 'learning_rate': 4.716666666666667e-05, 'epoch': 17.0} {'loss': 0.0123, 'learning_rate': 4.7e-05, 'epoch': 18.0} {'loss': 0.0131, 'learning_rate': 4.683333333333334e-05, 'epoch': 19.0} {'loss': 0.0145, 'learning_rate': 4.666666666666667e-05, 'epoch': 20.0} {'loss': 0.0157, 'learning_rate': 4.6500000000000005e-05, 'epoch': 21.0} {'loss': 0.0169, 'learning_rate': 4.633333333333333e-05, 'epoch': 22.0} {'loss': 0.0183, 'learning_rate': 4.6166666666666666e-05, 'epoch': 23.0} {'loss': 0.0191, 'learning_rate': 4.600000000000001e-05, 'epoch': 24.0} {'loss': 0.0206, 'learning_rate': 4.5833333333333334e-05, 'epoch': 25.0} {'loss': 0.0215, 'learning_rate': 4.566666666666667e-05, 'epoch': 26.0} {'loss': 0.0252, 'learning_rate': 4.55e-05, 'epoch': 27.0} {'loss': 0.0239, 'learning_rate': 4.5333333333333335e-05, 'epoch': 28.0} {'loss': 0.0258, 'learning_rate': 4.516666666666667e-05, 'epoch': 29.0} {'loss': 0.027, 'learning_rate': 4.5e-05, 'epoch': 30.0} {'loss': 0.0269, 'learning_rate': 4.483333333333333e-05, 'epoch': 31.0} {'loss': 0.0273, 'learning_rate': 4.466666666666667e-05, 'epoch': 32.0} {'loss': 0.0299, 'learning_rate': 4.4500000000000004e-05, 'epoch': 33.0} {'loss': 0.0314, 'learning_rate': 4.433333333333334e-05, 'epoch': 34.0} {'loss': 0.0318, 'learning_rate': 4.4166666666666665e-05, 'epoch': 35.0} {'loss': 0.0342, 'learning_rate': 4.4000000000000006e-05, 'epoch': 36.0} {'loss': 0.0343, 'learning_rate': 4.383333333333334e-05, 'epoch': 37.0} {'loss': 0.0365, 'learning_rate': 4.3666666666666666e-05, 'epoch': 38.0} {'loss': 0.0371, 'learning_rate': 4.35e-05, 'epoch': 39.0} {'loss': 0.0395, 'learning_rate': 4.3333333333333334e-05, 'epoch': 40.0} {'loss': 0.0373, 'learning_rate': 4.316666666666667e-05, 'epoch': 41.0} {'loss': 0.0398, 'learning_rate': 4.3e-05, 'epoch': 42.0} {'loss': 0.0379, 'learning_rate': 4.2833333333333335e-05, 'epoch': 43.0} {'loss': 0.0413, 'learning_rate': 4.266666666666667e-05, 'epoch': 44.0} {'loss': 0.0421, 'learning_rate': 4.25e-05, 'epoch': 45.0} {'loss': 0.0418, 'learning_rate': 4.233333333333334e-05, 'epoch': 46.0} {'loss': 0.0425, 'learning_rate': 4.216666666666667e-05, 'epoch': 47.0} {'loss': 0.0427, 'learning_rate': 4.2e-05, 'epoch': 48.0} {'loss': 0.0454, 'learning_rate': 4.183333333333334e-05, 'epoch': 49.0} {'loss': 0.0456, 'learning_rate': 4.166666666666667e-05, 'epoch': 50.0} 17%|████████████████▏ | 500/3000 [03:46<18:42, 2.23it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 Building prefix dict from the default dictionary ...████████████████████████████████████████████████████████| 4/4 [00:14<00:00, 4.08s/it] Dumping model to file cache /tmp/jieba.cache Loading model cost 0.766 seconds. Prefix dict has been built successfully. {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 21.6859, 'eval_samples_per_second': 2.306, 'eval_steps_per_second': 0.184, 'epoch': 50.0} 17%|████████████████▏ | 500/3000 [04:08<18:42, 2.23it/sSaving model checkpoint to ./output/tmp-checkpoint-500 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( {'loss': 0.0479, 'learning_rate': 4.15e-05, 'epoch': 51.0} {'loss': 0.0456, 'learning_rate': 4.133333333333333e-05, 'epoch': 52.0} {'loss': 0.047, 'learning_rate': 4.116666666666667e-05, 'epoch': 53.0} {'loss': 0.0479, 'learning_rate': 4.1e-05, 'epoch': 54.0} {'loss': 0.0483, 'learning_rate': 4.0833333333333334e-05, 'epoch': 55.0} {'loss': 0.0502, 'learning_rate': 4.066666666666667e-05, 'epoch': 56.0} {'loss': 0.0506, 'learning_rate': 4.05e-05, 'epoch': 57.0} {'loss': 0.0522, 'learning_rate': 4.0333333333333336e-05, 'epoch': 58.0} {'loss': 0.0513, 'learning_rate': 4.016666666666667e-05, 'epoch': 59.0} {'loss': 0.0527, 'learning_rate': 4e-05, 'epoch': 60.0} {'loss': 0.0551, 'learning_rate': 3.983333333333333e-05, 'epoch': 61.0} {'loss': 0.0541, 'learning_rate': 3.966666666666667e-05, 'epoch': 62.0} {'loss': 0.0539, 'learning_rate': 3.9500000000000005e-05, 'epoch': 63.0} {'loss': 0.0551, 'learning_rate': 3.933333333333333e-05, 'epoch': 64.0} {'loss': 0.0582, 'learning_rate': 3.9166666666666665e-05, 'epoch': 65.0} {'loss': 0.0558, 'learning_rate': 3.9000000000000006e-05, 'epoch': 66.0} {'loss': 0.0571, 'learning_rate': 3.883333333333333e-05, 'epoch': 67.0} {'loss': 0.0565, 'learning_rate': 3.866666666666667e-05, 'epoch': 68.0} {'loss': 0.0565, 'learning_rate': 3.85e-05, 'epoch': 69.0} {'loss': 0.0593, 'learning_rate': 3.8333333333333334e-05, 'epoch': 70.0} {'loss': 0.0592, 'learning_rate': 3.816666666666667e-05, 'epoch': 71.0} {'loss': 0.0587, 'learning_rate': 3.8e-05, 'epoch': 72.0} {'loss': 0.0612, 'learning_rate': 3.7833333333333336e-05, 'epoch': 73.0} {'loss': 0.0598, 'learning_rate': 3.766666666666667e-05, 'epoch': 74.0} {'loss': 0.0603, 'learning_rate': 3.7500000000000003e-05, 'epoch': 75.0} {'loss': 0.061, 'learning_rate': 3.733333333333334e-05, 'epoch': 76.0} {'loss': 0.0624, 'learning_rate': 3.7166666666666664e-05, 'epoch': 77.0} {'loss': 0.0626, 'learning_rate': 3.7e-05, 'epoch': 78.0} {'loss': 0.0636, 'learning_rate': 3.683333333333334e-05, 'epoch': 79.0} {'loss': 0.0626, 'learning_rate': 3.6666666666666666e-05, 'epoch': 80.0} {'loss': 0.0666, 'learning_rate': 3.65e-05, 'epoch': 81.0} {'loss': 0.0651, 'learning_rate': 3.633333333333333e-05, 'epoch': 82.0} {'loss': 0.0646, 'learning_rate': 3.6166666666666674e-05, 'epoch': 83.0} {'loss': 0.0662, 'learning_rate': 3.6e-05, 'epoch': 84.0} {'loss': 0.0638, 'learning_rate': 3.5833333333333335e-05, 'epoch': 85.0} {'loss': 0.0665, 'learning_rate': 3.566666666666667e-05, 'epoch': 86.0} {'loss': 0.0674, 'learning_rate': 3.55e-05, 'epoch': 87.0} {'loss': 0.0644, 'learning_rate': 3.5333333333333336e-05, 'epoch': 88.0} {'loss': 0.066, 'learning_rate': 3.516666666666667e-05, 'epoch': 89.0} {'loss': 0.0711, 'learning_rate': 3.5e-05, 'epoch': 90.0} {'loss': 0.0658, 'learning_rate': 3.483333333333334e-05, 'epoch': 91.0} {'loss': 0.069, 'learning_rate': 3.466666666666667e-05, 'epoch': 92.0} {'loss': 0.0702, 'learning_rate': 3.45e-05, 'epoch': 93.0} {'loss': 0.0674, 'learning_rate': 3.433333333333333e-05, 'epoch': 94.0} {'loss': 0.0704, 'learning_rate': 3.4166666666666666e-05, 'epoch': 95.0} {'loss': 0.0675, 'learning_rate': 3.4000000000000007e-05, 'epoch': 96.0} {'loss': 0.0674, 'learning_rate': 3.3833333333333334e-05, 'epoch': 97.0} {'loss': 0.0683, 'learning_rate': 3.366666666666667e-05, 'epoch': 98.0} {'loss': 0.0704, 'learning_rate': 3.35e-05, 'epoch': 99.0} {'loss': 0.07, 'learning_rate': 3.3333333333333335e-05, 'epoch': 100.0} 33%|████████████████████████████████ | 1000/3000 [07:55<15:00, 2.22it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.8463, 'eval_samples_per_second': 2.653, 'eval_steps_per_second': 0.212, 'epoch': 100.0} 33%|████████████████████████████████ | 1000/3000 [08:14<15:00, 2.22it/sSaving model checkpoint to ./output/tmp-checkpoint-1000 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( {'loss': 0.0699, 'learning_rate': 3.316666666666667e-05, 'epoch': 101.0} {'loss': 0.07, 'learning_rate': 3.3e-05, 'epoch': 102.0} {'loss': 0.0701, 'learning_rate': 3.283333333333333e-05, 'epoch': 103.0} {'loss': 0.0708, 'learning_rate': 3.266666666666667e-05, 'epoch': 104.0} {'loss': 0.0733, 'learning_rate': 3.2500000000000004e-05, 'epoch': 105.0} {'loss': 0.074, 'learning_rate': 3.233333333333333e-05, 'epoch': 106.0} {'loss': 0.0719, 'learning_rate': 3.2166666666666665e-05, 'epoch': 107.0} {'loss': 0.0703, 'learning_rate': 3.2000000000000005e-05, 'epoch': 108.0} {'loss': 0.0736, 'learning_rate': 3.183333333333334e-05, 'epoch': 109.0} {'loss': 0.0756, 'learning_rate': 3.1666666666666666e-05, 'epoch': 110.0} {'loss': 0.0722, 'learning_rate': 3.15e-05, 'epoch': 111.0} {'loss': 0.0742, 'learning_rate': 3.1333333333333334e-05, 'epoch': 112.0} {'loss': 0.0754, 'learning_rate': 3.116666666666667e-05, 'epoch': 113.0} {'loss': 0.077, 'learning_rate': 3.1e-05, 'epoch': 114.0} {'loss': 0.0766, 'learning_rate': 3.0833333333333335e-05, 'epoch': 115.0} {'loss': 0.0794, 'learning_rate': 3.066666666666667e-05, 'epoch': 116.0} {'loss': 0.0343, 'learning_rate': 4.383333333333334e-05, 'epoch': 37.0} {'loss': 0.0365, 'learning_rate': 4.3666666666666666e-05, 'epoch': 38.0} {'loss': 0.0371, 'learning_rate': 4.35e-05, 'epoch': 39.0} {'loss': 0.0395, 'learning_rate': 4.3333333333333334e-05, 'epoch': 40.0} {'loss': 0.0373, 'learning_rate': 4.316666666666667e-05, 'epoch': 41.0} {'loss': 0.0398, 'learning_rate': 4.3e-05, 'epoch': 42.0} {'loss': 0.0379, 'learning_rate': 4.2833333333333335e-05, 'epoch': 43.0} {'loss': 0.0413, 'learning_rate': 4.266666666666667e-05, 'epoch': 44.0} {'loss': 0.0421, 'learning_rate': 4.25e-05, 'epoch': 45.0} {'loss': 0.0418, 'learning_rate': 4.233333333333334e-05, 'epoch': 46.0} {'loss': 0.0425, 'learning_rate': 4.216666666666667e-05, 'epoch': 47.0} {'loss': 0.0427, 'learning_rate': 4.2e-05, 'epoch': 48.0} {'loss': 0.0454, 'learning_rate': 4.183333333333334e-05, 'epoch': 49.0} {'loss': 0.0456, 'learning_rate': 4.166666666666667e-05, 'epoch': 50.0} 17%|████████████████▏ | 500/3000 [03:46<18:42, 2.23it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 Building prefix dict from the default dictionary ...████████████████████████████████████████████████████████| 4/4 [00:14<00:00, 4.08s/it] Dumping model to file cache /tmp/jieba.cache Loading model cost 0.766 seconds. Prefix dict has been built successfully. {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 21.6859, 'eval_samples_per_second': 2.306, 'eval_steps_per_second': 0.184, 'epoch': 50.0} 17%|████████████████▏ | 500/3000 [04:08<18:42, 2.23it/sSaving model checkpoint to ./output/tmp-checkpoint-500 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( {'loss': 0.0479, 'learning_rate': 4.15e-05, 'epoch': 51.0} {'loss': 0.0456, 'learning_rate': 4.133333333333333e-05, 'epoch': 52.0} {'loss': 0.047, 'learning_rate': 4.116666666666667e-05, 'epoch': 53.0} {'loss': 0.0479, 'learning_rate': 4.1e-05, 'epoch': 54.0} {'loss': 0.0483, 'learning_rate': 4.0833333333333334e-05, 'epoch': 55.0} {'loss': 0.0502, 'learning_rate': 4.066666666666667e-05, 'epoch': 56.0} {'loss': 0.0506, 'learning_rate': 4.05e-05, 'epoch': 57.0} {'loss': 0.0522, 'learning_rate': 4.0333333333333336e-05, 'epoch': 58.0} {'loss': 0.0513, 'learning_rate': 4.016666666666667e-05, 'epoch': 59.0} {'loss': 0.0527, 'learning_rate': 4e-05, 'epoch': 60.0} {'loss': 0.0551, 'learning_rate': 3.983333333333333e-05, 'epoch': 61.0} {'loss': 0.0541, 'learning_rate': 3.966666666666667e-05, 'epoch': 62.0} {'loss': 0.0539, 'learning_rate': 3.9500000000000005e-05, 'epoch': 63.0} {'loss': 0.0551, 'learning_rate': 3.933333333333333e-05, 'epoch': 64.0} {'loss': 0.0582, 'learning_rate': 3.9166666666666665e-05, 'epoch': 65.0} {'loss': 0.0558, 'learning_rate': 3.9000000000000006e-05, 'epoch': 66.0} {'loss': 0.0571, 'learning_rate': 3.883333333333333e-05, 'epoch': 67.0} {'loss': 0.0565, 'learning_rate': 3.866666666666667e-05, 'epoch': 68.0} {'loss': 0.0565, 'learning_rate': 3.85e-05, 'epoch': 69.0} {'loss': 0.0593, 'learning_rate': 3.8333333333333334e-05, 'epoch': 70.0} {'loss': 0.0592, 'learning_rate': 3.816666666666667e-05, 'epoch': 71.0} {'loss': 0.0587, 'learning_rate': 3.8e-05, 'epoch': 72.0} {'loss': 0.0612, 'learning_rate': 3.7833333333333336e-05, 'epoch': 73.0} {'loss': 0.0598, 'learning_rate': 3.766666666666667e-05, 'epoch': 74.0} {'loss': 0.0603, 'learning_rate': 3.7500000000000003e-05, 'epoch': 75.0} {'loss': 0.061, 'learning_rate': 3.733333333333334e-05, 'epoch': 76.0} {'loss': 0.0624, 'learning_rate': 3.7166666666666664e-05, 'epoch': 77.0} {'loss': 0.0626, 'learning_rate': 3.7e-05, 'epoch': 78.0} {'loss': 0.0636, 'learning_rate': 3.683333333333334e-05, 'epoch': 79.0} {'loss': 0.0626, 'learning_rate': 3.6666666666666666e-05, 'epoch': 80.0} {'loss': 0.0666, 'learning_rate': 3.65e-05, 'epoch': 81.0} {'loss': 0.0651, 'learning_rate': 3.633333333333333e-05, 'epoch': 82.0} {'loss': 0.0646, 'learning_rate': 3.6166666666666674e-05, 'epoch': 83.0} {'loss': 0.0662, 'learning_rate': 3.6e-05, 'epoch': 84.0} {'loss': 0.0638, 'learning_rate': 3.5833333333333335e-05, 'epoch': 85.0} {'loss': 0.0665, 'learning_rate': 3.566666666666667e-05, 'epoch': 86.0} {'loss': 0.0674, 'learning_rate': 3.55e-05, 'epoch': 87.0} {'loss': 0.0644, 'learning_rate': 3.5333333333333336e-05, 'epoch': 88.0} {'loss': 0.066, 'learning_rate': 3.516666666666667e-05, 'epoch': 89.0} {'loss': 0.0711, 'learning_rate': 3.5e-05, 'epoch': 90.0} {'loss': 0.0658, 'learning_rate': 3.483333333333334e-05, 'epoch': 91.0} {'loss': 0.069, 'learning_rate': 3.466666666666667e-05, 'epoch': 92.0} {'loss': 0.0702, 'learning_rate': 3.45e-05, 'epoch': 93.0} {'loss': 0.0674, 'learning_rate': 3.433333333333333e-05, 'epoch': 94.0} {'loss': 0.0704, 'learning_rate': 3.4166666666666666e-05, 'epoch': 95.0} {'loss': 0.0675, 'learning_rate': 3.4000000000000007e-05, 'epoch': 96.0} {'loss': 0.0674, 'learning_rate': 3.3833333333333334e-05, 'epoch': 97.0} {'loss': 0.0683, 'learning_rate': 3.366666666666667e-05, 'epoch': 98.0} {'loss': 0.0704, 'learning_rate': 3.35e-05, 'epoch': 99.0} {'loss': 0.07, 'learning_rate': 3.3333333333333335e-05, 'epoch': 100.0} 33%|████████████████████████████████ | 1000/3000 [07:55<15:00, 2.22it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.8463, 'eval_samples_per_second': 2.653, 'eval_steps_per_second': 0.212, 'epoch': 100.0} 33%|████████████████████████████████ | 1000/3000 [08:14<15:00, 2.22it/sSaving model checkpoint to ./output/tmp-checkpoint-1000 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( {'loss': 0.0699, 'learning_rate': 3.316666666666667e-05, 'epoch': 101.0} {'loss': 0.07, 'learning_rate': 3.3e-05, 'epoch': 102.0} {'loss': 0.0701, 'learning_rate': 3.283333333333333e-05, 'epoch': 103.0} {'loss': 0.0708, 'learning_rate': 3.266666666666667e-05, 'epoch': 104.0} {'loss': 0.0733, 'learning_rate': 3.2500000000000004e-05, 'epoch': 105.0} {'loss': 0.074, 'learning_rate': 3.233333333333333e-05, 'epoch': 106.0} {'loss': 0.0719, 'learning_rate': 3.2166666666666665e-05, 'epoch': 107.0} {'loss': 0.0703, 'learning_rate': 3.2000000000000005e-05, 'epoch': 108.0} {'loss': 0.0736, 'learning_rate': 3.183333333333334e-05, 'epoch': 109.0} {'loss': 0.0756, 'learning_rate': 3.1666666666666666e-05, 'epoch': 110.0} {'loss': 0.0722, 'learning_rate': 3.15e-05, 'epoch': 111.0} {'loss': 0.0742, 'learning_rate': 3.1333333333333334e-05, 'epoch': 112.0} {'loss': 0.0754, 'learning_rate': 3.116666666666667e-05, 'epoch': 113.0} {'loss': 0.077, 'learning_rate': 3.1e-05, 'epoch': 114.0} {'loss': 0.0766, 'learning_rate': 3.0833333333333335e-05, 'epoch': 115.0} {'loss': 0.0794, 'learning_rate': 3.066666666666667e-05, 'epoch': 116.0} {'loss': 0.0786, 'learning_rate': 3.05e-05, 'epoch': 117.0} {'loss': 0.0784, 'learning_rate': 3.0333333333333337e-05, 'epoch': 118.0} {'loss': 0.0791, 'learning_rate': 3.016666666666667e-05, 'epoch': 119.0} {'loss': 0.0758, 'learning_rate': 3e-05, 'epoch': 120.0} {'loss': 0.0796, 'learning_rate': 2.9833333333333335e-05, 'epoch': 121.0} {'loss': 0.0788, 'learning_rate': 2.9666666666666672e-05, 'epoch': 122.0} {'loss': 0.0787, 'learning_rate': 2.95e-05, 'epoch': 123.0} {'loss': 0.0809, 'learning_rate': 2.9333333333333336e-05, 'epoch': 124.0} {'loss': 0.0826, 'learning_rate': 2.916666666666667e-05, 'epoch': 125.0} {'loss': 0.0822, 'learning_rate': 2.9e-05, 'epoch': 126.0} {'loss': 0.0786, 'learning_rate': 2.8833333333333334e-05, 'epoch': 127.0} {'loss': 0.0778, 'learning_rate': 2.8666666666666668e-05, 'epoch': 128.0} {'loss': 0.0834, 'learning_rate': 2.8499999999999998e-05, 'epoch': 129.0} {'loss': 0.0813, 'learning_rate': 2.8333333333333335e-05, 'epoch': 130.0} {'loss': 0.0815, 'learning_rate': 2.816666666666667e-05, 'epoch': 131.0} {'loss': 0.0836, 'learning_rate': 2.8000000000000003e-05, 'epoch': 132.0} {'loss': 0.0801, 'learning_rate': 2.7833333333333333e-05, 'epoch': 133.0} {'loss': 0.082, 'learning_rate': 2.7666666666666667e-05, 'epoch': 134.0} {'loss': 0.0818, 'learning_rate': 2.7500000000000004e-05, 'epoch': 135.0} {'loss': 0.0823, 'learning_rate': 2.733333333333333e-05, 'epoch': 136.0} {'loss': 0.0813, 'learning_rate': 2.716666666666667e-05, 'epoch': 137.0} {'loss': 0.0828, 'learning_rate': 2.7000000000000002e-05, 'epoch': 138.0} {'loss': 0.0847, 'learning_rate': 2.6833333333333333e-05, 'epoch': 139.0} {'loss': 0.0928, 'learning_rate': 2.6666666666666667e-05, 'epoch': 140.0} {'loss': 0.0884, 'learning_rate': 2.6500000000000004e-05, 'epoch': 141.0} {'loss': 0.0808, 'learning_rate': 2.633333333333333e-05, 'epoch': 142.0} {'loss': 0.0815, 'learning_rate': 2.6166666666666668e-05, 'epoch': 143.0} {'loss': 0.081, 'learning_rate': 2.6000000000000002e-05, 'epoch': 144.0} {'loss': 0.0809, 'learning_rate': 2.5833333333333336e-05, 'epoch': 145.0} {'loss': 0.0827, 'learning_rate': 2.5666666666666666e-05, 'epoch': 146.0} {'loss': 0.0845, 'learning_rate': 2.5500000000000003e-05, 'epoch': 147.0} {'loss': 0.0863, 'learning_rate': 2.5333333333333337e-05, 'epoch': 148.0} {'loss': 0.0855, 'learning_rate': 2.5166666666666667e-05, 'epoch': 149.0} {'loss': 0.084, 'learning_rate': 2.5e-05, 'epoch': 150.0} 50%|████████████████████████████████████████████████ | 1500/3000 [12:00<11:24, 2.19it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7974, 'eval_samples_per_second': 2.66, 'eval_steps_per_second': 0.213, 'epoch': 150.0} 50%|████████████████████████████████████████████████ | 1500/3000 [12:19<11:24, 2.19it/sSaving model checkpoint to ./output/tmp-checkpoint-1500 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( {'loss': 0.085, 'learning_rate': 2.4833333333333335e-05, 'epoch': 151.0} {'loss': 0.0869, 'learning_rate': 2.466666666666667e-05, 'epoch': 152.0} {'loss': 0.088, 'learning_rate': 2.45e-05, 'epoch': 153.0} {'loss': 0.0905, 'learning_rate': 2.4333333333333336e-05, 'epoch': 154.0} {'loss': 0.0864, 'learning_rate': 2.4166666666666667e-05, 'epoch': 155.0} {'loss': 0.0854, 'learning_rate': 2.4e-05, 'epoch': 156.0} {'loss': 0.085, 'learning_rate': 2.3833333333333334e-05, 'epoch': 157.0} {'loss': 0.0861, 'learning_rate': 2.3666666666666668e-05, 'epoch': 158.0} {'loss': 0.0878, 'learning_rate': 2.35e-05, 'epoch': 159.0} {'loss': 0.0867, 'learning_rate': 2.3333333333333336e-05, 'epoch': 160.0} {'loss': 0.0879, 'learning_rate': 2.3166666666666666e-05, 'epoch': 161.0} {'loss': 0.0883, 'learning_rate': 2.3000000000000003e-05, 'epoch': 162.0} {'loss': 0.0858, 'learning_rate': 2.2833333333333334e-05, 'epoch': 163.0} {'loss': 0.0867, 'learning_rate': 2.2666666666666668e-05, 'epoch': 164.0} {'loss': 0.0877, 'learning_rate': 2.25e-05, 'epoch': 165.0} {'loss': 0.0914, 'learning_rate': 2.2333333333333335e-05, 'epoch': 166.0} {'loss': 0.0876, 'learning_rate': 2.216666666666667e-05, 'epoch': 167.0} {'loss': 0.0907, 'learning_rate': 2.2000000000000003e-05, 'epoch': 168.0} {'loss': 0.0887, 'learning_rate': 2.1833333333333333e-05, 'epoch': 169.0} {'loss': 0.0881, 'learning_rate': 2.1666666666666667e-05, 'epoch': 170.0} {'loss': 0.0905, 'learning_rate': 2.15e-05, 'epoch': 171.0} {'loss': 0.069, 'learning_rate': 3.466666666666667e-05, 'epoch': 92.0} {'loss': 0.0702, 'learning_rate': 3.45e-05, 'epoch': 93.0} {'loss': 0.0674, 'learning_rate': 3.433333333333333e-05, 'epoch': 94.0} {'loss': 0.0704, 'learning_rate': 3.4166666666666666e-05, 'epoch': 95.0} {'loss': 0.0675, 'learning_rate': 3.4000000000000007e-05, 'epoch': 96.0} {'loss': 0.0674, 'learning_rate': 3.3833333333333334e-05, 'epoch': 97.0} {'loss': 0.0683, 'learning_rate': 3.366666666666667e-05, 'epoch': 98.0} {'loss': 0.0704, 'learning_rate': 3.35e-05, 'epoch': 99.0} {'loss': 0.07, 'learning_rate': 3.3333333333333335e-05, 'epoch': 100.0} 33%|████████████████████████████████ | 1000/3000 [07:55<15:00, 2.22it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.8463, 'eval_samples_per_second': 2.653, 'eval_steps_per_second': 0.212, 'epoch': 100.0} 33%|████████████████████████████████ | 1000/3000 [08:14<15:00, 2.22it/sSaving model checkpoint to ./output/tmp-checkpoint-1000 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( {'loss': 0.0699, 'learning_rate': 3.316666666666667e-05, 'epoch': 101.0} {'loss': 0.07, 'learning_rate': 3.3e-05, 'epoch': 102.0} {'loss': 0.0701, 'learning_rate': 3.283333333333333e-05, 'epoch': 103.0} {'loss': 0.0708, 'learning_rate': 3.266666666666667e-05, 'epoch': 104.0} {'loss': 0.0733, 'learning_rate': 3.2500000000000004e-05, 'epoch': 105.0} {'loss': 0.074, 'learning_rate': 3.233333333333333e-05, 'epoch': 106.0} {'loss': 0.0719, 'learning_rate': 3.2166666666666665e-05, 'epoch': 107.0} {'loss': 0.0703, 'learning_rate': 3.2000000000000005e-05, 'epoch': 108.0} {'loss': 0.0736, 'learning_rate': 3.183333333333334e-05, 'epoch': 109.0} {'loss': 0.0756, 'learning_rate': 3.1666666666666666e-05, 'epoch': 110.0} {'loss': 0.0722, 'learning_rate': 3.15e-05, 'epoch': 111.0} {'loss': 0.0742, 'learning_rate': 3.1333333333333334e-05, 'epoch': 112.0} {'loss': 0.0754, 'learning_rate': 3.116666666666667e-05, 'epoch': 113.0} {'loss': 0.077, 'learning_rate': 3.1e-05, 'epoch': 114.0} {'loss': 0.0766, 'learning_rate': 3.0833333333333335e-05, 'epoch': 115.0} {'loss': 0.0794, 'learning_rate': 3.066666666666667e-05, 'epoch': 116.0} {'loss': 0.0786, 'learning_rate': 3.05e-05, 'epoch': 117.0} {'loss': 0.0784, 'learning_rate': 3.0333333333333337e-05, 'epoch': 118.0} {'loss': 0.0791, 'learning_rate': 3.016666666666667e-05, 'epoch': 119.0} {'loss': 0.0758, 'learning_rate': 3e-05, 'epoch': 120.0} {'loss': 0.0796, 'learning_rate': 2.9833333333333335e-05, 'epoch': 121.0} {'loss': 0.0788, 'learning_rate': 2.9666666666666672e-05, 'epoch': 122.0} {'loss': 0.0787, 'learning_rate': 2.95e-05, 'epoch': 123.0} {'loss': 0.0809, 'learning_rate': 2.9333333333333336e-05, 'epoch': 124.0} {'loss': 0.0826, 'learning_rate': 2.916666666666667e-05, 'epoch': 125.0} {'loss': 0.0822, 'learning_rate': 2.9e-05, 'epoch': 126.0} {'loss': 0.0786, 'learning_rate': 2.8833333333333334e-05, 'epoch': 127.0} {'loss': 0.0778, 'learning_rate': 2.8666666666666668e-05, 'epoch': 128.0} {'loss': 0.0834, 'learning_rate': 2.8499999999999998e-05, 'epoch': 129.0} {'loss': 0.0813, 'learning_rate': 2.8333333333333335e-05, 'epoch': 130.0} {'loss': 0.0815, 'learning_rate': 2.816666666666667e-05, 'epoch': 131.0} {'loss': 0.0836, 'learning_rate': 2.8000000000000003e-05, 'epoch': 132.0} {'loss': 0.0801, 'learning_rate': 2.7833333333333333e-05, 'epoch': 133.0} {'loss': 0.082, 'learning_rate': 2.7666666666666667e-05, 'epoch': 134.0} {'loss': 0.0818, 'learning_rate': 2.7500000000000004e-05, 'epoch': 135.0} {'loss': 0.0823, 'learning_rate': 2.733333333333333e-05, 'epoch': 136.0} {'loss': 0.0813, 'learning_rate': 2.716666666666667e-05, 'epoch': 137.0} {'loss': 0.0828, 'learning_rate': 2.7000000000000002e-05, 'epoch': 138.0} {'loss': 0.0847, 'learning_rate': 2.6833333333333333e-05, 'epoch': 139.0} {'loss': 0.0928, 'learning_rate': 2.6666666666666667e-05, 'epoch': 140.0} {'loss': 0.0884, 'learning_rate': 2.6500000000000004e-05, 'epoch': 141.0} {'loss': 0.0808, 'learning_rate': 2.633333333333333e-05, 'epoch': 142.0} {'loss': 0.0815, 'learning_rate': 2.6166666666666668e-05, 'epoch': 143.0} {'loss': 0.081, 'learning_rate': 2.6000000000000002e-05, 'epoch': 144.0} {'loss': 0.0809, 'learning_rate': 2.5833333333333336e-05, 'epoch': 145.0} {'loss': 0.0827, 'learning_rate': 2.5666666666666666e-05, 'epoch': 146.0} {'loss': 0.0845, 'learning_rate': 2.5500000000000003e-05, 'epoch': 147.0} {'loss': 0.0863, 'learning_rate': 2.5333333333333337e-05, 'epoch': 148.0} {'loss': 0.0855, 'learning_rate': 2.5166666666666667e-05, 'epoch': 149.0} {'loss': 0.084, 'learning_rate': 2.5e-05, 'epoch': 150.0} 50%|████████████████████████████████████████████████ | 1500/3000 [12:00<11:24, 2.19it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7974, 'eval_samples_per_second': 2.66, 'eval_steps_per_second': 0.213, 'epoch': 150.0} 50%|████████████████████████████████████████████████ | 1500/3000 [12:19<11:24, 2.19it/sSaving model checkpoint to ./output/tmp-checkpoint-1500 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( {'loss': 0.085, 'learning_rate': 2.4833333333333335e-05, 'epoch': 151.0} {'loss': 0.0869, 'learning_rate': 2.466666666666667e-05, 'epoch': 152.0} {'loss': 0.088, 'learning_rate': 2.45e-05, 'epoch': 153.0} {'loss': 0.0905, 'learning_rate': 2.4333333333333336e-05, 'epoch': 154.0} {'loss': 0.0864, 'learning_rate': 2.4166666666666667e-05, 'epoch': 155.0} {'loss': 0.0854, 'learning_rate': 2.4e-05, 'epoch': 156.0} {'loss': 0.085, 'learning_rate': 2.3833333333333334e-05, 'epoch': 157.0} {'loss': 0.0861, 'learning_rate': 2.3666666666666668e-05, 'epoch': 158.0} {'loss': 0.0878, 'learning_rate': 2.35e-05, 'epoch': 159.0} {'loss': 0.0867, 'learning_rate': 2.3333333333333336e-05, 'epoch': 160.0} {'loss': 0.0879, 'learning_rate': 2.3166666666666666e-05, 'epoch': 161.0} {'loss': 0.0883, 'learning_rate': 2.3000000000000003e-05, 'epoch': 162.0} {'loss': 0.0858, 'learning_rate': 2.2833333333333334e-05, 'epoch': 163.0} {'loss': 0.0867, 'learning_rate': 2.2666666666666668e-05, 'epoch': 164.0} {'loss': 0.0877, 'learning_rate': 2.25e-05, 'epoch': 165.0} {'loss': 0.0914, 'learning_rate': 2.2333333333333335e-05, 'epoch': 166.0} {'loss': 0.0876, 'learning_rate': 2.216666666666667e-05, 'epoch': 167.0} {'loss': 0.0907, 'learning_rate': 2.2000000000000003e-05, 'epoch': 168.0} {'loss': 0.0887, 'learning_rate': 2.1833333333333333e-05, 'epoch': 169.0} {'loss': 0.0881, 'learning_rate': 2.1666666666666667e-05, 'epoch': 170.0} {'loss': 0.0905, 'learning_rate': 2.15e-05, 'epoch': 171.0} {'loss': 0.0918, 'learning_rate': 2.1333333333333335e-05, 'epoch': 172.0} {'loss': 0.0873, 'learning_rate': 2.116666666666667e-05, 'epoch': 173.0} {'loss': 0.0997, 'learning_rate': 2.1e-05, 'epoch': 174.0} {'loss': 0.0896, 'learning_rate': 2.0833333333333336e-05, 'epoch': 175.0} {'loss': 0.091, 'learning_rate': 2.0666666666666666e-05, 'epoch': 176.0} {'loss': 0.0901, 'learning_rate': 2.05e-05, 'epoch': 177.0} {'loss': 0.0891, 'learning_rate': 2.0333333333333334e-05, 'epoch': 178.0} {'loss': 0.0886, 'learning_rate': 2.0166666666666668e-05, 'epoch': 179.0} {'loss': 0.0897, 'learning_rate': 2e-05, 'epoch': 180.0} {'loss': 0.0918, 'learning_rate': 1.9833333333333335e-05, 'epoch': 181.0} {'loss': 0.0896, 'learning_rate': 1.9666666666666666e-05, 'epoch': 182.0} {'loss': 0.0939, 'learning_rate': 1.9500000000000003e-05, 'epoch': 183.0} {'loss': 0.0908, 'learning_rate': 1.9333333333333333e-05, 'epoch': 184.0} {'loss': 0.0947, 'learning_rate': 1.9166666666666667e-05, 'epoch': 185.0} {'loss': 0.0879, 'learning_rate': 1.9e-05, 'epoch': 186.0} {'loss': 0.0896, 'learning_rate': 1.8833333333333335e-05, 'epoch': 187.0} {'loss': 0.092, 'learning_rate': 1.866666666666667e-05, 'epoch': 188.0} {'loss': 0.092, 'learning_rate': 1.85e-05, 'epoch': 189.0} {'loss': 0.0905, 'learning_rate': 1.8333333333333333e-05, 'epoch': 190.0} {'loss': 0.0917, 'learning_rate': 1.8166666666666667e-05, 'epoch': 191.0} {'loss': 0.0907, 'learning_rate': 1.8e-05, 'epoch': 192.0} {'loss': 0.0921, 'learning_rate': 1.7833333333333334e-05, 'epoch': 193.0} {'loss': 0.0969, 'learning_rate': 1.7666666666666668e-05, 'epoch': 194.0} {'loss': 0.1018, 'learning_rate': 1.75e-05, 'epoch': 195.0} {'loss': 0.0918, 'learning_rate': 1.7333333333333336e-05, 'epoch': 196.0} {'loss': 0.0975, 'learning_rate': 1.7166666666666666e-05, 'epoch': 197.0} {'loss': 0.1017, 'learning_rate': 1.7000000000000003e-05, 'epoch': 198.0} {'loss': 0.0961, 'learning_rate': 1.6833333333333334e-05, 'epoch': 199.0} {'loss': 0.0962, 'learning_rate': 1.6666666666666667e-05, 'epoch': 200.0} 67%|████████████████████████████████████████████████████████████████ | 2000/3000 [16:06<07:31, 2.22it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7888, 'eval_samples_per_second': 2.661, 'eval_steps_per_second': 0.213, 'epoch': 200.0} 67%|████████████████████████████████████████████████████████████████ | 2000/3000 [16:25<07:31, 2.22it/sSaving model checkpoint to ./output/tmp-checkpoint-2000 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( {'loss': 0.0918, 'learning_rate': 1.65e-05, 'epoch': 201.0} {'loss': 0.0917, 'learning_rate': 1.6333333333333335e-05, 'epoch': 202.0} {'loss': 0.095, 'learning_rate': 1.6166666666666665e-05, 'epoch': 203.0} {'loss': 0.0911, 'learning_rate': 1.6000000000000003e-05, 'epoch': 204.0} {'loss': 0.0951, 'learning_rate': 1.5833333333333333e-05, 'epoch': 205.0} {'loss': 0.0949, 'learning_rate': 1.5666666666666667e-05, 'epoch': 206.0} {'loss': 0.0964, 'learning_rate': 1.55e-05, 'epoch': 207.0} {'loss': 0.0948, 'learning_rate': 1.5333333333333334e-05, 'epoch': 208.0} {'loss': 0.0932, 'learning_rate': 1.5166666666666668e-05, 'epoch': 209.0} {'loss': 0.096, 'learning_rate': 1.5e-05, 'epoch': 210.0} {'loss': 0.0969, 'learning_rate': 1.4833333333333336e-05, 'epoch': 211.0} {'loss': 0.097, 'learning_rate': 1.4666666666666668e-05, 'epoch': 212.0} {'loss': 0.0943, 'learning_rate': 1.45e-05, 'epoch': 213.0} {'loss': 0.093, 'learning_rate': 1.4333333333333334e-05, 'epoch': 214.0} {'loss': 0.1031, 'learning_rate': 1.4166666666666668e-05, 'epoch': 215.0} {'loss': 0.0965, 'learning_rate': 1.4000000000000001e-05, 'epoch': 216.0} {'loss': 0.0938, 'learning_rate': 1.3833333333333334e-05, 'epoch': 217.0} {'loss': 0.0969, 'learning_rate': 1.3666666666666666e-05, 'epoch': 218.0} {'loss': 0.0954, 'learning_rate': 1.3500000000000001e-05, 'epoch': 219.0} {'loss': 0.0946, 'learning_rate': 1.3333333333333333e-05, 'epoch': 220.0} {'loss': 0.0993, 'learning_rate': 1.3166666666666665e-05, 'epoch': 221.0} {'loss': 0.0952, 'learning_rate': 1.3000000000000001e-05, 'epoch': 222.0} {'loss': 0.0968, 'learning_rate': 1.2833333333333333e-05, 'epoch': 223.0} {'loss': 0.0971, 'learning_rate': 1.2666666666666668e-05, 'epoch': 224.0} {'loss': 0.0809, 'learning_rate': 2.5833333333333336e-05, 'epoch': 145.0} {'loss': 0.0827, 'learning_rate': 2.5666666666666666e-05, 'epoch': 146.0} {'loss': 0.0845, 'learning_rate': 2.5500000000000003e-05, 'epoch': 147.0} {'loss': 0.0863, 'learning_rate': 2.5333333333333337e-05, 'epoch': 148.0} {'loss': 0.0855, 'learning_rate': 2.5166666666666667e-05, 'epoch': 149.0} {'loss': 0.084, 'learning_rate': 2.5e-05, 'epoch': 150.0} 50%|████████████████████████████████████████████████ | 1500/3000 [12:00<11:24, 2.19it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7974, 'eval_samples_per_second': 2.66, 'eval_steps_per_second': 0.213, 'epoch': 150.0} 50%|████████████████████████████████████████████████ | 1500/3000 [12:19<11:24, 2.19it/sSaving model checkpoint to ./output/tmp-checkpoint-1500 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( {'loss': 0.085, 'learning_rate': 2.4833333333333335e-05, 'epoch': 151.0} {'loss': 0.0869, 'learning_rate': 2.466666666666667e-05, 'epoch': 152.0} {'loss': 0.088, 'learning_rate': 2.45e-05, 'epoch': 153.0} {'loss': 0.0905, 'learning_rate': 2.4333333333333336e-05, 'epoch': 154.0} {'loss': 0.0864, 'learning_rate': 2.4166666666666667e-05, 'epoch': 155.0} {'loss': 0.0854, 'learning_rate': 2.4e-05, 'epoch': 156.0} {'loss': 0.085, 'learning_rate': 2.3833333333333334e-05, 'epoch': 157.0} {'loss': 0.0861, 'learning_rate': 2.3666666666666668e-05, 'epoch': 158.0} {'loss': 0.0878, 'learning_rate': 2.35e-05, 'epoch': 159.0} {'loss': 0.0867, 'learning_rate': 2.3333333333333336e-05, 'epoch': 160.0} {'loss': 0.0879, 'learning_rate': 2.3166666666666666e-05, 'epoch': 161.0} {'loss': 0.0883, 'learning_rate': 2.3000000000000003e-05, 'epoch': 162.0} {'loss': 0.0858, 'learning_rate': 2.2833333333333334e-05, 'epoch': 163.0} {'loss': 0.0867, 'learning_rate': 2.2666666666666668e-05, 'epoch': 164.0} {'loss': 0.0877, 'learning_rate': 2.25e-05, 'epoch': 165.0} {'loss': 0.0914, 'learning_rate': 2.2333333333333335e-05, 'epoch': 166.0} {'loss': 0.0876, 'learning_rate': 2.216666666666667e-05, 'epoch': 167.0} {'loss': 0.0907, 'learning_rate': 2.2000000000000003e-05, 'epoch': 168.0} {'loss': 0.0887, 'learning_rate': 2.1833333333333333e-05, 'epoch': 169.0} {'loss': 0.0881, 'learning_rate': 2.1666666666666667e-05, 'epoch': 170.0} {'loss': 0.0905, 'learning_rate': 2.15e-05, 'epoch': 171.0} {'loss': 0.0918, 'learning_rate': 2.1333333333333335e-05, 'epoch': 172.0} {'loss': 0.0873, 'learning_rate': 2.116666666666667e-05, 'epoch': 173.0} {'loss': 0.0997, 'learning_rate': 2.1e-05, 'epoch': 174.0} {'loss': 0.0896, 'learning_rate': 2.0833333333333336e-05, 'epoch': 175.0} {'loss': 0.091, 'learning_rate': 2.0666666666666666e-05, 'epoch': 176.0} {'loss': 0.0901, 'learning_rate': 2.05e-05, 'epoch': 177.0} {'loss': 0.0891, 'learning_rate': 2.0333333333333334e-05, 'epoch': 178.0} {'loss': 0.0886, 'learning_rate': 2.0166666666666668e-05, 'epoch': 179.0} {'loss': 0.0897, 'learning_rate': 2e-05, 'epoch': 180.0} {'loss': 0.0918, 'learning_rate': 1.9833333333333335e-05, 'epoch': 181.0} {'loss': 0.0896, 'learning_rate': 1.9666666666666666e-05, 'epoch': 182.0} {'loss': 0.0939, 'learning_rate': 1.9500000000000003e-05, 'epoch': 183.0} {'loss': 0.0908, 'learning_rate': 1.9333333333333333e-05, 'epoch': 184.0} {'loss': 0.0947, 'learning_rate': 1.9166666666666667e-05, 'epoch': 185.0} {'loss': 0.0879, 'learning_rate': 1.9e-05, 'epoch': 186.0} {'loss': 0.0896, 'learning_rate': 1.8833333333333335e-05, 'epoch': 187.0} {'loss': 0.092, 'learning_rate': 1.866666666666667e-05, 'epoch': 188.0} {'loss': 0.092, 'learning_rate': 1.85e-05, 'epoch': 189.0} {'loss': 0.0905, 'learning_rate': 1.8333333333333333e-05, 'epoch': 190.0} {'loss': 0.0917, 'learning_rate': 1.8166666666666667e-05, 'epoch': 191.0} {'loss': 0.0907, 'learning_rate': 1.8e-05, 'epoch': 192.0} {'loss': 0.0921, 'learning_rate': 1.7833333333333334e-05, 'epoch': 193.0} {'loss': 0.0969, 'learning_rate': 1.7666666666666668e-05, 'epoch': 194.0} {'loss': 0.1018, 'learning_rate': 1.75e-05, 'epoch': 195.0} {'loss': 0.0918, 'learning_rate': 1.7333333333333336e-05, 'epoch': 196.0} {'loss': 0.0975, 'learning_rate': 1.7166666666666666e-05, 'epoch': 197.0} {'loss': 0.1017, 'learning_rate': 1.7000000000000003e-05, 'epoch': 198.0} {'loss': 0.0961, 'learning_rate': 1.6833333333333334e-05, 'epoch': 199.0} {'loss': 0.0962, 'learning_rate': 1.6666666666666667e-05, 'epoch': 200.0} 67%|████████████████████████████████████████████████████████████████ | 2000/3000 [16:06<07:31, 2.22it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7888, 'eval_samples_per_second': 2.661, 'eval_steps_per_second': 0.213, 'epoch': 200.0} 67%|████████████████████████████████████████████████████████████████ | 2000/3000 [16:25<07:31, 2.22it/sSaving model checkpoint to ./output/tmp-checkpoint-2000 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( {'loss': 0.0918, 'learning_rate': 1.65e-05, 'epoch': 201.0} {'loss': 0.0917, 'learning_rate': 1.6333333333333335e-05, 'epoch': 202.0} {'loss': 0.095, 'learning_rate': 1.6166666666666665e-05, 'epoch': 203.0} {'loss': 0.0911, 'learning_rate': 1.6000000000000003e-05, 'epoch': 204.0} {'loss': 0.0951, 'learning_rate': 1.5833333333333333e-05, 'epoch': 205.0} {'loss': 0.0949, 'learning_rate': 1.5666666666666667e-05, 'epoch': 206.0} {'loss': 0.0964, 'learning_rate': 1.55e-05, 'epoch': 207.0} {'loss': 0.0948, 'learning_rate': 1.5333333333333334e-05, 'epoch': 208.0} {'loss': 0.0932, 'learning_rate': 1.5166666666666668e-05, 'epoch': 209.0} {'loss': 0.096, 'learning_rate': 1.5e-05, 'epoch': 210.0} {'loss': 0.0969, 'learning_rate': 1.4833333333333336e-05, 'epoch': 211.0} {'loss': 0.097, 'learning_rate': 1.4666666666666668e-05, 'epoch': 212.0} {'loss': 0.0943, 'learning_rate': 1.45e-05, 'epoch': 213.0} {'loss': 0.093, 'learning_rate': 1.4333333333333334e-05, 'epoch': 214.0} {'loss': 0.1031, 'learning_rate': 1.4166666666666668e-05, 'epoch': 215.0} {'loss': 0.0965, 'learning_rate': 1.4000000000000001e-05, 'epoch': 216.0} {'loss': 0.0938, 'learning_rate': 1.3833333333333334e-05, 'epoch': 217.0} {'loss': 0.0969, 'learning_rate': 1.3666666666666666e-05, 'epoch': 218.0} {'loss': 0.0954, 'learning_rate': 1.3500000000000001e-05, 'epoch': 219.0} {'loss': 0.0946, 'learning_rate': 1.3333333333333333e-05, 'epoch': 220.0} {'loss': 0.0993, 'learning_rate': 1.3166666666666665e-05, 'epoch': 221.0} {'loss': 0.0952, 'learning_rate': 1.3000000000000001e-05, 'epoch': 222.0} {'loss': 0.0968, 'learning_rate': 1.2833333333333333e-05, 'epoch': 223.0} {'loss': 0.0971, 'learning_rate': 1.2666666666666668e-05, 'epoch': 224.0} {'loss': 0.0959, 'learning_rate': 1.25e-05, 'epoch': 225.0} {'loss': 0.0949, 'learning_rate': 1.2333333333333334e-05, 'epoch': 226.0} {'loss': 0.0952, 'learning_rate': 1.2166666666666668e-05, 'epoch': 227.0} {'loss': 0.0986, 'learning_rate': 1.2e-05, 'epoch': 228.0} {'loss': 0.0999, 'learning_rate': 1.1833333333333334e-05, 'epoch': 229.0} {'loss': 0.1002, 'learning_rate': 1.1666666666666668e-05, 'epoch': 230.0} {'loss': 0.1217, 'learning_rate': 1.1500000000000002e-05, 'epoch': 231.0} {'loss': 0.097, 'learning_rate': 1.1333333333333334e-05, 'epoch': 232.0} {'loss': 0.0986, 'learning_rate': 1.1166666666666668e-05, 'epoch': 233.0} {'loss': 0.0962, 'learning_rate': 1.1000000000000001e-05, 'epoch': 234.0} {'loss': 0.0967, 'learning_rate': 1.0833333333333334e-05, 'epoch': 235.0} {'loss': 0.0993, 'learning_rate': 1.0666666666666667e-05, 'epoch': 236.0} {'loss': 0.0956, 'learning_rate': 1.05e-05, 'epoch': 237.0} {'loss': 0.1001, 'learning_rate': 1.0333333333333333e-05, 'epoch': 238.0} {'loss': 0.0994, 'learning_rate': 1.0166666666666667e-05, 'epoch': 239.0} {'loss': 0.0961, 'learning_rate': 1e-05, 'epoch': 240.0} {'loss': 0.1, 'learning_rate': 9.833333333333333e-06, 'epoch': 241.0} {'loss': 0.0971, 'learning_rate': 9.666666666666667e-06, 'epoch': 242.0} {'loss': 0.098, 'learning_rate': 9.5e-06, 'epoch': 243.0} {'loss': 0.1005, 'learning_rate': 9.333333333333334e-06, 'epoch': 244.0} {'loss': 0.1004, 'learning_rate': 9.166666666666666e-06, 'epoch': 245.0} {'loss': 0.0998, 'learning_rate': 9e-06, 'epoch': 246.0} {'loss': 0.0968, 'learning_rate': 8.833333333333334e-06, 'epoch': 247.0} {'loss': 0.1, 'learning_rate': 8.666666666666668e-06, 'epoch': 248.0} {'loss': 0.1029, 'learning_rate': 8.500000000000002e-06, 'epoch': 249.0} {'loss': 0.0993, 'learning_rate': 8.333333333333334e-06, 'epoch': 250.0} 83%|████████████████████████████████████████████████████████████████████████████████ | 2500/3000 [20:12<03:44, 2.23it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7992, 'eval_samples_per_second': 2.66, 'eval_steps_per_second': 0.213, 'epoch': 250.0} 83%|████████████████████████████████████████████████████████████████████████████████ | 2500/3000 [20:30<03:44, 2.23it/sSaving model checkpoint to ./output/tmp-checkpoint-2500 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( {'loss': 0.1023, 'learning_rate': 8.166666666666668e-06, 'epoch': 251.0} {'loss': 0.0999, 'learning_rate': 8.000000000000001e-06, 'epoch': 252.0} {'loss': 0.0995, 'learning_rate': 7.833333333333333e-06, 'epoch': 253.0} {'loss': 0.0987, 'learning_rate': 7.666666666666667e-06, 'epoch': 254.0} {'loss': 0.0996, 'learning_rate': 7.5e-06, 'epoch': 255.0} {'loss': 0.1004, 'learning_rate': 7.333333333333334e-06, 'epoch': 256.0} {'loss': 0.1017, 'learning_rate': 7.166666666666667e-06, 'epoch': 257.0} {'loss': 0.1, 'learning_rate': 7.000000000000001e-06, 'epoch': 258.0} {'loss': 0.1012, 'learning_rate': 6.833333333333333e-06, 'epoch': 259.0} {'loss': 0.0985, 'learning_rate': 6.666666666666667e-06, 'epoch': 260.0} {'loss': 0.1016, 'learning_rate': 6.5000000000000004e-06, 'epoch': 261.0} {'loss': 0.1185, 'learning_rate': 6.333333333333334e-06, 'epoch': 262.0} {'loss': 0.1021, 'learning_rate': 6.166666666666667e-06, 'epoch': 263.0} {'loss': 0.101, 'learning_rate': 6e-06, 'epoch': 264.0} {'loss': 0.0997, 'learning_rate': 5.833333333333334e-06, 'epoch': 265.0} {'loss': 0.1004, 'learning_rate': 5.666666666666667e-06, 'epoch': 266.0} {'loss': 0.0996, 'learning_rate': 5.500000000000001e-06, 'epoch': 267.0} {'loss': 0.1019, 'learning_rate': 5.333333333333334e-06, 'epoch': 268.0} {'loss': 0.1006, 'learning_rate': 5.166666666666667e-06, 'epoch': 269.0} {'loss': 0.1004, 'learning_rate': 5e-06, 'epoch': 270.0} {'loss': 0.1009, 'learning_rate': 4.833333333333333e-06, 'epoch': 271.0} {'loss': 0.1055, 'learning_rate': 4.666666666666667e-06, 'epoch': 272.0} {'loss': 0.1009, 'learning_rate': 4.5e-06, 'epoch': 273.0} {'loss': 0.1003, 'learning_rate': 4.333333333333334e-06, 'epoch': 274.0} {'loss': 0.0969, 'learning_rate': 1.7666666666666668e-05, 'epoch': 194.0} {'loss': 0.1018, 'learning_rate': 1.75e-05, 'epoch': 195.0} {'loss': 0.0918, 'learning_rate': 1.7333333333333336e-05, 'epoch': 196.0} {'loss': 0.0975, 'learning_rate': 1.7166666666666666e-05, 'epoch': 197.0} {'loss': 0.1017, 'learning_rate': 1.7000000000000003e-05, 'epoch': 198.0} {'loss': 0.0961, 'learning_rate': 1.6833333333333334e-05, 'epoch': 199.0} {'loss': 0.0962, 'learning_rate': 1.6666666666666667e-05, 'epoch': 200.0} 67%|████████████████████████████████████████████████████████████████ | 2000/3000 [16:06<07:31, 2.22it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7888, 'eval_samples_per_second': 2.661, 'eval_steps_per_second': 0.213, 'epoch': 200.0} 67%|████████████████████████████████████████████████████████████████ | 2000/3000 [16:25<07:31, 2.22it/sSaving model checkpoint to ./output/tmp-checkpoint-2000 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( {'loss': 0.0918, 'learning_rate': 1.65e-05, 'epoch': 201.0} {'loss': 0.0917, 'learning_rate': 1.6333333333333335e-05, 'epoch': 202.0} {'loss': 0.095, 'learning_rate': 1.6166666666666665e-05, 'epoch': 203.0} {'loss': 0.0911, 'learning_rate': 1.6000000000000003e-05, 'epoch': 204.0} {'loss': 0.0951, 'learning_rate': 1.5833333333333333e-05, 'epoch': 205.0} {'loss': 0.0949, 'learning_rate': 1.5666666666666667e-05, 'epoch': 206.0} {'loss': 0.0964, 'learning_rate': 1.55e-05, 'epoch': 207.0} {'loss': 0.0948, 'learning_rate': 1.5333333333333334e-05, 'epoch': 208.0} {'loss': 0.0932, 'learning_rate': 1.5166666666666668e-05, 'epoch': 209.0} {'loss': 0.096, 'learning_rate': 1.5e-05, 'epoch': 210.0} {'loss': 0.0969, 'learning_rate': 1.4833333333333336e-05, 'epoch': 211.0} {'loss': 0.097, 'learning_rate': 1.4666666666666668e-05, 'epoch': 212.0} {'loss': 0.0943, 'learning_rate': 1.45e-05, 'epoch': 213.0} {'loss': 0.093, 'learning_rate': 1.4333333333333334e-05, 'epoch': 214.0} {'loss': 0.1031, 'learning_rate': 1.4166666666666668e-05, 'epoch': 215.0} {'loss': 0.0965, 'learning_rate': 1.4000000000000001e-05, 'epoch': 216.0} {'loss': 0.0938, 'learning_rate': 1.3833333333333334e-05, 'epoch': 217.0} {'loss': 0.0969, 'learning_rate': 1.3666666666666666e-05, 'epoch': 218.0} {'loss': 0.0954, 'learning_rate': 1.3500000000000001e-05, 'epoch': 219.0} {'loss': 0.0946, 'learning_rate': 1.3333333333333333e-05, 'epoch': 220.0} {'loss': 0.0993, 'learning_rate': 1.3166666666666665e-05, 'epoch': 221.0} {'loss': 0.0952, 'learning_rate': 1.3000000000000001e-05, 'epoch': 222.0} {'loss': 0.0968, 'learning_rate': 1.2833333333333333e-05, 'epoch': 223.0} {'loss': 0.0971, 'learning_rate': 1.2666666666666668e-05, 'epoch': 224.0} {'loss': 0.0959, 'learning_rate': 1.25e-05, 'epoch': 225.0} {'loss': 0.0949, 'learning_rate': 1.2333333333333334e-05, 'epoch': 226.0} {'loss': 0.0952, 'learning_rate': 1.2166666666666668e-05, 'epoch': 227.0} {'loss': 0.0986, 'learning_rate': 1.2e-05, 'epoch': 228.0} {'loss': 0.0999, 'learning_rate': 1.1833333333333334e-05, 'epoch': 229.0} {'loss': 0.1002, 'learning_rate': 1.1666666666666668e-05, 'epoch': 230.0} {'loss': 0.1217, 'learning_rate': 1.1500000000000002e-05, 'epoch': 231.0} {'loss': 0.097, 'learning_rate': 1.1333333333333334e-05, 'epoch': 232.0} {'loss': 0.0986, 'learning_rate': 1.1166666666666668e-05, 'epoch': 233.0} {'loss': 0.0962, 'learning_rate': 1.1000000000000001e-05, 'epoch': 234.0} {'loss': 0.0967, 'learning_rate': 1.0833333333333334e-05, 'epoch': 235.0} {'loss': 0.0993, 'learning_rate': 1.0666666666666667e-05, 'epoch': 236.0} {'loss': 0.0956, 'learning_rate': 1.05e-05, 'epoch': 237.0} {'loss': 0.1001, 'learning_rate': 1.0333333333333333e-05, 'epoch': 238.0} {'loss': 0.0994, 'learning_rate': 1.0166666666666667e-05, 'epoch': 239.0} {'loss': 0.0961, 'learning_rate': 1e-05, 'epoch': 240.0} {'loss': 0.1, 'learning_rate': 9.833333333333333e-06, 'epoch': 241.0} {'loss': 0.0971, 'learning_rate': 9.666666666666667e-06, 'epoch': 242.0} {'loss': 0.098, 'learning_rate': 9.5e-06, 'epoch': 243.0} {'loss': 0.1005, 'learning_rate': 9.333333333333334e-06, 'epoch': 244.0} {'loss': 0.1004, 'learning_rate': 9.166666666666666e-06, 'epoch': 245.0} {'loss': 0.0998, 'learning_rate': 9e-06, 'epoch': 246.0} {'loss': 0.0968, 'learning_rate': 8.833333333333334e-06, 'epoch': 247.0} {'loss': 0.1, 'learning_rate': 8.666666666666668e-06, 'epoch': 248.0} {'loss': 0.1029, 'learning_rate': 8.500000000000002e-06, 'epoch': 249.0} {'loss': 0.0993, 'learning_rate': 8.333333333333334e-06, 'epoch': 250.0} 83%|████████████████████████████████████████████████████████████████████████████████ | 2500/3000 [20:12<03:44, 2.23it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7992, 'eval_samples_per_second': 2.66, 'eval_steps_per_second': 0.213, 'epoch': 250.0} 83%|████████████████████████████████████████████████████████████████████████████████ | 2500/3000 [20:30<03:44, 2.23it/sSaving model checkpoint to ./output/tmp-checkpoint-2500 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( {'loss': 0.1023, 'learning_rate': 8.166666666666668e-06, 'epoch': 251.0} {'loss': 0.0999, 'learning_rate': 8.000000000000001e-06, 'epoch': 252.0} {'loss': 0.0995, 'learning_rate': 7.833333333333333e-06, 'epoch': 253.0} {'loss': 0.0987, 'learning_rate': 7.666666666666667e-06, 'epoch': 254.0} {'loss': 0.0996, 'learning_rate': 7.5e-06, 'epoch': 255.0} {'loss': 0.1004, 'learning_rate': 7.333333333333334e-06, 'epoch': 256.0} {'loss': 0.1017, 'learning_rate': 7.166666666666667e-06, 'epoch': 257.0} {'loss': 0.1, 'learning_rate': 7.000000000000001e-06, 'epoch': 258.0} {'loss': 0.1012, 'learning_rate': 6.833333333333333e-06, 'epoch': 259.0} {'loss': 0.0985, 'learning_rate': 6.666666666666667e-06, 'epoch': 260.0} {'loss': 0.1016, 'learning_rate': 6.5000000000000004e-06, 'epoch': 261.0} {'loss': 0.1185, 'learning_rate': 6.333333333333334e-06, 'epoch': 262.0} {'loss': 0.1021, 'learning_rate': 6.166666666666667e-06, 'epoch': 263.0} {'loss': 0.101, 'learning_rate': 6e-06, 'epoch': 264.0} {'loss': 0.0997, 'learning_rate': 5.833333333333334e-06, 'epoch': 265.0} {'loss': 0.1004, 'learning_rate': 5.666666666666667e-06, 'epoch': 266.0} {'loss': 0.0996, 'learning_rate': 5.500000000000001e-06, 'epoch': 267.0} {'loss': 0.1019, 'learning_rate': 5.333333333333334e-06, 'epoch': 268.0} {'loss': 0.1006, 'learning_rate': 5.166666666666667e-06, 'epoch': 269.0} {'loss': 0.1004, 'learning_rate': 5e-06, 'epoch': 270.0} {'loss': 0.1009, 'learning_rate': 4.833333333333333e-06, 'epoch': 271.0} {'loss': 0.1055, 'learning_rate': 4.666666666666667e-06, 'epoch': 272.0} {'loss': 0.1009, 'learning_rate': 4.5e-06, 'epoch': 273.0} {'loss': 0.1003, 'learning_rate': 4.333333333333334e-06, 'epoch': 274.0} {'loss': 0.0998, 'learning_rate': 4.166666666666667e-06, 'epoch': 275.0} {'loss': 0.1023, 'learning_rate': 4.000000000000001e-06, 'epoch': 276.0} {'loss': 0.1015, 'learning_rate': 3.833333333333334e-06, 'epoch': 277.0} {'loss': 0.1004, 'learning_rate': 3.666666666666667e-06, 'epoch': 278.0} {'loss': 0.1024, 'learning_rate': 3.5000000000000004e-06, 'epoch': 279.0} {'loss': 0.0999, 'learning_rate': 3.3333333333333333e-06, 'epoch': 280.0} {'loss': 0.1021, 'learning_rate': 3.166666666666667e-06, 'epoch': 281.0} {'loss': 0.1016, 'learning_rate': 3e-06, 'epoch': 282.0} {'loss': 0.1007, 'learning_rate': 2.8333333333333335e-06, 'epoch': 283.0} {'loss': 0.1015, 'learning_rate': 2.666666666666667e-06, 'epoch': 284.0} {'loss': 0.1011, 'learning_rate': 2.5e-06, 'epoch': 285.0} {'loss': 0.1004, 'learning_rate': 2.3333333333333336e-06, 'epoch': 286.0} {'loss': 0.1005, 'learning_rate': 2.166666666666667e-06, 'epoch': 287.0} {'loss': 0.1006, 'learning_rate': 2.0000000000000003e-06, 'epoch': 288.0} {'loss': 0.1001, 'learning_rate': 1.8333333333333335e-06, 'epoch': 289.0} {'loss': 0.0994, 'learning_rate': 1.6666666666666667e-06, 'epoch': 290.0} {'loss': 0.0997, 'learning_rate': 1.5e-06, 'epoch': 291.0} {'loss': 0.1013, 'learning_rate': 1.3333333333333334e-06, 'epoch': 292.0} {'loss': 0.102, 'learning_rate': 1.1666666666666668e-06, 'epoch': 293.0} {'loss': 0.0992, 'learning_rate': 1.0000000000000002e-06, 'epoch': 294.0} {'loss': 0.1011, 'learning_rate': 8.333333333333333e-07, 'epoch': 295.0} {'loss': 0.0993, 'learning_rate': 6.666666666666667e-07, 'epoch': 296.0} {'loss': 0.105, 'learning_rate': 5.000000000000001e-07, 'epoch': 297.0} {'loss': 0.1007, 'learning_rate': 3.3333333333333335e-07, 'epoch': 298.0} {'loss': 0.1031, 'learning_rate': 1.6666666666666668e-07, 'epoch': 299.0} {'loss': 0.0991, 'learning_rate': 0.0, 'epoch': 300.0} 100%|████████████████████████████████████████████████████████████████████████████████████████████████| 3000/3000 [24:17<00:00, 2.23it/s]***** Running Evaluation ***** Num examples = 50 Batch size = 16 {'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.5791, 'eval_samples_per_second': 2.691, 'eval_steps_per_second': 0.215, 'epoch': 300.0} 100%|████████████████████████████████████████████████████████████████████████████████████████████████| 3000/3000 [24:36<00:00, 2.23it/sSaving model checkpoint to ./output/tmp-checkpoint-3000 /mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified. warnings.warn( Training completed. Do not forget to share your model on huggingface.co/models =) {'train_runtime': 1476.3275, 'train_samples_per_second': 4.064, 'train_steps_per_second': 2.032, 'train_loss': 0.10744846343994141, 'epoch': 300.0} 100%|████████████████████████████████████████████████████████████████████████████████████████████████| 3000/3000 [24:36<00:00, 2.03it/s] ***** Running Prediction ***** Num examples = 130 Batch size = 16 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:37<00:00, 4.16s/it] (chat) root@dsw-372547-675546dd46-gjcqb:/mnt/workspace/ChatGLM3/finetune_demo#
(chat) root@dsw-372547-675546dd46-gjcqb:/mnt/workspace/ChatGLM3/finetune_demo#
(chat) root@dsw-372547-675546dd46-gjcqb:/mnt/workspace/ChatGLM3/finetune_demo# python inference_hf.py output/checkpoint-3000/ --prompt " 董宇辉,男,1993年出生于陕西省渭南市潼关县。2015年毕业于西安外国语大学。2016年加入西安新东方,当选(新东方)当时最年轻的英语教研主管;2019年加入新东方在线,是高三英语名师并成为高三英语学科最年轻的负责人,被称为“中关村周杰伦”。现是东方甄选高级合伙人、新东方教育科技集团董事长文化助理,兼任新东方文旅集团副总裁。"
Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████| 7/7 [00:03<00:00, 1.81it/s]
Setting eos_token is not supported, use the default one.
Setting pad_token is not supported, use the default one.
Setting unk_token is not supported, use the default one.
年轻的在线年轻的东方名师关东方在线东方当时当时英语英语学科高三英语高三教研东方高三年并高级高三文旅新新东方集团东方年年轻的高三高三在线高三被称为东方东方东方年东方年年年年年当选当选被称为年文旅教研东方高三英语东方东方最东方东方东方东方东方是
(chat) root@dsw-372547-675546dd46-gjcqb:/mnt/workspace/ChatGLM3/finetune_demo#
标签:loss,05,模型,微调,epoch,rate,learning,记录,100 From: https://www.cnblogs.com/notonlydba/p/18184728