首页 > 其他分享 >记录一次微调大模型

记录一次微调大模型

时间:2024-05-10 16:37:32浏览次数:26  
标签:loss 05 模型 微调 epoch rate learning 记录 100

(chat) root@dsw-372547-675546dd46-gjcqb:/mnt/workspace/ChatGLM3/finetune_demo# python finetune_hf.py  formatted_data/  /mnt/workspace/ChatGLM3/chatglm3-6b  configs/lora.yaml yes 
Setting eos_token is not supported, use the default one.
Setting pad_token is not supported, use the default one.
Setting unk_token is not supported, use the default one.
Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████| 7/7 [00:03<00:00,  1.89it/s]
trainable params: 1,949,696 || all params: 6,245,533,696 || trainable%: 0.031217444255383614
--> Model

--> model has 1.949696M params

Map (num_proc=4): 100%|███████████████████████████████████████████████████████████████████████████| 20/20 [00:00<00:00, 37.45 examples/s]
train_dataset: Dataset({
    features: ['input_ids', 'labels'],
    num_rows: 20
})
Map (num_proc=4): 100%|████████████████████████████████████████████████████████████████████████| 130/130 [00:00<00:00, 249.88 examples/s]
val_dataset: Dataset({
    features: ['input_ids', 'output_ids'],
    num_rows: 130
})
Map (num_proc=4): 100%|████████████████████████████████████████████████████████████████████████| 130/130 [00:00<00:00, 245.95 examples/s]
test_dataset: Dataset({
    features: ['input_ids', 'output_ids'],
    num_rows: 130
})
--> Sanity check
           '[gMASK]': 64790 -> -100
               'sop': 64792 -> -100
        '<|system|>': 64794 -> -100
                  '': 30910 -> -100
                '\n': 13 -> -100
               'You': 809 -> -100
               'are': 383 -> -100
              'Chat': 22011 -> -100
                'GL': 10461 -> -100
                 'M': 30944 -> -100
                 '3': 30966 -> -100
                 ',': 30932 -> -100
                 'a': 260 -> -100
             'large': 1796 -> -100
          'language': 3239 -> -100
             'model': 2092 -> -100
           'trained': 7594 -> -100
                'by': 422 -> -100
                 'Z': 1192 -> -100
               'hip': 899 -> -100
                 'u': 30923 -> -100
                 '.': 30930 -> -100
                'AI': 23833 -> -100
                 '.': 30930 -> -100
            'Follow': 5741 -> -100
               'the': 267 -> -100
              'user': 2795 -> -100
                 "'": 30953 -> -100
                 's': 30917 -> -100
      'instructions': 8417 -> -100
         'carefully': 7724 -> -100
                 '.': 30930 -> -100
           'Respond': 21911 -> -100
             'using': 1227 -> -100
              'mark': 3478 -> -100
              'down': 3536 -> -100
                 '.': 30930 -> -100
          '<|user|>': 64795 -> -100
                  '': 30910 -> -100
                '\n': 13 -> -100
                  '': 30910 -> -100
                 '董': 55727 -> -100
                 '宇': 55773 -> -100
                 '辉': 56060 -> -100
     '<|assistant|>': 64796 -> -100
                  '': 30910 -> 30910
                '\n': 13 -> 13
                  '': 30910 -> 30910
                 '董': 55727 -> 55727
                 '宇': 55773 -> 55773
                 '辉': 56060 -> 56060
                 ',': 31123 -> 31123
                 '男': 55033 -> 55033
                 ',': 31123 -> 31123
                 '1': 30939 -> 30939
                 '9': 30969 -> 30969
                 '9': 30969 -> 30969
                 '3': 30966 -> 30966
                 '年': 54540 -> 54540
               '出生于': 36982 -> 36982
               '陕西省': 36658 -> 36658
                 '渭': 58024 -> 58024
                '南市': 46184 -> 46184
                 '潼': 58830 -> 58830
                 '关': 54637 -> 54637
                 '县': 54946 -> 54946
                 '。': 31155 -> 31155
                 '2': 30943 -> 30943
                 '0': 30940 -> 30940
                 '1': 30939 -> 30939
                 '5': 30970 -> 30970
              '年毕业于': 45804 -> 45804
                '西安': 33083 -> 33083
               '外国语': 39890 -> 39890
                '大学': 31650 -> 31650
                 '。': 31155 -> 31155
                 '2': 30943 -> 30943
                 '0': 30940 -> 30940
                 '1': 30939 -> 30939
                 '6': 30978 -> 30978
                 '年': 54540 -> 54540
                '加入': 32142 -> 32142
                '西安': 33083 -> 33083
                 '新': 54575 -> 54575
                '东方': 33424 -> 33424
                 ',': 31123 -> 31123
                '当选': 35985 -> 35985
                 '(': 31301 -> 31301
                 '新': 54575 -> 54575
                '东方': 33424 -> 33424
                 ')': 31300 -> 31300
                '当时': 32038 -> 32038
                 '最': 54628 -> 54628
               '年轻的': 39859 -> 39859
                '英语': 32886 -> 32886
                '教研': 35481 -> 35481
                '主管': 33262 -> 33262
                 ';': 54659 -> 54659
                 '2': 30943 -> 30943
                 '0': 30940 -> 30940
                 '1': 30939 -> 30939
                 '9': 30969 -> 30969
                 '年': 54540 -> 54540
                '加入': 32142 -> 32142
                 '新': 54575 -> 54575
                '东方': 33424 -> 33424
                '在线': 33303 -> 33303
                 ',': 31123 -> 31123
                 '是': 54532 -> 54532
                '高三': 39366 -> 39366
                '英语': 32886 -> 32886
                '名师': 39380 -> 39380
                 '并': 54724 -> 54724
                '成为': 31705 -> 31705
                '高三': 39366 -> 39366
                '英语': 32886 -> 32886
                '学科': 32392 -> 32392
                 '最': 54628 -> 54628
               '年轻的': 39859 -> 39859
               '负责人': 32610 -> 32610
                 ',': 31123 -> 31123
               '被称为': 34947 -> 34947
                 '“': 30989 -> 30989
                 '中': 54538 -> 54538
                '关村': 49803 -> 49803
               '周杰伦': 50542 -> 50542
                '”。': 31681 -> 31681
                 '现': 54600 -> 54600
                 '是': 54532 -> 54532
                '东方': 33424 -> 33424
                 '甄': 57494 -> 57494
                 '选': 54878 -> 54878
                '高级': 32970 -> 32970
               '合伙人': 41026 -> 41026
                 '、': 31201 -> 31201
                 '新': 54575 -> 54575
                '东方': 33424 -> 33424
                '教育': 31634 -> 31634
                '科技': 31748 -> 31748
             '集团董事长': 50120 -> 50120
                '文化': 31653 -> 31653
                '助理': 34712 -> 34712
                 ',': 31123 -> 31123
                '兼任': 39687 -> 39687
                 '新': 54575 -> 54575
                '东方': 33424 -> 33424
                '文旅': 36750 -> 36750
                '集团': 31839 -> 31839
               '副总裁': 40082 -> 40082
                 '。': 31155 -> 31155
                  '': 2 -> 2
Detected kernel version 4.19.24, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
max_steps is given, it will override any value given in num_train_epochs
***** Running training *****
  Num examples = 20
  Num Epochs = 300
  Instantaneous batch size per device = 2
  Total train batch size (w. parallel, distributed & accumulation) = 2
  Gradient Accumulation steps = 1
  Total optimization steps = 3,000
  Number of trainable parameters = 1,949,696
{'loss': 3.6582, 'learning_rate': 4.9833333333333336e-05, 'epoch': 1.0}                                                                  
{'loss': 2.8107, 'learning_rate': 4.966666666666667e-05, 'epoch': 2.0}                                                                   
{'loss': 1.8519, 'learning_rate': 4.9500000000000004e-05, 'epoch': 3.0}                                                                  
{'loss': 0.9567, 'learning_rate': 4.933333333333334e-05, 'epoch': 4.0}                                                                   
{'loss': 0.3649, 'learning_rate': 4.9166666666666665e-05, 'epoch': 5.0}                                                                  
{'loss': 0.0711, 'learning_rate': 4.9e-05, 'epoch': 6.0}                                                                                 
{'loss': 0.0125, 'learning_rate': 4.883333333333334e-05, 'epoch': 7.0}                                                                   
{'loss': 0.0061, 'learning_rate': 4.866666666666667e-05, 'epoch': 8.0}                                                                   
{'loss': 0.0053, 'learning_rate': 4.85e-05, 'epoch': 9.0}                                                                                
{'loss': 0.0063, 'learning_rate': 4.8333333333333334e-05, 'epoch': 10.0}                                                                 
{'loss': 0.0068, 'learning_rate': 4.8166666666666674e-05, 'epoch': 11.0}                                                                 
{'loss': 0.0075, 'learning_rate': 4.8e-05, 'epoch': 12.0}                                                                                
{'loss': 0.0076, 'learning_rate': 4.7833333333333335e-05, 'epoch': 13.0}                                                                 
{'loss': 0.0084, 'learning_rate': 4.766666666666667e-05, 'epoch': 14.0}                                                                  
{'loss': 0.0095, 'learning_rate': 4.75e-05, 'epoch': 15.0}                                                                               
{'loss': 0.01, 'learning_rate': 4.7333333333333336e-05, 'epoch': 16.0}                                                                   
{'loss': 0.0111, 'learning_rate': 4.716666666666667e-05, 'epoch': 17.0}                                                                  
{'loss': 0.0123, 'learning_rate': 4.7e-05, 'epoch': 18.0}                                                                                
{'loss': 0.0131, 'learning_rate': 4.683333333333334e-05, 'epoch': 19.0}                                                                  
{'loss': 0.0145, 'learning_rate': 4.666666666666667e-05, 'epoch': 20.0}                                                                  
{'loss': 0.0157, 'learning_rate': 4.6500000000000005e-05, 'epoch': 21.0}                                                                 
{'loss': 0.0169, 'learning_rate': 4.633333333333333e-05, 'epoch': 22.0}                                                                  
{'loss': 0.0183, 'learning_rate': 4.6166666666666666e-05, 'epoch': 23.0}                                                                 
{'loss': 0.0191, 'learning_rate': 4.600000000000001e-05, 'epoch': 24.0}                                                                  
{'loss': 0.0206, 'learning_rate': 4.5833333333333334e-05, 'epoch': 25.0}                                                                 
{'loss': 0.0215, 'learning_rate': 4.566666666666667e-05, 'epoch': 26.0}                                                                  
{'loss': 0.0252, 'learning_rate': 4.55e-05, 'epoch': 27.0}                                                                               
{'loss': 0.0239, 'learning_rate': 4.5333333333333335e-05, 'epoch': 28.0}                                                                 
{'loss': 0.0258, 'learning_rate': 4.516666666666667e-05, 'epoch': 29.0}                                                                  
{'loss': 0.027, 'learning_rate': 4.5e-05, 'epoch': 30.0}                                                                                 
{'loss': 0.0269, 'learning_rate': 4.483333333333333e-05, 'epoch': 31.0}                                                                  
{'loss': 0.0273, 'learning_rate': 4.466666666666667e-05, 'epoch': 32.0}                                                                  
{'loss': 0.0299, 'learning_rate': 4.4500000000000004e-05, 'epoch': 33.0}                                                                 
{'loss': 0.0314, 'learning_rate': 4.433333333333334e-05, 'epoch': 34.0}                                                                  
{'loss': 0.0318, 'learning_rate': 4.4166666666666665e-05, 'epoch': 35.0}                                                                 
{'loss': 0.0342, 'learning_rate': 4.4000000000000006e-05, 'epoch': 36.0}                                                                 
{'loss': 0.0343, 'learning_rate': 4.383333333333334e-05, 'epoch': 37.0}                                                                  
{'loss': 0.0365, 'learning_rate': 4.3666666666666666e-05, 'epoch': 38.0}                                                                 
{'loss': 0.0371, 'learning_rate': 4.35e-05, 'epoch': 39.0}                                                                               
{'loss': 0.0395, 'learning_rate': 4.3333333333333334e-05, 'epoch': 40.0}                                                                 
{'loss': 0.0373, 'learning_rate': 4.316666666666667e-05, 'epoch': 41.0}                                                                  
{'loss': 0.0398, 'learning_rate': 4.3e-05, 'epoch': 42.0}                                                                                
{'loss': 0.0379, 'learning_rate': 4.2833333333333335e-05, 'epoch': 43.0}                                                                 
{'loss': 0.0413, 'learning_rate': 4.266666666666667e-05, 'epoch': 44.0}                                                                  
{'loss': 0.0421, 'learning_rate': 4.25e-05, 'epoch': 45.0}                                                                               
{'loss': 0.0418, 'learning_rate': 4.233333333333334e-05, 'epoch': 46.0}                                                                  
{'loss': 0.0425, 'learning_rate': 4.216666666666667e-05, 'epoch': 47.0}                                                                  
{'loss': 0.0427, 'learning_rate': 4.2e-05, 'epoch': 48.0}                                                                                
{'loss': 0.0454, 'learning_rate': 4.183333333333334e-05, 'epoch': 49.0}                                                                  
{'loss': 0.0456, 'learning_rate': 4.166666666666667e-05, 'epoch': 50.0}                                                                  
 17%|████████████████▏                                                                                | 500/3000 [03:46<18:42,  2.23it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
                                                                                                                                        Building prefix dict from the default dictionary ...████████████████████████████████████████████████████████| 4/4 [00:14<00:00,  4.08s/it]
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.766 seconds.
Prefix dict has been built successfully.
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 21.6859, 'eval_samples_per_second': 2.306, 'eval_steps_per_second': 0.184, 'epoch': 50.0}                                                                               
 17%|████████████████▏                                                                                | 500/3000 [04:08<18:42,  2.23it/sSaving model checkpoint to ./output/tmp-checkpoint-500                                                                                    
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(
{'loss': 0.0479, 'learning_rate': 4.15e-05, 'epoch': 51.0}                                                                               
{'loss': 0.0456, 'learning_rate': 4.133333333333333e-05, 'epoch': 52.0}                                                                  
{'loss': 0.047, 'learning_rate': 4.116666666666667e-05, 'epoch': 53.0}                                                                   
{'loss': 0.0479, 'learning_rate': 4.1e-05, 'epoch': 54.0}                                                                                
{'loss': 0.0483, 'learning_rate': 4.0833333333333334e-05, 'epoch': 55.0}                                                                 
{'loss': 0.0502, 'learning_rate': 4.066666666666667e-05, 'epoch': 56.0}                                                                  
{'loss': 0.0506, 'learning_rate': 4.05e-05, 'epoch': 57.0}                                                                               
{'loss': 0.0522, 'learning_rate': 4.0333333333333336e-05, 'epoch': 58.0}                                                                 
{'loss': 0.0513, 'learning_rate': 4.016666666666667e-05, 'epoch': 59.0}                                                                  
{'loss': 0.0527, 'learning_rate': 4e-05, 'epoch': 60.0}                                                                                  
{'loss': 0.0551, 'learning_rate': 3.983333333333333e-05, 'epoch': 61.0}                                                                  
{'loss': 0.0541, 'learning_rate': 3.966666666666667e-05, 'epoch': 62.0}                                                                  
{'loss': 0.0539, 'learning_rate': 3.9500000000000005e-05, 'epoch': 63.0}                                                                 
{'loss': 0.0551, 'learning_rate': 3.933333333333333e-05, 'epoch': 64.0}                                                                  
{'loss': 0.0582, 'learning_rate': 3.9166666666666665e-05, 'epoch': 65.0}                                                                 
{'loss': 0.0558, 'learning_rate': 3.9000000000000006e-05, 'epoch': 66.0}                                                                 
{'loss': 0.0571, 'learning_rate': 3.883333333333333e-05, 'epoch': 67.0}                                                                  
{'loss': 0.0565, 'learning_rate': 3.866666666666667e-05, 'epoch': 68.0}                                                                  
{'loss': 0.0565, 'learning_rate': 3.85e-05, 'epoch': 69.0}                                                                               
{'loss': 0.0593, 'learning_rate': 3.8333333333333334e-05, 'epoch': 70.0}                                                                 
{'loss': 0.0592, 'learning_rate': 3.816666666666667e-05, 'epoch': 71.0}                                                                  
{'loss': 0.0587, 'learning_rate': 3.8e-05, 'epoch': 72.0}                                                                                
{'loss': 0.0612, 'learning_rate': 3.7833333333333336e-05, 'epoch': 73.0}                                                                 
{'loss': 0.0598, 'learning_rate': 3.766666666666667e-05, 'epoch': 74.0}                                                                  
{'loss': 0.0603, 'learning_rate': 3.7500000000000003e-05, 'epoch': 75.0}                                                                 
{'loss': 0.061, 'learning_rate': 3.733333333333334e-05, 'epoch': 76.0}                                                                   
{'loss': 0.0624, 'learning_rate': 3.7166666666666664e-05, 'epoch': 77.0}                                                                 
{'loss': 0.0626, 'learning_rate': 3.7e-05, 'epoch': 78.0}                                                                                
{'loss': 0.0636, 'learning_rate': 3.683333333333334e-05, 'epoch': 79.0}                                                                  
{'loss': 0.0626, 'learning_rate': 3.6666666666666666e-05, 'epoch': 80.0}                                                                 
{'loss': 0.0666, 'learning_rate': 3.65e-05, 'epoch': 81.0}                                                                               
{'loss': 0.0651, 'learning_rate': 3.633333333333333e-05, 'epoch': 82.0}                                                                  
{'loss': 0.0646, 'learning_rate': 3.6166666666666674e-05, 'epoch': 83.0}                                                                 
{'loss': 0.0662, 'learning_rate': 3.6e-05, 'epoch': 84.0}                                                                                
{'loss': 0.0638, 'learning_rate': 3.5833333333333335e-05, 'epoch': 85.0}                                                                 
{'loss': 0.0665, 'learning_rate': 3.566666666666667e-05, 'epoch': 86.0}                                                                  
{'loss': 0.0674, 'learning_rate': 3.55e-05, 'epoch': 87.0}                                                                               
{'loss': 0.0644, 'learning_rate': 3.5333333333333336e-05, 'epoch': 88.0}                                                                 
{'loss': 0.066, 'learning_rate': 3.516666666666667e-05, 'epoch': 89.0}                                                                   
{'loss': 0.0711, 'learning_rate': 3.5e-05, 'epoch': 90.0}                                                                                
{'loss': 0.0658, 'learning_rate': 3.483333333333334e-05, 'epoch': 91.0}                                                                  
{'loss': 0.069, 'learning_rate': 3.466666666666667e-05, 'epoch': 92.0}                                                                   
{'loss': 0.0702, 'learning_rate': 3.45e-05, 'epoch': 93.0}                                                                               
{'loss': 0.0674, 'learning_rate': 3.433333333333333e-05, 'epoch': 94.0}                                                                  
{'loss': 0.0704, 'learning_rate': 3.4166666666666666e-05, 'epoch': 95.0}                                                                 
{'loss': 0.0675, 'learning_rate': 3.4000000000000007e-05, 'epoch': 96.0}                                                                 
{'loss': 0.0674, 'learning_rate': 3.3833333333333334e-05, 'epoch': 97.0}                                                                 
{'loss': 0.0683, 'learning_rate': 3.366666666666667e-05, 'epoch': 98.0}                                                                  
{'loss': 0.0704, 'learning_rate': 3.35e-05, 'epoch': 99.0}                                                                               
{'loss': 0.07, 'learning_rate': 3.3333333333333335e-05, 'epoch': 100.0}                                                                  
 33%|████████████████████████████████                                                                | 1000/3000 [07:55<15:00,  2.22it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.8463, 'eval_samples_per_second': 2.653, 'eval_steps_per_second': 0.212, 'epoch': 100.0}                                                                              
 33%|████████████████████████████████                                                                | 1000/3000 [08:14<15:00,  2.22it/sSaving model checkpoint to ./output/tmp-checkpoint-1000                                                                                   
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(
{'loss': 0.0699, 'learning_rate': 3.316666666666667e-05, 'epoch': 101.0}                                                                 
{'loss': 0.07, 'learning_rate': 3.3e-05, 'epoch': 102.0}                                                                                 
{'loss': 0.0701, 'learning_rate': 3.283333333333333e-05, 'epoch': 103.0}                                                                 
{'loss': 0.0708, 'learning_rate': 3.266666666666667e-05, 'epoch': 104.0}                                                                 
{'loss': 0.0733, 'learning_rate': 3.2500000000000004e-05, 'epoch': 105.0}                                                                
{'loss': 0.074, 'learning_rate': 3.233333333333333e-05, 'epoch': 106.0}                                                                  
{'loss': 0.0719, 'learning_rate': 3.2166666666666665e-05, 'epoch': 107.0}                                                                
{'loss': 0.0703, 'learning_rate': 3.2000000000000005e-05, 'epoch': 108.0}                                                                
{'loss': 0.0736, 'learning_rate': 3.183333333333334e-05, 'epoch': 109.0}                                                                 
{'loss': 0.0756, 'learning_rate': 3.1666666666666666e-05, 'epoch': 110.0}                                                                
{'loss': 0.0722, 'learning_rate': 3.15e-05, 'epoch': 111.0}                                                                              
{'loss': 0.0742, 'learning_rate': 3.1333333333333334e-05, 'epoch': 112.0}                                                                
{'loss': 0.0754, 'learning_rate': 3.116666666666667e-05, 'epoch': 113.0}                                                                 
{'loss': 0.077, 'learning_rate': 3.1e-05, 'epoch': 114.0}                                                                                
{'loss': 0.0766, 'learning_rate': 3.0833333333333335e-05, 'epoch': 115.0}                                                                
{'loss': 0.0794, 'learning_rate': 3.066666666666667e-05, 'epoch': 116.0}                                                                 
{'loss': 0.0343, 'learning_rate': 4.383333333333334e-05, 'epoch': 37.0}                                                                  
{'loss': 0.0365, 'learning_rate': 4.3666666666666666e-05, 'epoch': 38.0}                                                                 
{'loss': 0.0371, 'learning_rate': 4.35e-05, 'epoch': 39.0}                                                                               
{'loss': 0.0395, 'learning_rate': 4.3333333333333334e-05, 'epoch': 40.0}                                                                 
{'loss': 0.0373, 'learning_rate': 4.316666666666667e-05, 'epoch': 41.0}                                                                  
{'loss': 0.0398, 'learning_rate': 4.3e-05, 'epoch': 42.0}                                                                                
{'loss': 0.0379, 'learning_rate': 4.2833333333333335e-05, 'epoch': 43.0}                                                                 
{'loss': 0.0413, 'learning_rate': 4.266666666666667e-05, 'epoch': 44.0}                                                                  
{'loss': 0.0421, 'learning_rate': 4.25e-05, 'epoch': 45.0}                                                                               
{'loss': 0.0418, 'learning_rate': 4.233333333333334e-05, 'epoch': 46.0}                                                                  
{'loss': 0.0425, 'learning_rate': 4.216666666666667e-05, 'epoch': 47.0}                                                                  
{'loss': 0.0427, 'learning_rate': 4.2e-05, 'epoch': 48.0}                                                                                
{'loss': 0.0454, 'learning_rate': 4.183333333333334e-05, 'epoch': 49.0}                                                                  
{'loss': 0.0456, 'learning_rate': 4.166666666666667e-05, 'epoch': 50.0}                                                                  
 17%|████████████████▏                                                                                | 500/3000 [03:46<18:42,  2.23it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
                                                                                                                                        Building prefix dict from the default dictionary ...████████████████████████████████████████████████████████| 4/4 [00:14<00:00,  4.08s/it]
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.766 seconds.
Prefix dict has been built successfully.
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 21.6859, 'eval_samples_per_second': 2.306, 'eval_steps_per_second': 0.184, 'epoch': 50.0}                                                                               
 17%|████████████████▏                                                                                | 500/3000 [04:08<18:42,  2.23it/sSaving model checkpoint to ./output/tmp-checkpoint-500                                                                                    
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(
{'loss': 0.0479, 'learning_rate': 4.15e-05, 'epoch': 51.0}                                                                               
{'loss': 0.0456, 'learning_rate': 4.133333333333333e-05, 'epoch': 52.0}                                                                  
{'loss': 0.047, 'learning_rate': 4.116666666666667e-05, 'epoch': 53.0}                                                                   
{'loss': 0.0479, 'learning_rate': 4.1e-05, 'epoch': 54.0}                                                                                
{'loss': 0.0483, 'learning_rate': 4.0833333333333334e-05, 'epoch': 55.0}                                                                 
{'loss': 0.0502, 'learning_rate': 4.066666666666667e-05, 'epoch': 56.0}                                                                  
{'loss': 0.0506, 'learning_rate': 4.05e-05, 'epoch': 57.0}                                                                               
{'loss': 0.0522, 'learning_rate': 4.0333333333333336e-05, 'epoch': 58.0}                                                                 
{'loss': 0.0513, 'learning_rate': 4.016666666666667e-05, 'epoch': 59.0}                                                                  
{'loss': 0.0527, 'learning_rate': 4e-05, 'epoch': 60.0}                                                                                  
{'loss': 0.0551, 'learning_rate': 3.983333333333333e-05, 'epoch': 61.0}                                                                  
{'loss': 0.0541, 'learning_rate': 3.966666666666667e-05, 'epoch': 62.0}                                                                  
{'loss': 0.0539, 'learning_rate': 3.9500000000000005e-05, 'epoch': 63.0}                                                                 
{'loss': 0.0551, 'learning_rate': 3.933333333333333e-05, 'epoch': 64.0}                                                                  
{'loss': 0.0582, 'learning_rate': 3.9166666666666665e-05, 'epoch': 65.0}                                                                 
{'loss': 0.0558, 'learning_rate': 3.9000000000000006e-05, 'epoch': 66.0}                                                                 
{'loss': 0.0571, 'learning_rate': 3.883333333333333e-05, 'epoch': 67.0}                                                                  
{'loss': 0.0565, 'learning_rate': 3.866666666666667e-05, 'epoch': 68.0}                                                                  
{'loss': 0.0565, 'learning_rate': 3.85e-05, 'epoch': 69.0}                                                                               
{'loss': 0.0593, 'learning_rate': 3.8333333333333334e-05, 'epoch': 70.0}                                                                 
{'loss': 0.0592, 'learning_rate': 3.816666666666667e-05, 'epoch': 71.0}                                                                  
{'loss': 0.0587, 'learning_rate': 3.8e-05, 'epoch': 72.0}                                                                                
{'loss': 0.0612, 'learning_rate': 3.7833333333333336e-05, 'epoch': 73.0}                                                                 
{'loss': 0.0598, 'learning_rate': 3.766666666666667e-05, 'epoch': 74.0}                                                                  
{'loss': 0.0603, 'learning_rate': 3.7500000000000003e-05, 'epoch': 75.0}                                                                 
{'loss': 0.061, 'learning_rate': 3.733333333333334e-05, 'epoch': 76.0}                                                                   
{'loss': 0.0624, 'learning_rate': 3.7166666666666664e-05, 'epoch': 77.0}                                                                 
{'loss': 0.0626, 'learning_rate': 3.7e-05, 'epoch': 78.0}                                                                                
{'loss': 0.0636, 'learning_rate': 3.683333333333334e-05, 'epoch': 79.0}                                                                  
{'loss': 0.0626, 'learning_rate': 3.6666666666666666e-05, 'epoch': 80.0}                                                                 
{'loss': 0.0666, 'learning_rate': 3.65e-05, 'epoch': 81.0}                                                                               
{'loss': 0.0651, 'learning_rate': 3.633333333333333e-05, 'epoch': 82.0}                                                                  
{'loss': 0.0646, 'learning_rate': 3.6166666666666674e-05, 'epoch': 83.0}                                                                 
{'loss': 0.0662, 'learning_rate': 3.6e-05, 'epoch': 84.0}                                                                                
{'loss': 0.0638, 'learning_rate': 3.5833333333333335e-05, 'epoch': 85.0}                                                                 
{'loss': 0.0665, 'learning_rate': 3.566666666666667e-05, 'epoch': 86.0}                                                                  
{'loss': 0.0674, 'learning_rate': 3.55e-05, 'epoch': 87.0}                                                                               
{'loss': 0.0644, 'learning_rate': 3.5333333333333336e-05, 'epoch': 88.0}                                                                 
{'loss': 0.066, 'learning_rate': 3.516666666666667e-05, 'epoch': 89.0}                                                                   
{'loss': 0.0711, 'learning_rate': 3.5e-05, 'epoch': 90.0}                                                                                
{'loss': 0.0658, 'learning_rate': 3.483333333333334e-05, 'epoch': 91.0}                                                                  
{'loss': 0.069, 'learning_rate': 3.466666666666667e-05, 'epoch': 92.0}                                                                   
{'loss': 0.0702, 'learning_rate': 3.45e-05, 'epoch': 93.0}                                                                               
{'loss': 0.0674, 'learning_rate': 3.433333333333333e-05, 'epoch': 94.0}                                                                  
{'loss': 0.0704, 'learning_rate': 3.4166666666666666e-05, 'epoch': 95.0}                                                                 
{'loss': 0.0675, 'learning_rate': 3.4000000000000007e-05, 'epoch': 96.0}                                                                 
{'loss': 0.0674, 'learning_rate': 3.3833333333333334e-05, 'epoch': 97.0}                                                                 
{'loss': 0.0683, 'learning_rate': 3.366666666666667e-05, 'epoch': 98.0}                                                                  
{'loss': 0.0704, 'learning_rate': 3.35e-05, 'epoch': 99.0}                                                                               
{'loss': 0.07, 'learning_rate': 3.3333333333333335e-05, 'epoch': 100.0}                                                                  
 33%|████████████████████████████████                                                                | 1000/3000 [07:55<15:00,  2.22it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.8463, 'eval_samples_per_second': 2.653, 'eval_steps_per_second': 0.212, 'epoch': 100.0}                                                                              
 33%|████████████████████████████████                                                                | 1000/3000 [08:14<15:00,  2.22it/sSaving model checkpoint to ./output/tmp-checkpoint-1000                                                                                   
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(
{'loss': 0.0699, 'learning_rate': 3.316666666666667e-05, 'epoch': 101.0}                                                                 
{'loss': 0.07, 'learning_rate': 3.3e-05, 'epoch': 102.0}                                                                                 
{'loss': 0.0701, 'learning_rate': 3.283333333333333e-05, 'epoch': 103.0}                                                                 
{'loss': 0.0708, 'learning_rate': 3.266666666666667e-05, 'epoch': 104.0}                                                                 
{'loss': 0.0733, 'learning_rate': 3.2500000000000004e-05, 'epoch': 105.0}                                                                
{'loss': 0.074, 'learning_rate': 3.233333333333333e-05, 'epoch': 106.0}                                                                  
{'loss': 0.0719, 'learning_rate': 3.2166666666666665e-05, 'epoch': 107.0}                                                                
{'loss': 0.0703, 'learning_rate': 3.2000000000000005e-05, 'epoch': 108.0}                                                                
{'loss': 0.0736, 'learning_rate': 3.183333333333334e-05, 'epoch': 109.0}                                                                 
{'loss': 0.0756, 'learning_rate': 3.1666666666666666e-05, 'epoch': 110.0}                                                                
{'loss': 0.0722, 'learning_rate': 3.15e-05, 'epoch': 111.0}                                                                              
{'loss': 0.0742, 'learning_rate': 3.1333333333333334e-05, 'epoch': 112.0}                                                                
{'loss': 0.0754, 'learning_rate': 3.116666666666667e-05, 'epoch': 113.0}                                                                 
{'loss': 0.077, 'learning_rate': 3.1e-05, 'epoch': 114.0}                                                                                
{'loss': 0.0766, 'learning_rate': 3.0833333333333335e-05, 'epoch': 115.0}                                                                
{'loss': 0.0794, 'learning_rate': 3.066666666666667e-05, 'epoch': 116.0}                                                                 
{'loss': 0.0786, 'learning_rate': 3.05e-05, 'epoch': 117.0}                                                                              
{'loss': 0.0784, 'learning_rate': 3.0333333333333337e-05, 'epoch': 118.0}                                                                
{'loss': 0.0791, 'learning_rate': 3.016666666666667e-05, 'epoch': 119.0}                                                                 
{'loss': 0.0758, 'learning_rate': 3e-05, 'epoch': 120.0}                                                                                 
{'loss': 0.0796, 'learning_rate': 2.9833333333333335e-05, 'epoch': 121.0}                                                                
{'loss': 0.0788, 'learning_rate': 2.9666666666666672e-05, 'epoch': 122.0}                                                                
{'loss': 0.0787, 'learning_rate': 2.95e-05, 'epoch': 123.0}                                                                              
{'loss': 0.0809, 'learning_rate': 2.9333333333333336e-05, 'epoch': 124.0}                                                                
{'loss': 0.0826, 'learning_rate': 2.916666666666667e-05, 'epoch': 125.0}                                                                 
{'loss': 0.0822, 'learning_rate': 2.9e-05, 'epoch': 126.0}                                                                               
{'loss': 0.0786, 'learning_rate': 2.8833333333333334e-05, 'epoch': 127.0}                                                                
{'loss': 0.0778, 'learning_rate': 2.8666666666666668e-05, 'epoch': 128.0}                                                                
{'loss': 0.0834, 'learning_rate': 2.8499999999999998e-05, 'epoch': 129.0}                                                                
{'loss': 0.0813, 'learning_rate': 2.8333333333333335e-05, 'epoch': 130.0}                                                                
{'loss': 0.0815, 'learning_rate': 2.816666666666667e-05, 'epoch': 131.0}                                                                 
{'loss': 0.0836, 'learning_rate': 2.8000000000000003e-05, 'epoch': 132.0}                                                                
{'loss': 0.0801, 'learning_rate': 2.7833333333333333e-05, 'epoch': 133.0}                                                                
{'loss': 0.082, 'learning_rate': 2.7666666666666667e-05, 'epoch': 134.0}                                                                 
{'loss': 0.0818, 'learning_rate': 2.7500000000000004e-05, 'epoch': 135.0}                                                                
{'loss': 0.0823, 'learning_rate': 2.733333333333333e-05, 'epoch': 136.0}                                                                 
{'loss': 0.0813, 'learning_rate': 2.716666666666667e-05, 'epoch': 137.0}                                                                 
{'loss': 0.0828, 'learning_rate': 2.7000000000000002e-05, 'epoch': 138.0}                                                                
{'loss': 0.0847, 'learning_rate': 2.6833333333333333e-05, 'epoch': 139.0}                                                                
{'loss': 0.0928, 'learning_rate': 2.6666666666666667e-05, 'epoch': 140.0}                                                                
{'loss': 0.0884, 'learning_rate': 2.6500000000000004e-05, 'epoch': 141.0}                                                                
{'loss': 0.0808, 'learning_rate': 2.633333333333333e-05, 'epoch': 142.0}                                                                 
{'loss': 0.0815, 'learning_rate': 2.6166666666666668e-05, 'epoch': 143.0}                                                                
{'loss': 0.081, 'learning_rate': 2.6000000000000002e-05, 'epoch': 144.0}                                                                 
{'loss': 0.0809, 'learning_rate': 2.5833333333333336e-05, 'epoch': 145.0}                                                                
{'loss': 0.0827, 'learning_rate': 2.5666666666666666e-05, 'epoch': 146.0}                                                                
{'loss': 0.0845, 'learning_rate': 2.5500000000000003e-05, 'epoch': 147.0}                                                                
{'loss': 0.0863, 'learning_rate': 2.5333333333333337e-05, 'epoch': 148.0}                                                                
{'loss': 0.0855, 'learning_rate': 2.5166666666666667e-05, 'epoch': 149.0}                                                                
{'loss': 0.084, 'learning_rate': 2.5e-05, 'epoch': 150.0}                                                                                
 50%|████████████████████████████████████████████████                                                | 1500/3000 [12:00<11:24,  2.19it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7974, 'eval_samples_per_second': 2.66, 'eval_steps_per_second': 0.213, 'epoch': 150.0}                                                                               
 50%|████████████████████████████████████████████████                                                | 1500/3000 [12:19<11:24,  2.19it/sSaving model checkpoint to ./output/tmp-checkpoint-1500                                                                                   
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(
{'loss': 0.085, 'learning_rate': 2.4833333333333335e-05, 'epoch': 151.0}                                                                 
{'loss': 0.0869, 'learning_rate': 2.466666666666667e-05, 'epoch': 152.0}                                                                 
{'loss': 0.088, 'learning_rate': 2.45e-05, 'epoch': 153.0}                                                                               
{'loss': 0.0905, 'learning_rate': 2.4333333333333336e-05, 'epoch': 154.0}                                                                
{'loss': 0.0864, 'learning_rate': 2.4166666666666667e-05, 'epoch': 155.0}                                                                
{'loss': 0.0854, 'learning_rate': 2.4e-05, 'epoch': 156.0}                                                                               
{'loss': 0.085, 'learning_rate': 2.3833333333333334e-05, 'epoch': 157.0}                                                                 
{'loss': 0.0861, 'learning_rate': 2.3666666666666668e-05, 'epoch': 158.0}                                                                
{'loss': 0.0878, 'learning_rate': 2.35e-05, 'epoch': 159.0}                                                                              
{'loss': 0.0867, 'learning_rate': 2.3333333333333336e-05, 'epoch': 160.0}                                                                
{'loss': 0.0879, 'learning_rate': 2.3166666666666666e-05, 'epoch': 161.0}                                                                
{'loss': 0.0883, 'learning_rate': 2.3000000000000003e-05, 'epoch': 162.0}                                                                
{'loss': 0.0858, 'learning_rate': 2.2833333333333334e-05, 'epoch': 163.0}                                                                
{'loss': 0.0867, 'learning_rate': 2.2666666666666668e-05, 'epoch': 164.0}                                                                
{'loss': 0.0877, 'learning_rate': 2.25e-05, 'epoch': 165.0}                                                                              
{'loss': 0.0914, 'learning_rate': 2.2333333333333335e-05, 'epoch': 166.0}                                                                
{'loss': 0.0876, 'learning_rate': 2.216666666666667e-05, 'epoch': 167.0}                                                                 
{'loss': 0.0907, 'learning_rate': 2.2000000000000003e-05, 'epoch': 168.0}                                                                
{'loss': 0.0887, 'learning_rate': 2.1833333333333333e-05, 'epoch': 169.0}                                                                
{'loss': 0.0881, 'learning_rate': 2.1666666666666667e-05, 'epoch': 170.0}                                                                
{'loss': 0.0905, 'learning_rate': 2.15e-05, 'epoch': 171.0}                                                                              
{'loss': 0.069, 'learning_rate': 3.466666666666667e-05, 'epoch': 92.0}                                                                   
{'loss': 0.0702, 'learning_rate': 3.45e-05, 'epoch': 93.0}                                                                               
{'loss': 0.0674, 'learning_rate': 3.433333333333333e-05, 'epoch': 94.0}                                                                  
{'loss': 0.0704, 'learning_rate': 3.4166666666666666e-05, 'epoch': 95.0}                                                                 
{'loss': 0.0675, 'learning_rate': 3.4000000000000007e-05, 'epoch': 96.0}                                                                 
{'loss': 0.0674, 'learning_rate': 3.3833333333333334e-05, 'epoch': 97.0}                                                                 
{'loss': 0.0683, 'learning_rate': 3.366666666666667e-05, 'epoch': 98.0}                                                                  
{'loss': 0.0704, 'learning_rate': 3.35e-05, 'epoch': 99.0}                                                                               
{'loss': 0.07, 'learning_rate': 3.3333333333333335e-05, 'epoch': 100.0}                                                                  
 33%|████████████████████████████████                                                                | 1000/3000 [07:55<15:00,  2.22it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.8463, 'eval_samples_per_second': 2.653, 'eval_steps_per_second': 0.212, 'epoch': 100.0}                                                                              
 33%|████████████████████████████████                                                                | 1000/3000 [08:14<15:00,  2.22it/sSaving model checkpoint to ./output/tmp-checkpoint-1000                                                                                   
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(
{'loss': 0.0699, 'learning_rate': 3.316666666666667e-05, 'epoch': 101.0}                                                                 
{'loss': 0.07, 'learning_rate': 3.3e-05, 'epoch': 102.0}                                                                                 
{'loss': 0.0701, 'learning_rate': 3.283333333333333e-05, 'epoch': 103.0}                                                                 
{'loss': 0.0708, 'learning_rate': 3.266666666666667e-05, 'epoch': 104.0}                                                                 
{'loss': 0.0733, 'learning_rate': 3.2500000000000004e-05, 'epoch': 105.0}                                                                
{'loss': 0.074, 'learning_rate': 3.233333333333333e-05, 'epoch': 106.0}                                                                  
{'loss': 0.0719, 'learning_rate': 3.2166666666666665e-05, 'epoch': 107.0}                                                                
{'loss': 0.0703, 'learning_rate': 3.2000000000000005e-05, 'epoch': 108.0}                                                                
{'loss': 0.0736, 'learning_rate': 3.183333333333334e-05, 'epoch': 109.0}                                                                 
{'loss': 0.0756, 'learning_rate': 3.1666666666666666e-05, 'epoch': 110.0}                                                                
{'loss': 0.0722, 'learning_rate': 3.15e-05, 'epoch': 111.0}                                                                              
{'loss': 0.0742, 'learning_rate': 3.1333333333333334e-05, 'epoch': 112.0}                                                                
{'loss': 0.0754, 'learning_rate': 3.116666666666667e-05, 'epoch': 113.0}                                                                 
{'loss': 0.077, 'learning_rate': 3.1e-05, 'epoch': 114.0}                                                                                
{'loss': 0.0766, 'learning_rate': 3.0833333333333335e-05, 'epoch': 115.0}                                                                
{'loss': 0.0794, 'learning_rate': 3.066666666666667e-05, 'epoch': 116.0}                                                                 
{'loss': 0.0786, 'learning_rate': 3.05e-05, 'epoch': 117.0}                                                                              
{'loss': 0.0784, 'learning_rate': 3.0333333333333337e-05, 'epoch': 118.0}                                                                
{'loss': 0.0791, 'learning_rate': 3.016666666666667e-05, 'epoch': 119.0}                                                                 
{'loss': 0.0758, 'learning_rate': 3e-05, 'epoch': 120.0}                                                                                 
{'loss': 0.0796, 'learning_rate': 2.9833333333333335e-05, 'epoch': 121.0}                                                                
{'loss': 0.0788, 'learning_rate': 2.9666666666666672e-05, 'epoch': 122.0}                                                                
{'loss': 0.0787, 'learning_rate': 2.95e-05, 'epoch': 123.0}                                                                              
{'loss': 0.0809, 'learning_rate': 2.9333333333333336e-05, 'epoch': 124.0}                                                                
{'loss': 0.0826, 'learning_rate': 2.916666666666667e-05, 'epoch': 125.0}                                                                 
{'loss': 0.0822, 'learning_rate': 2.9e-05, 'epoch': 126.0}                                                                               
{'loss': 0.0786, 'learning_rate': 2.8833333333333334e-05, 'epoch': 127.0}                                                                
{'loss': 0.0778, 'learning_rate': 2.8666666666666668e-05, 'epoch': 128.0}                                                                
{'loss': 0.0834, 'learning_rate': 2.8499999999999998e-05, 'epoch': 129.0}                                                                
{'loss': 0.0813, 'learning_rate': 2.8333333333333335e-05, 'epoch': 130.0}                                                                
{'loss': 0.0815, 'learning_rate': 2.816666666666667e-05, 'epoch': 131.0}                                                                 
{'loss': 0.0836, 'learning_rate': 2.8000000000000003e-05, 'epoch': 132.0}                                                                
{'loss': 0.0801, 'learning_rate': 2.7833333333333333e-05, 'epoch': 133.0}                                                                
{'loss': 0.082, 'learning_rate': 2.7666666666666667e-05, 'epoch': 134.0}                                                                 
{'loss': 0.0818, 'learning_rate': 2.7500000000000004e-05, 'epoch': 135.0}                                                                
{'loss': 0.0823, 'learning_rate': 2.733333333333333e-05, 'epoch': 136.0}                                                                 
{'loss': 0.0813, 'learning_rate': 2.716666666666667e-05, 'epoch': 137.0}                                                                 
{'loss': 0.0828, 'learning_rate': 2.7000000000000002e-05, 'epoch': 138.0}                                                                
{'loss': 0.0847, 'learning_rate': 2.6833333333333333e-05, 'epoch': 139.0}                                                                
{'loss': 0.0928, 'learning_rate': 2.6666666666666667e-05, 'epoch': 140.0}                                                                
{'loss': 0.0884, 'learning_rate': 2.6500000000000004e-05, 'epoch': 141.0}                                                                
{'loss': 0.0808, 'learning_rate': 2.633333333333333e-05, 'epoch': 142.0}                                                                 
{'loss': 0.0815, 'learning_rate': 2.6166666666666668e-05, 'epoch': 143.0}                                                                
{'loss': 0.081, 'learning_rate': 2.6000000000000002e-05, 'epoch': 144.0}                                                                 
{'loss': 0.0809, 'learning_rate': 2.5833333333333336e-05, 'epoch': 145.0}                                                                
{'loss': 0.0827, 'learning_rate': 2.5666666666666666e-05, 'epoch': 146.0}                                                                
{'loss': 0.0845, 'learning_rate': 2.5500000000000003e-05, 'epoch': 147.0}                                                                
{'loss': 0.0863, 'learning_rate': 2.5333333333333337e-05, 'epoch': 148.0}                                                                
{'loss': 0.0855, 'learning_rate': 2.5166666666666667e-05, 'epoch': 149.0}                                                                
{'loss': 0.084, 'learning_rate': 2.5e-05, 'epoch': 150.0}                                                                                
 50%|████████████████████████████████████████████████                                                | 1500/3000 [12:00<11:24,  2.19it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7974, 'eval_samples_per_second': 2.66, 'eval_steps_per_second': 0.213, 'epoch': 150.0}                                                                               
 50%|████████████████████████████████████████████████                                                | 1500/3000 [12:19<11:24,  2.19it/sSaving model checkpoint to ./output/tmp-checkpoint-1500                                                                                   
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(
{'loss': 0.085, 'learning_rate': 2.4833333333333335e-05, 'epoch': 151.0}                                                                 
{'loss': 0.0869, 'learning_rate': 2.466666666666667e-05, 'epoch': 152.0}                                                                 
{'loss': 0.088, 'learning_rate': 2.45e-05, 'epoch': 153.0}                                                                               
{'loss': 0.0905, 'learning_rate': 2.4333333333333336e-05, 'epoch': 154.0}                                                                
{'loss': 0.0864, 'learning_rate': 2.4166666666666667e-05, 'epoch': 155.0}                                                                
{'loss': 0.0854, 'learning_rate': 2.4e-05, 'epoch': 156.0}                                                                               
{'loss': 0.085, 'learning_rate': 2.3833333333333334e-05, 'epoch': 157.0}                                                                 
{'loss': 0.0861, 'learning_rate': 2.3666666666666668e-05, 'epoch': 158.0}                                                                
{'loss': 0.0878, 'learning_rate': 2.35e-05, 'epoch': 159.0}                                                                              
{'loss': 0.0867, 'learning_rate': 2.3333333333333336e-05, 'epoch': 160.0}                                                                
{'loss': 0.0879, 'learning_rate': 2.3166666666666666e-05, 'epoch': 161.0}                                                                
{'loss': 0.0883, 'learning_rate': 2.3000000000000003e-05, 'epoch': 162.0}                                                                
{'loss': 0.0858, 'learning_rate': 2.2833333333333334e-05, 'epoch': 163.0}                                                                
{'loss': 0.0867, 'learning_rate': 2.2666666666666668e-05, 'epoch': 164.0}                                                                
{'loss': 0.0877, 'learning_rate': 2.25e-05, 'epoch': 165.0}                                                                              
{'loss': 0.0914, 'learning_rate': 2.2333333333333335e-05, 'epoch': 166.0}                                                                
{'loss': 0.0876, 'learning_rate': 2.216666666666667e-05, 'epoch': 167.0}                                                                 
{'loss': 0.0907, 'learning_rate': 2.2000000000000003e-05, 'epoch': 168.0}                                                                
{'loss': 0.0887, 'learning_rate': 2.1833333333333333e-05, 'epoch': 169.0}                                                                
{'loss': 0.0881, 'learning_rate': 2.1666666666666667e-05, 'epoch': 170.0}                                                                
{'loss': 0.0905, 'learning_rate': 2.15e-05, 'epoch': 171.0}                                                                              
{'loss': 0.0918, 'learning_rate': 2.1333333333333335e-05, 'epoch': 172.0}                                                                
{'loss': 0.0873, 'learning_rate': 2.116666666666667e-05, 'epoch': 173.0}                                                                 
{'loss': 0.0997, 'learning_rate': 2.1e-05, 'epoch': 174.0}                                                                               
{'loss': 0.0896, 'learning_rate': 2.0833333333333336e-05, 'epoch': 175.0}                                                                
{'loss': 0.091, 'learning_rate': 2.0666666666666666e-05, 'epoch': 176.0}                                                                 
{'loss': 0.0901, 'learning_rate': 2.05e-05, 'epoch': 177.0}                                                                              
{'loss': 0.0891, 'learning_rate': 2.0333333333333334e-05, 'epoch': 178.0}                                                                
{'loss': 0.0886, 'learning_rate': 2.0166666666666668e-05, 'epoch': 179.0}                                                                
{'loss': 0.0897, 'learning_rate': 2e-05, 'epoch': 180.0}                                                                                 
{'loss': 0.0918, 'learning_rate': 1.9833333333333335e-05, 'epoch': 181.0}                                                                
{'loss': 0.0896, 'learning_rate': 1.9666666666666666e-05, 'epoch': 182.0}                                                                
{'loss': 0.0939, 'learning_rate': 1.9500000000000003e-05, 'epoch': 183.0}                                                                
{'loss': 0.0908, 'learning_rate': 1.9333333333333333e-05, 'epoch': 184.0}                                                                
{'loss': 0.0947, 'learning_rate': 1.9166666666666667e-05, 'epoch': 185.0}                                                                
{'loss': 0.0879, 'learning_rate': 1.9e-05, 'epoch': 186.0}                                                                               
{'loss': 0.0896, 'learning_rate': 1.8833333333333335e-05, 'epoch': 187.0}                                                                
{'loss': 0.092, 'learning_rate': 1.866666666666667e-05, 'epoch': 188.0}                                                                  
{'loss': 0.092, 'learning_rate': 1.85e-05, 'epoch': 189.0}                                                                               
{'loss': 0.0905, 'learning_rate': 1.8333333333333333e-05, 'epoch': 190.0}                                                                
{'loss': 0.0917, 'learning_rate': 1.8166666666666667e-05, 'epoch': 191.0}                                                                
{'loss': 0.0907, 'learning_rate': 1.8e-05, 'epoch': 192.0}                                                                               
{'loss': 0.0921, 'learning_rate': 1.7833333333333334e-05, 'epoch': 193.0}                                                                
{'loss': 0.0969, 'learning_rate': 1.7666666666666668e-05, 'epoch': 194.0}                                                                
{'loss': 0.1018, 'learning_rate': 1.75e-05, 'epoch': 195.0}                                                                              
{'loss': 0.0918, 'learning_rate': 1.7333333333333336e-05, 'epoch': 196.0}                                                                
{'loss': 0.0975, 'learning_rate': 1.7166666666666666e-05, 'epoch': 197.0}                                                                
{'loss': 0.1017, 'learning_rate': 1.7000000000000003e-05, 'epoch': 198.0}                                                                
{'loss': 0.0961, 'learning_rate': 1.6833333333333334e-05, 'epoch': 199.0}                                                                
{'loss': 0.0962, 'learning_rate': 1.6666666666666667e-05, 'epoch': 200.0}                                                                
 67%|████████████████████████████████████████████████████████████████                                | 2000/3000 [16:06<07:31,  2.22it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7888, 'eval_samples_per_second': 2.661, 'eval_steps_per_second': 0.213, 'epoch': 200.0}                                                                              
 67%|████████████████████████████████████████████████████████████████                                | 2000/3000 [16:25<07:31,  2.22it/sSaving model checkpoint to ./output/tmp-checkpoint-2000                                                                                   
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(
{'loss': 0.0918, 'learning_rate': 1.65e-05, 'epoch': 201.0}                                                                              
{'loss': 0.0917, 'learning_rate': 1.6333333333333335e-05, 'epoch': 202.0}                                                                
{'loss': 0.095, 'learning_rate': 1.6166666666666665e-05, 'epoch': 203.0}                                                                 
{'loss': 0.0911, 'learning_rate': 1.6000000000000003e-05, 'epoch': 204.0}                                                                
{'loss': 0.0951, 'learning_rate': 1.5833333333333333e-05, 'epoch': 205.0}                                                                
{'loss': 0.0949, 'learning_rate': 1.5666666666666667e-05, 'epoch': 206.0}                                                                
{'loss': 0.0964, 'learning_rate': 1.55e-05, 'epoch': 207.0}                                                                              
{'loss': 0.0948, 'learning_rate': 1.5333333333333334e-05, 'epoch': 208.0}                                                                
{'loss': 0.0932, 'learning_rate': 1.5166666666666668e-05, 'epoch': 209.0}                                                                
{'loss': 0.096, 'learning_rate': 1.5e-05, 'epoch': 210.0}                                                                                
{'loss': 0.0969, 'learning_rate': 1.4833333333333336e-05, 'epoch': 211.0}                                                                
{'loss': 0.097, 'learning_rate': 1.4666666666666668e-05, 'epoch': 212.0}                                                                 
{'loss': 0.0943, 'learning_rate': 1.45e-05, 'epoch': 213.0}                                                                              
{'loss': 0.093, 'learning_rate': 1.4333333333333334e-05, 'epoch': 214.0}                                                                 
{'loss': 0.1031, 'learning_rate': 1.4166666666666668e-05, 'epoch': 215.0}                                                                
{'loss': 0.0965, 'learning_rate': 1.4000000000000001e-05, 'epoch': 216.0}                                                                
{'loss': 0.0938, 'learning_rate': 1.3833333333333334e-05, 'epoch': 217.0}                                                                
{'loss': 0.0969, 'learning_rate': 1.3666666666666666e-05, 'epoch': 218.0}                                                                
{'loss': 0.0954, 'learning_rate': 1.3500000000000001e-05, 'epoch': 219.0}                                                                
{'loss': 0.0946, 'learning_rate': 1.3333333333333333e-05, 'epoch': 220.0}                                                                
{'loss': 0.0993, 'learning_rate': 1.3166666666666665e-05, 'epoch': 221.0}                                                                
{'loss': 0.0952, 'learning_rate': 1.3000000000000001e-05, 'epoch': 222.0}                                                                
{'loss': 0.0968, 'learning_rate': 1.2833333333333333e-05, 'epoch': 223.0}                                                                
{'loss': 0.0971, 'learning_rate': 1.2666666666666668e-05, 'epoch': 224.0}                                                                
{'loss': 0.0809, 'learning_rate': 2.5833333333333336e-05, 'epoch': 145.0}                                                                
{'loss': 0.0827, 'learning_rate': 2.5666666666666666e-05, 'epoch': 146.0}                                                                
{'loss': 0.0845, 'learning_rate': 2.5500000000000003e-05, 'epoch': 147.0}                                                                
{'loss': 0.0863, 'learning_rate': 2.5333333333333337e-05, 'epoch': 148.0}                                                                
{'loss': 0.0855, 'learning_rate': 2.5166666666666667e-05, 'epoch': 149.0}                                                                
{'loss': 0.084, 'learning_rate': 2.5e-05, 'epoch': 150.0}                                                                                
 50%|████████████████████████████████████████████████                                                | 1500/3000 [12:00<11:24,  2.19it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7974, 'eval_samples_per_second': 2.66, 'eval_steps_per_second': 0.213, 'epoch': 150.0}                                                                               
 50%|████████████████████████████████████████████████                                                | 1500/3000 [12:19<11:24,  2.19it/sSaving model checkpoint to ./output/tmp-checkpoint-1500                                                                                   
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(
{'loss': 0.085, 'learning_rate': 2.4833333333333335e-05, 'epoch': 151.0}                                                                 
{'loss': 0.0869, 'learning_rate': 2.466666666666667e-05, 'epoch': 152.0}                                                                 
{'loss': 0.088, 'learning_rate': 2.45e-05, 'epoch': 153.0}                                                                               
{'loss': 0.0905, 'learning_rate': 2.4333333333333336e-05, 'epoch': 154.0}                                                                
{'loss': 0.0864, 'learning_rate': 2.4166666666666667e-05, 'epoch': 155.0}                                                                
{'loss': 0.0854, 'learning_rate': 2.4e-05, 'epoch': 156.0}                                                                               
{'loss': 0.085, 'learning_rate': 2.3833333333333334e-05, 'epoch': 157.0}                                                                 
{'loss': 0.0861, 'learning_rate': 2.3666666666666668e-05, 'epoch': 158.0}                                                                
{'loss': 0.0878, 'learning_rate': 2.35e-05, 'epoch': 159.0}                                                                              
{'loss': 0.0867, 'learning_rate': 2.3333333333333336e-05, 'epoch': 160.0}                                                                
{'loss': 0.0879, 'learning_rate': 2.3166666666666666e-05, 'epoch': 161.0}                                                                
{'loss': 0.0883, 'learning_rate': 2.3000000000000003e-05, 'epoch': 162.0}                                                                
{'loss': 0.0858, 'learning_rate': 2.2833333333333334e-05, 'epoch': 163.0}                                                                
{'loss': 0.0867, 'learning_rate': 2.2666666666666668e-05, 'epoch': 164.0}                                                                
{'loss': 0.0877, 'learning_rate': 2.25e-05, 'epoch': 165.0}                                                                              
{'loss': 0.0914, 'learning_rate': 2.2333333333333335e-05, 'epoch': 166.0}                                                                
{'loss': 0.0876, 'learning_rate': 2.216666666666667e-05, 'epoch': 167.0}                                                                 
{'loss': 0.0907, 'learning_rate': 2.2000000000000003e-05, 'epoch': 168.0}                                                                
{'loss': 0.0887, 'learning_rate': 2.1833333333333333e-05, 'epoch': 169.0}                                                                
{'loss': 0.0881, 'learning_rate': 2.1666666666666667e-05, 'epoch': 170.0}                                                                
{'loss': 0.0905, 'learning_rate': 2.15e-05, 'epoch': 171.0}                                                                              
{'loss': 0.0918, 'learning_rate': 2.1333333333333335e-05, 'epoch': 172.0}                                                                
{'loss': 0.0873, 'learning_rate': 2.116666666666667e-05, 'epoch': 173.0}                                                                 
{'loss': 0.0997, 'learning_rate': 2.1e-05, 'epoch': 174.0}                                                                               
{'loss': 0.0896, 'learning_rate': 2.0833333333333336e-05, 'epoch': 175.0}                                                                
{'loss': 0.091, 'learning_rate': 2.0666666666666666e-05, 'epoch': 176.0}                                                                 
{'loss': 0.0901, 'learning_rate': 2.05e-05, 'epoch': 177.0}                                                                              
{'loss': 0.0891, 'learning_rate': 2.0333333333333334e-05, 'epoch': 178.0}                                                                
{'loss': 0.0886, 'learning_rate': 2.0166666666666668e-05, 'epoch': 179.0}                                                                
{'loss': 0.0897, 'learning_rate': 2e-05, 'epoch': 180.0}                                                                                 
{'loss': 0.0918, 'learning_rate': 1.9833333333333335e-05, 'epoch': 181.0}                                                                
{'loss': 0.0896, 'learning_rate': 1.9666666666666666e-05, 'epoch': 182.0}                                                                
{'loss': 0.0939, 'learning_rate': 1.9500000000000003e-05, 'epoch': 183.0}                                                                
{'loss': 0.0908, 'learning_rate': 1.9333333333333333e-05, 'epoch': 184.0}                                                                
{'loss': 0.0947, 'learning_rate': 1.9166666666666667e-05, 'epoch': 185.0}                                                                
{'loss': 0.0879, 'learning_rate': 1.9e-05, 'epoch': 186.0}                                                                               
{'loss': 0.0896, 'learning_rate': 1.8833333333333335e-05, 'epoch': 187.0}                                                                
{'loss': 0.092, 'learning_rate': 1.866666666666667e-05, 'epoch': 188.0}                                                                  
{'loss': 0.092, 'learning_rate': 1.85e-05, 'epoch': 189.0}                                                                               
{'loss': 0.0905, 'learning_rate': 1.8333333333333333e-05, 'epoch': 190.0}                                                                
{'loss': 0.0917, 'learning_rate': 1.8166666666666667e-05, 'epoch': 191.0}                                                                
{'loss': 0.0907, 'learning_rate': 1.8e-05, 'epoch': 192.0}                                                                               
{'loss': 0.0921, 'learning_rate': 1.7833333333333334e-05, 'epoch': 193.0}                                                                
{'loss': 0.0969, 'learning_rate': 1.7666666666666668e-05, 'epoch': 194.0}                                                                
{'loss': 0.1018, 'learning_rate': 1.75e-05, 'epoch': 195.0}                                                                              
{'loss': 0.0918, 'learning_rate': 1.7333333333333336e-05, 'epoch': 196.0}                                                                
{'loss': 0.0975, 'learning_rate': 1.7166666666666666e-05, 'epoch': 197.0}                                                                
{'loss': 0.1017, 'learning_rate': 1.7000000000000003e-05, 'epoch': 198.0}                                                                
{'loss': 0.0961, 'learning_rate': 1.6833333333333334e-05, 'epoch': 199.0}                                                                
{'loss': 0.0962, 'learning_rate': 1.6666666666666667e-05, 'epoch': 200.0}                                                                
 67%|████████████████████████████████████████████████████████████████                                | 2000/3000 [16:06<07:31,  2.22it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7888, 'eval_samples_per_second': 2.661, 'eval_steps_per_second': 0.213, 'epoch': 200.0}                                                                              
 67%|████████████████████████████████████████████████████████████████                                | 2000/3000 [16:25<07:31,  2.22it/sSaving model checkpoint to ./output/tmp-checkpoint-2000                                                                                   
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(
{'loss': 0.0918, 'learning_rate': 1.65e-05, 'epoch': 201.0}                                                                              
{'loss': 0.0917, 'learning_rate': 1.6333333333333335e-05, 'epoch': 202.0}                                                                
{'loss': 0.095, 'learning_rate': 1.6166666666666665e-05, 'epoch': 203.0}                                                                 
{'loss': 0.0911, 'learning_rate': 1.6000000000000003e-05, 'epoch': 204.0}                                                                
{'loss': 0.0951, 'learning_rate': 1.5833333333333333e-05, 'epoch': 205.0}                                                                
{'loss': 0.0949, 'learning_rate': 1.5666666666666667e-05, 'epoch': 206.0}                                                                
{'loss': 0.0964, 'learning_rate': 1.55e-05, 'epoch': 207.0}                                                                              
{'loss': 0.0948, 'learning_rate': 1.5333333333333334e-05, 'epoch': 208.0}                                                                
{'loss': 0.0932, 'learning_rate': 1.5166666666666668e-05, 'epoch': 209.0}                                                                
{'loss': 0.096, 'learning_rate': 1.5e-05, 'epoch': 210.0}                                                                                
{'loss': 0.0969, 'learning_rate': 1.4833333333333336e-05, 'epoch': 211.0}                                                                
{'loss': 0.097, 'learning_rate': 1.4666666666666668e-05, 'epoch': 212.0}                                                                 
{'loss': 0.0943, 'learning_rate': 1.45e-05, 'epoch': 213.0}                                                                              
{'loss': 0.093, 'learning_rate': 1.4333333333333334e-05, 'epoch': 214.0}                                                                 
{'loss': 0.1031, 'learning_rate': 1.4166666666666668e-05, 'epoch': 215.0}                                                                
{'loss': 0.0965, 'learning_rate': 1.4000000000000001e-05, 'epoch': 216.0}                                                                
{'loss': 0.0938, 'learning_rate': 1.3833333333333334e-05, 'epoch': 217.0}                                                                
{'loss': 0.0969, 'learning_rate': 1.3666666666666666e-05, 'epoch': 218.0}                                                                
{'loss': 0.0954, 'learning_rate': 1.3500000000000001e-05, 'epoch': 219.0}                                                                
{'loss': 0.0946, 'learning_rate': 1.3333333333333333e-05, 'epoch': 220.0}                                                                
{'loss': 0.0993, 'learning_rate': 1.3166666666666665e-05, 'epoch': 221.0}                                                                
{'loss': 0.0952, 'learning_rate': 1.3000000000000001e-05, 'epoch': 222.0}                                                                
{'loss': 0.0968, 'learning_rate': 1.2833333333333333e-05, 'epoch': 223.0}                                                                
{'loss': 0.0971, 'learning_rate': 1.2666666666666668e-05, 'epoch': 224.0}                                                                
{'loss': 0.0959, 'learning_rate': 1.25e-05, 'epoch': 225.0}                                                                              
{'loss': 0.0949, 'learning_rate': 1.2333333333333334e-05, 'epoch': 226.0}                                                                
{'loss': 0.0952, 'learning_rate': 1.2166666666666668e-05, 'epoch': 227.0}                                                                
{'loss': 0.0986, 'learning_rate': 1.2e-05, 'epoch': 228.0}                                                                               
{'loss': 0.0999, 'learning_rate': 1.1833333333333334e-05, 'epoch': 229.0}                                                                
{'loss': 0.1002, 'learning_rate': 1.1666666666666668e-05, 'epoch': 230.0}                                                                
{'loss': 0.1217, 'learning_rate': 1.1500000000000002e-05, 'epoch': 231.0}                                                                
{'loss': 0.097, 'learning_rate': 1.1333333333333334e-05, 'epoch': 232.0}                                                                 
{'loss': 0.0986, 'learning_rate': 1.1166666666666668e-05, 'epoch': 233.0}                                                                
{'loss': 0.0962, 'learning_rate': 1.1000000000000001e-05, 'epoch': 234.0}                                                                
{'loss': 0.0967, 'learning_rate': 1.0833333333333334e-05, 'epoch': 235.0}                                                                
{'loss': 0.0993, 'learning_rate': 1.0666666666666667e-05, 'epoch': 236.0}                                                                
{'loss': 0.0956, 'learning_rate': 1.05e-05, 'epoch': 237.0}                                                                              
{'loss': 0.1001, 'learning_rate': 1.0333333333333333e-05, 'epoch': 238.0}                                                                
{'loss': 0.0994, 'learning_rate': 1.0166666666666667e-05, 'epoch': 239.0}                                                                
{'loss': 0.0961, 'learning_rate': 1e-05, 'epoch': 240.0}                                                                                 
{'loss': 0.1, 'learning_rate': 9.833333333333333e-06, 'epoch': 241.0}                                                                    
{'loss': 0.0971, 'learning_rate': 9.666666666666667e-06, 'epoch': 242.0}                                                                 
{'loss': 0.098, 'learning_rate': 9.5e-06, 'epoch': 243.0}                                                                                
{'loss': 0.1005, 'learning_rate': 9.333333333333334e-06, 'epoch': 244.0}                                                                 
{'loss': 0.1004, 'learning_rate': 9.166666666666666e-06, 'epoch': 245.0}                                                                 
{'loss': 0.0998, 'learning_rate': 9e-06, 'epoch': 246.0}                                                                                 
{'loss': 0.0968, 'learning_rate': 8.833333333333334e-06, 'epoch': 247.0}                                                                 
{'loss': 0.1, 'learning_rate': 8.666666666666668e-06, 'epoch': 248.0}                                                                    
{'loss': 0.1029, 'learning_rate': 8.500000000000002e-06, 'epoch': 249.0}                                                                 
{'loss': 0.0993, 'learning_rate': 8.333333333333334e-06, 'epoch': 250.0}                                                                 
 83%|████████████████████████████████████████████████████████████████████████████████                | 2500/3000 [20:12<03:44,  2.23it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7992, 'eval_samples_per_second': 2.66, 'eval_steps_per_second': 0.213, 'epoch': 250.0}                                                                               
 83%|████████████████████████████████████████████████████████████████████████████████                | 2500/3000 [20:30<03:44,  2.23it/sSaving model checkpoint to ./output/tmp-checkpoint-2500                                                                                   
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(
{'loss': 0.1023, 'learning_rate': 8.166666666666668e-06, 'epoch': 251.0}                                                                 
{'loss': 0.0999, 'learning_rate': 8.000000000000001e-06, 'epoch': 252.0}                                                                 
{'loss': 0.0995, 'learning_rate': 7.833333333333333e-06, 'epoch': 253.0}                                                                 
{'loss': 0.0987, 'learning_rate': 7.666666666666667e-06, 'epoch': 254.0}                                                                 
{'loss': 0.0996, 'learning_rate': 7.5e-06, 'epoch': 255.0}                                                                               
{'loss': 0.1004, 'learning_rate': 7.333333333333334e-06, 'epoch': 256.0}                                                                 
{'loss': 0.1017, 'learning_rate': 7.166666666666667e-06, 'epoch': 257.0}                                                                 
{'loss': 0.1, 'learning_rate': 7.000000000000001e-06, 'epoch': 258.0}                                                                    
{'loss': 0.1012, 'learning_rate': 6.833333333333333e-06, 'epoch': 259.0}                                                                 
{'loss': 0.0985, 'learning_rate': 6.666666666666667e-06, 'epoch': 260.0}                                                                 
{'loss': 0.1016, 'learning_rate': 6.5000000000000004e-06, 'epoch': 261.0}                                                                
{'loss': 0.1185, 'learning_rate': 6.333333333333334e-06, 'epoch': 262.0}                                                                 
{'loss': 0.1021, 'learning_rate': 6.166666666666667e-06, 'epoch': 263.0}                                                                 
{'loss': 0.101, 'learning_rate': 6e-06, 'epoch': 264.0}                                                                                  
{'loss': 0.0997, 'learning_rate': 5.833333333333334e-06, 'epoch': 265.0}                                                                 
{'loss': 0.1004, 'learning_rate': 5.666666666666667e-06, 'epoch': 266.0}                                                                 
{'loss': 0.0996, 'learning_rate': 5.500000000000001e-06, 'epoch': 267.0}                                                                 
{'loss': 0.1019, 'learning_rate': 5.333333333333334e-06, 'epoch': 268.0}                                                                 
{'loss': 0.1006, 'learning_rate': 5.166666666666667e-06, 'epoch': 269.0}                                                                 
{'loss': 0.1004, 'learning_rate': 5e-06, 'epoch': 270.0}                                                                                 
{'loss': 0.1009, 'learning_rate': 4.833333333333333e-06, 'epoch': 271.0}                                                                 
{'loss': 0.1055, 'learning_rate': 4.666666666666667e-06, 'epoch': 272.0}                                                                 
{'loss': 0.1009, 'learning_rate': 4.5e-06, 'epoch': 273.0}                                                                               
{'loss': 0.1003, 'learning_rate': 4.333333333333334e-06, 'epoch': 274.0}                                                                 
{'loss': 0.0969, 'learning_rate': 1.7666666666666668e-05, 'epoch': 194.0}                                                                
{'loss': 0.1018, 'learning_rate': 1.75e-05, 'epoch': 195.0}                                                                              
{'loss': 0.0918, 'learning_rate': 1.7333333333333336e-05, 'epoch': 196.0}                                                                
{'loss': 0.0975, 'learning_rate': 1.7166666666666666e-05, 'epoch': 197.0}                                                                
{'loss': 0.1017, 'learning_rate': 1.7000000000000003e-05, 'epoch': 198.0}                                                                
{'loss': 0.0961, 'learning_rate': 1.6833333333333334e-05, 'epoch': 199.0}                                                                
{'loss': 0.0962, 'learning_rate': 1.6666666666666667e-05, 'epoch': 200.0}                                                                
 67%|████████████████████████████████████████████████████████████████                                | 2000/3000 [16:06<07:31,  2.22it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7888, 'eval_samples_per_second': 2.661, 'eval_steps_per_second': 0.213, 'epoch': 200.0}                                                                              
 67%|████████████████████████████████████████████████████████████████                                | 2000/3000 [16:25<07:31,  2.22it/sSaving model checkpoint to ./output/tmp-checkpoint-2000                                                                                   
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(
{'loss': 0.0918, 'learning_rate': 1.65e-05, 'epoch': 201.0}                                                                              
{'loss': 0.0917, 'learning_rate': 1.6333333333333335e-05, 'epoch': 202.0}                                                                
{'loss': 0.095, 'learning_rate': 1.6166666666666665e-05, 'epoch': 203.0}                                                                 
{'loss': 0.0911, 'learning_rate': 1.6000000000000003e-05, 'epoch': 204.0}                                                                
{'loss': 0.0951, 'learning_rate': 1.5833333333333333e-05, 'epoch': 205.0}                                                                
{'loss': 0.0949, 'learning_rate': 1.5666666666666667e-05, 'epoch': 206.0}                                                                
{'loss': 0.0964, 'learning_rate': 1.55e-05, 'epoch': 207.0}                                                                              
{'loss': 0.0948, 'learning_rate': 1.5333333333333334e-05, 'epoch': 208.0}                                                                
{'loss': 0.0932, 'learning_rate': 1.5166666666666668e-05, 'epoch': 209.0}                                                                
{'loss': 0.096, 'learning_rate': 1.5e-05, 'epoch': 210.0}                                                                                
{'loss': 0.0969, 'learning_rate': 1.4833333333333336e-05, 'epoch': 211.0}                                                                
{'loss': 0.097, 'learning_rate': 1.4666666666666668e-05, 'epoch': 212.0}                                                                 
{'loss': 0.0943, 'learning_rate': 1.45e-05, 'epoch': 213.0}                                                                              
{'loss': 0.093, 'learning_rate': 1.4333333333333334e-05, 'epoch': 214.0}                                                                 
{'loss': 0.1031, 'learning_rate': 1.4166666666666668e-05, 'epoch': 215.0}                                                                
{'loss': 0.0965, 'learning_rate': 1.4000000000000001e-05, 'epoch': 216.0}                                                                
{'loss': 0.0938, 'learning_rate': 1.3833333333333334e-05, 'epoch': 217.0}                                                                
{'loss': 0.0969, 'learning_rate': 1.3666666666666666e-05, 'epoch': 218.0}                                                                
{'loss': 0.0954, 'learning_rate': 1.3500000000000001e-05, 'epoch': 219.0}                                                                
{'loss': 0.0946, 'learning_rate': 1.3333333333333333e-05, 'epoch': 220.0}                                                                
{'loss': 0.0993, 'learning_rate': 1.3166666666666665e-05, 'epoch': 221.0}                                                                
{'loss': 0.0952, 'learning_rate': 1.3000000000000001e-05, 'epoch': 222.0}                                                                
{'loss': 0.0968, 'learning_rate': 1.2833333333333333e-05, 'epoch': 223.0}                                                                
{'loss': 0.0971, 'learning_rate': 1.2666666666666668e-05, 'epoch': 224.0}                                                                
{'loss': 0.0959, 'learning_rate': 1.25e-05, 'epoch': 225.0}                                                                              
{'loss': 0.0949, 'learning_rate': 1.2333333333333334e-05, 'epoch': 226.0}                                                                
{'loss': 0.0952, 'learning_rate': 1.2166666666666668e-05, 'epoch': 227.0}                                                                
{'loss': 0.0986, 'learning_rate': 1.2e-05, 'epoch': 228.0}                                                                               
{'loss': 0.0999, 'learning_rate': 1.1833333333333334e-05, 'epoch': 229.0}                                                                
{'loss': 0.1002, 'learning_rate': 1.1666666666666668e-05, 'epoch': 230.0}                                                                
{'loss': 0.1217, 'learning_rate': 1.1500000000000002e-05, 'epoch': 231.0}                                                                
{'loss': 0.097, 'learning_rate': 1.1333333333333334e-05, 'epoch': 232.0}                                                                 
{'loss': 0.0986, 'learning_rate': 1.1166666666666668e-05, 'epoch': 233.0}                                                                
{'loss': 0.0962, 'learning_rate': 1.1000000000000001e-05, 'epoch': 234.0}                                                                
{'loss': 0.0967, 'learning_rate': 1.0833333333333334e-05, 'epoch': 235.0}                                                                
{'loss': 0.0993, 'learning_rate': 1.0666666666666667e-05, 'epoch': 236.0}                                                                
{'loss': 0.0956, 'learning_rate': 1.05e-05, 'epoch': 237.0}                                                                              
{'loss': 0.1001, 'learning_rate': 1.0333333333333333e-05, 'epoch': 238.0}                                                                
{'loss': 0.0994, 'learning_rate': 1.0166666666666667e-05, 'epoch': 239.0}                                                                
{'loss': 0.0961, 'learning_rate': 1e-05, 'epoch': 240.0}                                                                                 
{'loss': 0.1, 'learning_rate': 9.833333333333333e-06, 'epoch': 241.0}                                                                    
{'loss': 0.0971, 'learning_rate': 9.666666666666667e-06, 'epoch': 242.0}                                                                 
{'loss': 0.098, 'learning_rate': 9.5e-06, 'epoch': 243.0}                                                                                
{'loss': 0.1005, 'learning_rate': 9.333333333333334e-06, 'epoch': 244.0}                                                                 
{'loss': 0.1004, 'learning_rate': 9.166666666666666e-06, 'epoch': 245.0}                                                                 
{'loss': 0.0998, 'learning_rate': 9e-06, 'epoch': 246.0}                                                                                 
{'loss': 0.0968, 'learning_rate': 8.833333333333334e-06, 'epoch': 247.0}                                                                 
{'loss': 0.1, 'learning_rate': 8.666666666666668e-06, 'epoch': 248.0}                                                                    
{'loss': 0.1029, 'learning_rate': 8.500000000000002e-06, 'epoch': 249.0}                                                                 
{'loss': 0.0993, 'learning_rate': 8.333333333333334e-06, 'epoch': 250.0}                                                                 
 83%|████████████████████████████████████████████████████████████████████████████████                | 2500/3000 [20:12<03:44,  2.23it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.7992, 'eval_samples_per_second': 2.66, 'eval_steps_per_second': 0.213, 'epoch': 250.0}                                                                               
 83%|████████████████████████████████████████████████████████████████████████████████                | 2500/3000 [20:30<03:44,  2.23it/sSaving model checkpoint to ./output/tmp-checkpoint-2500                                                                                   
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(
{'loss': 0.1023, 'learning_rate': 8.166666666666668e-06, 'epoch': 251.0}                                                                 
{'loss': 0.0999, 'learning_rate': 8.000000000000001e-06, 'epoch': 252.0}                                                                 
{'loss': 0.0995, 'learning_rate': 7.833333333333333e-06, 'epoch': 253.0}                                                                 
{'loss': 0.0987, 'learning_rate': 7.666666666666667e-06, 'epoch': 254.0}                                                                 
{'loss': 0.0996, 'learning_rate': 7.5e-06, 'epoch': 255.0}                                                                               
{'loss': 0.1004, 'learning_rate': 7.333333333333334e-06, 'epoch': 256.0}                                                                 
{'loss': 0.1017, 'learning_rate': 7.166666666666667e-06, 'epoch': 257.0}                                                                 
{'loss': 0.1, 'learning_rate': 7.000000000000001e-06, 'epoch': 258.0}                                                                    
{'loss': 0.1012, 'learning_rate': 6.833333333333333e-06, 'epoch': 259.0}                                                                 
{'loss': 0.0985, 'learning_rate': 6.666666666666667e-06, 'epoch': 260.0}                                                                 
{'loss': 0.1016, 'learning_rate': 6.5000000000000004e-06, 'epoch': 261.0}                                                                
{'loss': 0.1185, 'learning_rate': 6.333333333333334e-06, 'epoch': 262.0}                                                                 
{'loss': 0.1021, 'learning_rate': 6.166666666666667e-06, 'epoch': 263.0}                                                                 
{'loss': 0.101, 'learning_rate': 6e-06, 'epoch': 264.0}                                                                                  
{'loss': 0.0997, 'learning_rate': 5.833333333333334e-06, 'epoch': 265.0}                                                                 
{'loss': 0.1004, 'learning_rate': 5.666666666666667e-06, 'epoch': 266.0}                                                                 
{'loss': 0.0996, 'learning_rate': 5.500000000000001e-06, 'epoch': 267.0}                                                                 
{'loss': 0.1019, 'learning_rate': 5.333333333333334e-06, 'epoch': 268.0}                                                                 
{'loss': 0.1006, 'learning_rate': 5.166666666666667e-06, 'epoch': 269.0}                                                                 
{'loss': 0.1004, 'learning_rate': 5e-06, 'epoch': 270.0}                                                                                 
{'loss': 0.1009, 'learning_rate': 4.833333333333333e-06, 'epoch': 271.0}                                                                 
{'loss': 0.1055, 'learning_rate': 4.666666666666667e-06, 'epoch': 272.0}                                                                 
{'loss': 0.1009, 'learning_rate': 4.5e-06, 'epoch': 273.0}                                                                               
{'loss': 0.1003, 'learning_rate': 4.333333333333334e-06, 'epoch': 274.0}                                                                 
{'loss': 0.0998, 'learning_rate': 4.166666666666667e-06, 'epoch': 275.0}                                                                 
{'loss': 0.1023, 'learning_rate': 4.000000000000001e-06, 'epoch': 276.0}                                                                 
{'loss': 0.1015, 'learning_rate': 3.833333333333334e-06, 'epoch': 277.0}                                                                 
{'loss': 0.1004, 'learning_rate': 3.666666666666667e-06, 'epoch': 278.0}                                                                 
{'loss': 0.1024, 'learning_rate': 3.5000000000000004e-06, 'epoch': 279.0}                                                                
{'loss': 0.0999, 'learning_rate': 3.3333333333333333e-06, 'epoch': 280.0}                                                                
{'loss': 0.1021, 'learning_rate': 3.166666666666667e-06, 'epoch': 281.0}                                                                 
{'loss': 0.1016, 'learning_rate': 3e-06, 'epoch': 282.0}                                                                                 
{'loss': 0.1007, 'learning_rate': 2.8333333333333335e-06, 'epoch': 283.0}                                                                
{'loss': 0.1015, 'learning_rate': 2.666666666666667e-06, 'epoch': 284.0}                                                                 
{'loss': 0.1011, 'learning_rate': 2.5e-06, 'epoch': 285.0}                                                                               
{'loss': 0.1004, 'learning_rate': 2.3333333333333336e-06, 'epoch': 286.0}                                                                
{'loss': 0.1005, 'learning_rate': 2.166666666666667e-06, 'epoch': 287.0}                                                                 
{'loss': 0.1006, 'learning_rate': 2.0000000000000003e-06, 'epoch': 288.0}                                                                
{'loss': 0.1001, 'learning_rate': 1.8333333333333335e-06, 'epoch': 289.0}                                                                
{'loss': 0.0994, 'learning_rate': 1.6666666666666667e-06, 'epoch': 290.0}                                                                
{'loss': 0.0997, 'learning_rate': 1.5e-06, 'epoch': 291.0}                                                                               
{'loss': 0.1013, 'learning_rate': 1.3333333333333334e-06, 'epoch': 292.0}                                                                
{'loss': 0.102, 'learning_rate': 1.1666666666666668e-06, 'epoch': 293.0}                                                                 
{'loss': 0.0992, 'learning_rate': 1.0000000000000002e-06, 'epoch': 294.0}                                                                
{'loss': 0.1011, 'learning_rate': 8.333333333333333e-07, 'epoch': 295.0}                                                                 
{'loss': 0.0993, 'learning_rate': 6.666666666666667e-07, 'epoch': 296.0}                                                                 
{'loss': 0.105, 'learning_rate': 5.000000000000001e-07, 'epoch': 297.0}                                                                  
{'loss': 0.1007, 'learning_rate': 3.3333333333333335e-07, 'epoch': 298.0}                                                                
{'loss': 0.1031, 'learning_rate': 1.6666666666666668e-07, 'epoch': 299.0}                                                                
{'loss': 0.0991, 'learning_rate': 0.0, 'epoch': 300.0}                                                                                   
100%|████████████████████████████████████████████████████████████████████████████████████████████████| 3000/3000 [24:17<00:00,  2.23it/s]***** Running Evaluation *****
  Num examples = 50
  Batch size = 16
{'eval_rouge-1': 100.0, 'eval_rouge-2': 100.0, 'eval_rouge-l': 100.0, 'eval_bleu-4': 1.0, 'eval_runtime': 18.5791, 'eval_samples_per_second': 2.691, 'eval_steps_per_second': 0.215, 'epoch': 300.0}                                                                              
100%|████████████████████████████████████████████████████████████████████████████████████████████████| 3000/3000 [24:36<00:00,  2.23it/sSaving model checkpoint to ./output/tmp-checkpoint-3000                                                                                   
/mnt/workspace/ChatGLM3/chat/lib/python3.10/site-packages/peft/utils/save_and_load.py:154: UserWarning: Could not find a config file in /mnt/workspace/ChatGLM3/chatglm3-6b - will assume that the vocabulary was not modified.
  warnings.warn(


Training completed. Do not forget to share your model on huggingface.co/models =)


{'train_runtime': 1476.3275, 'train_samples_per_second': 4.064, 'train_steps_per_second': 2.032, 'train_loss': 0.10744846343994141, 'epoch': 300.0}
100%|████████████████████████████████████████████████████████████████████████████████████████████████| 3000/3000 [24:36<00:00,  2.03it/s]
***** Running Prediction *****
  Num examples = 130
  Batch size = 16
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████| 9/9 [00:37<00:00,  4.16s/it]
(chat) root@dsw-372547-675546dd46-gjcqb:/mnt/workspace/ChatGLM3/finetune_demo#




(chat) root@dsw-372547-675546dd46-gjcqb:/mnt/workspace/ChatGLM3/finetune_demo#
(chat) root@dsw-372547-675546dd46-gjcqb:/mnt/workspace/ChatGLM3/finetune_demo# python inference_hf.py output/checkpoint-3000/ --prompt " 董宇辉,男,1993年出生于陕西省渭南市潼关县。2015年毕业于西安外国语大学。2016年加入西安新东方,当选(新东方)当时最年轻的英语教研主管;2019年加入新东方在线,是高三英语名师并成为高三英语学科最年轻的负责人,被称为“中关村周杰伦”。现是东方甄选高级合伙人、新东方教育科技集团董事长文化助理,兼任新东方文旅集团副总裁。"
Loading checkpoint shards: 100%|███████████████████████████████████████████████████████████████████████████| 7/7 [00:03<00:00, 1.81it/s]
Setting eos_token is not supported, use the default one.
Setting pad_token is not supported, use the default one.
Setting unk_token is not supported, use the default one.
年轻的在线年轻的东方名师关东方在线东方当时当时英语英语学科高三英语高三教研东方高三年并高级高三文旅新新东方集团东方年年轻的高三高三在线高三被称为东方东方东方年东方年年年年年当选当选被称为年文旅教研东方高三英语东方东方最东方东方东方东方东方是
(chat) root@dsw-372547-675546dd46-gjcqb:/mnt/workspace/ChatGLM3/finetune_demo#

 

标签:loss,05,模型,微调,epoch,rate,learning,记录,100
From: https://www.cnblogs.com/notonlydba/p/18184728

相关文章

  • AGC028E 做题记录
    好厉害!首先使用贪心策略,从左往右扫,能填\(0\)就填\(0\),问题变为判定性问题。首先我们先观察性质。性质:\(P\)中的前缀最大值一定有\(1\)的贡献,其他元素的贡献可以为\(0\),一定条件下可以为\(1\)。然后就不会了,个人只会\(O(n^2)\)的DP。考虑猜结论。结论:把\(P_{i......
  • 任天堂Switch硬件修复记录
    硬件修复记录;从软件世界里走出来,硬起来朗读全文Yourbrowserdoesnotsupporttheaudioelement.有什么用你可以了解到任天堂Switch的一些硬件知识。如果愿意,你也可以动手处理你自己手上的游戏机,还可以知道日常使用过程中的注意事项,防止/避免人为损坏,至少拉长这些硬件的......
  • 任天堂Switch黑屏救砖记录
    Switch黑屏救砖朗读全文Yourbrowserdoesnotsupporttheaudioelement.有什么用给救砖提供一些思路,相同的情况可以参考使用了解大气层虚拟系统的运作原理,自己动手在虚拟系统中安装新游戏:相关内容在线升级后导致黑屏的NS现状与诊断用新的大气层的短接器+注......
  • 任天堂Switch全部记录
    NSSWTICH大气层制作新的SD卡,解决部分大气层及固件问题。原先的SD卡(128G)快全部放满游戏了,需要新的内存卡用于存放新的游戏。有几张闲置的内存卡,可是容量最大只有64G,无法通过直接全部复制+粘贴的办法,来启用新的小内存卡,涉及制作新的NSSwitchSD卡有什么用switch大气层换sd......
  • Intel 显卡单机多卡 FSDP 模型 checkpointing 时 Assert Out
    Intel显卡单机多卡FSDP模型checkpointing时AssertOut Intel显卡单机多卡FSDP模型checkpointing时AssertOut现象根因顺藤摸瓜抽丝剥茧解法最后的话现象使用HuggingFaceTrainer在单机多卡环境下对LLAMA2-7B进行LoRAfinetuning时,......
  • c# 摄像头及保存视频记录
     usingSystem.IO;usingICameraDll.DirectX.Capture;Capturecapture;//摄像头录像操作Filtersfilters=newFilters();//Filter集合//函数intGetffshowIndex(){FilterCollectionvideoC......
  • 记录一次sqlMap的sql注入测试
    1、首先下载sqlMap测试工具 2、此前需要安装python环境执行pythonsqlmap.py-h ,则可以验证sqlmap命令是否生效3、get请求sql注入测试命令pythonsqlmap.py-uhttp://127.0.0.1:2000/data/serverConfigure/getDataByProject?projectId=1630016701175169121--risk=3--le......
  • 大语言模型中的特殊Token作用
    在我深入研究大型语言模型时,我意识到特殊Token不仅仅是数据元素,它们在模型中扮演着关键角色,帮助理解和处理语言结构。举个例子,BERT的CLS标记帮助模型把握整个句子的含义,MemoryTransformer的记忆Token则让模型能持续跟踪对话的上下文,而Meta最近提出的RegisterToken为处理视觉任务......
  • 私域流量优化:如何利用 AIPL 模型洞察客户生命周期价值
    在当今这个数字化时代,商业战场的硝烟从未如此浓烈。随着互联网红利的逐渐消退,公域流量的成本水涨船高,企业间对于有限用户资源的争夺已进入白热化阶段。每一次点击、每一个曝光背后,都是企业不得不承担的高昂代价。在此背景下,传统的依赖公域流量获取新客的模式正遭受前所未有的挑战,......
  • 跨境物流网站海外客服系统对接ChatGPT大模型AI自动回复问题
    去年的一个客户,主要是做跨境电商的物流运输服务,有自己的物流网站系统。海外客户会在物流系统里咨询很多问题,有不少经常问的问题。这个时候就可以对接AI大模型,上传自己的问答数据到知识库,让AI来自动回复问题。GPT知识库是支持多语种的,可以中英文上传知识库,都能理解并回复 上......