• 2024-09-26欺诈文本分类检测(十六):支持分类原因评测改造
    1.引言经过前文对数据的校正与增强后,我们的预期生成结果中不再仅仅是分类标签,还多了欺诈者和分类原因。这样之前模型评测和批量评测两篇文章所封装的evaluate.py脚本就不再满足,需要对脚本进行改造,以支持新输出内容的评测。新的预期结果中共包含三个信息,由于三个信息的特
  • 2024-07-24大模型应用开发——问答系统回答准确性评估的三类方法
    在开发了基于文档的问答系统之后,需要评估系统对问题回答的准确性,将系统的回答与正确答案进行比对并给出评分。我们实践了以下三类方法,最终对比发现,在评估系统回答的准确性时,用大模型来评估最有效。本文旨在给出大模型的prompt供参考,可以根据自己的需求调整。另两类方法仅作简
  • 2024-06-24[本科项目实训] P-Tuning v2 测试记录
    测试脚本PRE_SEQ_LEN=64CHECKPOINT=dsbtpg-chatglm-6b-pt-64-2e-2STEP=500CUDA_VISIBLE_DEVICES=0python3main.py\--do_predict\--validation_filedevVX.json\--test_filedevVX.json\--overwrite_cache\--prompt_columncontent\