首页 > 其他分享 >Datawhale AI夏令营 逻辑推理

Datawhale AI夏令营 逻辑推理

时间:2024-07-30 20:28:05浏览次数:23  
标签:11 10 nil 插入 AI tree Datawhale -- 夏令营

#AI夏令营 #Datawhale #夏令营 #大模型 #微调

实践步骤:

一、跑通baseline

二、尝试个人idea

三、尝试进阶baseline

比赛链接:上海科学智能研究院

一、baseline介绍

baseline代码由官方提供,无需修改

食用指南:Datawhale

baseline收获

官方提供的baseline可以做到一键运行,只要按照指南中的流程就可以提交结果

不同的模型基座影响很大,打算后续在本地微调Qwen2-7B并进行测试,具体来说,

  • 使用qwen1.5-1.8b,得分0.3494

  • 使用qwen2-7b-instruct,得分0.6830

  • 使用qwen2-72b-instruct,得分0.8261

使用微调后的qwen2-7b-instruct,得分0.7462

二、Prompt&微调

推荐阅读:从零入门 AI 逻辑推理

baseline改进想法

作为给大家练手的baseline,本身已经十分完善

具体比赛过程中,提升大模型表现能力的基本手段就是提示词工程和微调

提示词可以选择经典的GPT咒语,但若想进一步优化提示词或者微调,最好还是本地部署一个自己的大模型。这样方便使用Lora之类的微调技术在4090上微调7B大小左右的模型,也方便进行进行提示词工程优化结果。

三、进阶提分

Prompt改进:你是一个逻辑推理专家,我会提供一些逻辑思维题目或场景,请一步一步思考其中的逻辑链,组织思维并跟踪推理的每个环节,在回答中展示清晰的逻辑链条,以便更好地解释每个步骤如何导致最终的结论。以下是一个逻辑推理的题目,形式为单项选择题。所有的问题都是(close-world assumption)闭世界假设,即未观测事实都为假。请逐步分析问题并在最后一行输出答案,最后一行的格式为"答案是:A"。

指令微调:

  • 训练格式:

[

{

"input": "假设您需要构建一个二叉搜索树,其中每个节点或者是一个空的节点(称为\"空节点\"),或者是一个包含一个整数值和两个子树的节点(称为\"数值节点\")。以下是构建这棵树的规则:\n\n1. 树中不存在重复的元素。\n2. 对于每个数值节点,其左子树的所有值都小于该节点的值,其右子树的所有值都大于该节点的值。\n3. 插入一个新值到一个\"空节点\"时,该\"空节点\"会被一个包含新值的新的数值节点取代。\n4. 插入一个已存在的数值将不会改变树。\n\n请基于以上规则,回答以下选择题:\n\n### 问题:\n选择题 1:\n给定一个空的二叉搜索树,插入下列数字: [5, 9, 2, 10, 11, 3],下面哪个选项正确描述了结果树的结构?\nA. tree(5, tree(2, tree(3, nil, nil), nil), tree(9, tree(10, nil, nil), tree(11, nil, nil)))\nB. tree(5, tree(2, nil, tree(3, nil, nil)), tree(9, nil, tree(10, nil, tree(11, nil, nil))))\nC. tree(5, tree(3, tree(2, nil, nil), nil), tree(9, nil, tree(10, tree(11, nil, nil), nil)))\nD. tree(5, nil, tree(2, nil, tree(3, nil, nil)), tree(9, tree(11, nil, nil), tree(10, nil, nil)))\n",

"instruction": "你是一个逻辑推理专家,我会提供一些逻辑思维题目或场景,请一步一步思考其中的逻辑链,组织思维并跟踪推理的每个环节,在回答中展示清晰的逻辑链条,以便更好地解释每个步骤如何导致最终的结论。以下是一个逻辑推理的题目,形式为单项选择题。所有的问题都是(close-world assumption)闭世界假设,即未观测事实都为假。请逐步分析问题并在最后一行输出答案,最后一行的格式为\"答案是:A\"。",

"output": "根据题目中的规则,我们依次插入数字 [5, 9, 2, 10, 11, 3] 来构建二叉搜索树。\n\n首先插入数字 5,树为:\n```\ntree(5, nil, nil)\n```\n\n然后插入数字 9,由于 9 > 5,因此插入到右子树:\n```\ntree(5, nil, tree(9, nil, nil))\n```\n\n接下来插入数字 2,由于 2 < 5,因此插入到左子树:\n```\ntree(5, tree(2, nil, nil), tree(9, nil, nil))\n```\n\n再插入数字 10,由于 10 > 5 并且 10 > 9,所以插入到 9 的右子树:\n```\ntree(5, tree(2, nil, nil), tree(9, nil, tree(10, nil, nil)))\n```\n\n继续插入数字 11,由于 11 > 5 并且 11 > 9 和 11 > 10,所以插入到 10 的右子树:\n```\ntree(5, tree(2, nil, nil), tree(9, nil, tree(10, nil, tree(11, nil, nil))))\n```\n\n最后插入数字 3,由于 3 < 5 但是 3 > 2,所以插入到 2 的右子树:\n```\ntree(5, tree(2, nil, tree(3, nil, nil)), tree(9, nil, tree(10, nil, tree(11, nil, nil))))\n```\n\n比较这个最终结果与给定的选项,可以看到选项 B 正确地描述了结果树的结构。\n\n答案是:B"

},

]

  • 微调指令:

llamafactory-cli train \

--stage sft \

--do_train True \

--model_name_or_path /mnt/liumuDisk/llm-models/Qwen2-7B-Instruct \

--preprocessing_num_workers 16 \

--finetuning_type lora \

--quantization_method bitsandbytes \

--template default \

--flash_attn auto \

--dataset_dir data \

--dataset logical \

--cutoff_len 1024 \

--learning_rate 5e-05 \

--num_train_epochs 50.0 \

--max_samples 100000 \

--per_device_train_batch_size 2 \

--gradient_accumulation_steps 8 \

--lr_scheduler_type cosine \

--max_grad_norm 1.0 \

--logging_steps 5 \

--save_steps 100 \

--warmup_steps 0 \

--optim adamw_torch \

--packing False \

--report_to none \

--output_dir saves/Qwen2-7B/lora/train_2024-07-30-17-00-59 \

--bf16 True \

--plot_loss True \

--ddp_timeout 180000000 \

--include_num_input_tokens_seen True \

--adapter_name_or_path saves/Qwen2-7B/lora/train_2024-07-30-17-00-59 \

--lora_rank 8 \

--lora_alpha 16 \

--lora_dropout 0 \

--lora_target all

这个夏令营不简单 #AI夏令营 #Datawhale #夏令营

标签:11,10,nil,插入,AI,tree,Datawhale,--,夏令营
From: https://blog.csdn.net/qq_40449583/article/details/140805245

相关文章

  • hackme,aiweb,tomato靶机解析大礼包
    注:所有靶机均只做到连接木马,并未提权寻找flag,问就是不会o(╥﹏╥)ohackme靶机1.导入靶机,查看其网段,使用端口扫描工具(御剑2014)进行扫描,获取端口后进入2.注册一个账户登录3.随机输入,点击search,抓包,在搜索框后加*,使用sqlmap注入4.获取数据库,表,数据5.......
  • 医疗器械行业数智化创新实践:数据可视化与 AI+ 是实现高质量发展的关键
    使用TapData,化繁为简,摆脱手动搭建、维护数据管道的诸多烦扰,轻量代替OGG、DSG等同步工具,「CDC+流处理+数据集成」组合拳,加速仓内数据流转,帮助企业将真正具有业务价值的数据作用到实处,将“实时数仓”方法论落进现实。TapData持续迭代产品能力,优化用户体验的同时,也在不断探......
  • 【Websim.ai】一句话让AI帮你生成一个网页
    【Websim.ai】一句话让AI帮你生成一个网页网站链接websim.ai简介websim.ai接入了ClaudeSonnet3.5,GPT-4o等常用的LLM,只需要在websim.ai的官网指令栏中编写相关指令,有点类似大模型的Prompt,指令的好坏决定了网页生成的质量。生成的网页可以有很多用途,比如说生成游戏:俄......
  • 2024夏令营CTF部分wp
    misc前面几题基本来源于这篇文章>https://blog.csdn.net/qq_45894840/article/details/128346180?spm=1001.2014.3001.5502算是misc的入门级题目,就不多说了1.easy_stego_1是盲水印分离的题目首先拿到题目附件>http://nnd.edaker.com:8999/directlink/2/misc_easy_stego_1.p......
  • unity报错CommandWithNoStdoutInvokationFailure: Unable to start ADB server.
    这个错误提示表明Unity无法启动ADB(AndroidDebugBridge)服务器,这通常是因为AndroidSDK没有安装或者配置不正确。以下是一些解决这个问题的步骤:确认AndroidSDK的安装:确保你已经安装了AndroidSDK。可以通过AndroidStudio来安装SDK,或者从Android开发者网站下载。配置U......
  • 构建铁塔基站安全防护网:视频AI智能监控技术引领智慧化转型
    一、背景现状随着通信技术的快速发展,铁塔基站作为重要的通信基础设施,其安全、稳定、高效的运行对于保障通信网络的畅通至关重要。然而,铁塔基站大多分布在公路边、高山、野外等区域,巡检难度大,维护效率低,且面临着非法闯入、被盗、私挂设备等管理风险。铁塔基站通常分布广泛,且环境复......
  • AI绘画教程+变现,这泼天的富贵终于轮到你了
    公司一计算机大佬,用AI画画一个月搞钱2w+,画着画着都已经超过本职工资了。卖了个人情,问了点内部信息才整理了这一篇文章:我有个朋友学设计的,今年找了大半年工作,累得像牛马一个月4.5k;反观那位大佬纯纯绘画设计小白,AI工具刚火起来就摸索了一套路子,一个月除了主业还有2w+收入。......
  • Stable Diffusion|用AI制作电商产品视觉
    今天分享一个用StableDiffusion制作“电商视觉海报”和“电商产品视觉”的小分享,以双十一为例,这个分享或许可以给你提供一些创作灵感,也有可能可以帮助你更高效的完成视觉海报的制作。1双十一视觉在开始之前,需要先准备一张双十一的字体图片。(图片来自网络,如有侵权,请联......
  • Codeforces Round 929 (Div. 3)---->E. Turtle vs. Rabbit Race: Optimal Trainings
    https://codeforces.com/contest/1933/problem/E#include<bits/stdc++.h>#definexfirst#defineysecondusingnamespacestd;typedeflonglongll;typedef__int128i128;typedefpair<int,int>pii;constintN=2e5+10,M=110;intn,q;inta[N];ll......
  • 12. kubernetes调度——污点Taint和容忍Toleration
    kubernetes调度——污点Taint和容忍Toleration一、通过节点属性调度1、节点名称2、节点标签2.1查看节点标签2.2添加标签2.3修改标签2.4删除标签2.5通过节点标签进行调度二、污点Taint和容忍Toleration1、污点Taint1.1查看Master节点的污点1.2添加污点1.3删除污......