• 2024-06-30动手学深度学习(Pytorch版)代码实践 -计算机视觉-39实战Kaggle比赛:狗的品种识别(ImageNet Dogs)
    39实战Kaggle比赛:狗的品种识别(ImageNetDogs)比赛链接:DogBreedIdentification|Kaggle1.导入包importtorchfromtorchimportnnimportcollectionsimportmathimportosimportshutilimporttorchvisionfromd2limporttorchasd2limportmatplotlib.pyplo
  • 2024-06-19李宏毅2023机器学习作业HW06解析和代码分享
    ML2023Spring-HW6相关信息:课程主页课程视频SamplecodeHW06视频HW06PDF个人完整代码分享:GitHub|Gitee|GitCodeP.S.HW06是在Judgeboi上提交的,出于学习目的这里会自定义两个度量的函数,不用深究,遵循Suggestion就可以达成学习的目的。每年的数据集si
  • 2024-06-17Kaggle比赛:成人人口收入分类
    拿到数据首先查看数据信息和描述 importpandasaspdimportseabornassnsimportmatplotlib.pyplotasplt#加载数据(保留原路径,但在实际应用中建议使用相对路径或环境变量)data=pd.read_csv(r"C:\Users\11794\Desktop\收入分类\training.csv",encoding
  • 2024-06-12kaggle灾难推文82.531%
    一开始window用不了keras-nlp,用wsl想下载tensorflow2.16.1,失败了,现在换了ubuntu中英文tensorflow显示页面不一样这是中文界面这是英文的就是你用的window系统的话可以用2.10,但2.10之后就只能通过wsl安装了,试了很多次没成功,直接就换成ubuntukeras-nlp在ubuntu也用不了,te
  • 2024-06-10动手学深度学习4.10 实战Kaggle比赛:预测房价-笔记&练习(PyTorch)
    以下内容为结合李沐老师的课程和教材补充的学习笔记,以及对课后练习的一些思考,自留回顾,也供同学之人交流参考。本节课程地址:实战Kaggle比赛:预测房价_哔哩哔哩_bilibili本节教材地址:4.10.实战Kaggle比赛:预测房价—动手学深度学习2.0.0documentation(d2l.ai)本节开源代
  • 2024-06-10kaggle竞赛实战8——其他方案之XGBOOST及NLP特征优化
    之前都用的集成算法,发现差异不大,考虑在特征优化上提升数据质量,用NLP算法优化id列有两种方法,分别是countervector和TF-IDF,前者就是词频,后者由TF(词频)和IDF(反文档词频)两部分组成,具体理论部分可参考推荐算法课程学习笔记2:文本特征提取基础_countervector-CSDN博客这篇文章fromsk
  • 2024-06-02kaggle竞赛实战6——方案优化之交叉验证
    特征选择一共有两种方法:filter和wrapper,前者根据指标(如相关系数),后者通过模型(如随机森林)筛选超参数搜索也有三种方法——网格搜索和TPE搜索、贝叶斯优化器搜索等,后两者可以进行一定程度的先验计算,并在实际搜索中不断调整先验判断。在完成上述过程后,还要用交叉验证来看超参数选
  • 2024-05-31kaggle竞赛系列基于图像对水稻分类代码案例
    目录依赖环境代码导入依赖包定义数据集路径:创建训练集、验证集和测试集的文件夹:代码的作用:设置新的数据集路径与类别名称代码的作用:定义数据预处理和增强变换:代码的作用:定义数据集评估划分与batch大小代码的作用:可视化代码的作用: 评估可视化代码的作用:网络结
  • 2024-05-29kaggle竞赛实战3
    接前文,本文主要做以下几件事:1、把前面处理完的几个表拼成一个大表2、做特征衍生(把离散特征和连续特征两两组合得出)#In[89]:#开始拼接表transaction=pd.concat([new_transaction,history_transaction],axis=0,ignore_index=True)#最后一个参数表示产生新的索引#
  • 2024-05-26kaggle竞赛实战2
    接上一篇,本篇针对merchant以及transaction数据集进行预处理,包括缺失值、inf值处理以及object类型数据的独热编码转化,完成后详细代码如下:#In[5]:importosimportnumpyasnpimportpandasaspd#In[6]:pd.read_excel('d:/Data_Dictionary.xlsx',header=2,sheet_nam
  • 2024-04-11Kaggle自然语言处理入门 推特灾难文本分类 Natural Language Processing with Disaster Tweets
    和新闻按照标题分类差不多,用的朴素贝叶斯#导入必要的包importrandomimportsysfromsklearnimportmodel_selectionfromsklearn.naive_bayesimportMultinomialNBimportjoblibimportre,stringimportpandasaspdimportnumpyasnpdeftext_to_words(file_path)
  • 2024-04-03【六 (2)机器学习-机器学习建模步骤/kaggle房价回归实战】
    一、确定问题和目标:1、业务需求分析:与业务团队或相关利益方进行深入沟通,了解他们的需求和期望。分析业务流程,找出可能的瓶颈、机会或挑战。思考机器学习如何帮助解决这些问题或实现业务目标。2、问题定义:将业务需求转化为一个或多个具体的机器学习问题,例如分类、回归
  • 2024-03-29Kaggle量化比赛复盘: Optiver - Trading at the Close
    目录前言一、开源方案1.6th获奖方案(代码未开源)1.1.特征工程(关键代码)1.2.方案解析2. 7th获奖方案(开源)2.1.特征工程2.2.特征工程3. 9th获奖方案(半开源)3.1.特征构造3.2.特征筛选3.3.模型3.4.zero_sum(标签后处理)4. 14th获奖方案(开源)4.1.方案
  • 2024-03-23【踩坑随笔】Kaggle安装langchain相关依赖报错
    kaggle执行语句%pipinstalldatasetslangchainsentence_transformerstqdmchromadblangchain_wenxin安装langchain相关依赖报错的时候出现了以下报错主要是版本不匹配,报错什么就再加载什么就可以了,执行下面的语句%pipinstallkeras-core执行结果%pipinstallw
  • 2024-03-13kaggle 大语言模型新赛保银
    比赛类型:LLM文本转写挑战。任务目标是恢复用于转写给定文本的LLM提示语句。在这个竞赛中,参与者将面临识别和复原经LLM改写后文本原始提示的挑战,这是探索如何有效利用LLM进行文本改写的新颖方式。竞赛概述:问题定义:恢复用于转写给定文本的LLM提示。技术挑战:超越传统文本处理
  • 2024-02-25走进Kaggle的未知领域:性别和年龄推断算法解析
    ​1、环境设置:此环节将加载实现笔记本无缝功能的基本模块,包括NumPy、Pandas和TensorFlow等库。此外,它还建立了关键的环境常数,如图像尺寸和学习率,这对后续分析和模型训练至关重要。#Generalimportosimportkerasimportnumpyasnpimportpandasaspdimporttensorflow
  • 2024-01-18kaggle上的jax框架的环境配置(TPU版本)
    导出时间:2024-01-1821:00:37星期四python版本:Python3.10.13absl-py==1.4.0accelerate==0.25.0aiofiles==22.1.0aiosqlite==0.19.0anyio==4.2.0argon2-cffi==23.1.0argon2-cffi-bindings==21.2.0array-record==0.5.0arrow==1.3.0astroid==3.0.2asttokens==2.4
  • 2023-12-28kaggle使用tensorboard
    参考:https://www.cnblogs.com/jhy-ColdMoon/p/17341992.html需要使用Ngrokimportosimportmultiprocessing!wgethttps://bin.equinox.io/c/4VmDzA7iaHb/ngrok-stable-linux-amd64.zip!unzipngrok-stable-linux-amd64.zip!./ngrokauthtoken[自己的token]pool=multip
  • 2023-12-22kaggle Open Problems – Single-Cell Perturbations 1st & 2nd place solution summary
    Leaderboard:https://www.kaggle.com/competitions/open-problems-single-cell-perturbations/leaderboard2ndSolution:https://www.kaggle.com/competitions/open-problems-single-cell-perturbations/discussion/458738Code:https://github.com/Eliorkalfon/single_ce
  • 2023-12-17【Kaggle】AAAMLP读书笔记 Cat-in-the-dat II (优化)
    本人希望从0开始,自己的Kaggle竞赛12月拿到自己的第一块Kaggle奖牌短期内读完AbhishekThakur的Approaching(Almost)AnyMachineLearningProblem并且发博客记录https://github.com/abhishekkrthakur/approachingalmost12月至少发21篇博客每天保持八小时的学习时间Approachingca
  • 2023-12-09【Kaggle】AAAMLP读书笔记
    本人希望从0开始,自己的Kaggle竞赛12月拿到自己的第一块Kaggle奖牌短期内读完AbhishekThakur的Approaching(Almost)AnyMachineLearningProblem并且发博客记录https://github.com/abhishekkrthakur/approachingalmost12月至少发21篇博客每天保持八小时的学习时间Approachingca
  • 2023-11-28Kaggle:Titanc Survived
    Kaggle:TitancSurvived数据处理对于这个问题,在训练集中给了10列作为特征。其中有一些对结果预测并没有太大影响的PassengerId、Name、Cabin、Ticket。PassengerId可以直接作为pandas读取cvs文件时候的index_col。train_data=pd.read_csv("dataset/train.csv",index_col="P
  • 2023-11-24Kaggle:Otto Group Classification
    Kaggle:OttoGroupClassification数据处理导入相应的包之后,从csv文件中读取数据,指定id列为index列。本身id列也不携带预测信息。同时将训练数据和测试数据拼接在一起。train_data=pd.read_csv("dataset/train.csv",index_col="id")test_data=pd.read_csv("dataset/test.
  • 2023-10-16【Kaggle】Spam/Ham Email Classification
    基本思想需求是对垃圾邮件进行分类。思路1:使用LSTM、GRU等自带的时序模型进行分类。思路2:使用spacy这个NLP库,里面的textcat可直接用来文本分类实际上,思路2比思路1更优。由于是入门题,就只使用思路1了。思路2代码参考:https://blog.csdn.net/qq_21201267/article/details/109109
  • 2023-10-09【House Prices】基本思路
    在考虑使用什么模型之前,我们先看评分标准和数据特点Kaggle给的评测标准是用"均方根误差",可以联想到,可能是一个线性回归问题。看一下数据情况