首页 > 其他分享 >机器学习-暑假学习01

机器学习-暑假学习01

时间:2023-08-17 22:46:48浏览次数:40  
标签:01 LightGBM 赛题 学习 score 暑假 import sklearn

01 赛题介绍

用户新增预测挑战赛 链接

赛题数据由约62万条训练集、20万条测试集数据组成,共包含13个字段。其中uuid为样本唯一标识,eid为访问行为ID,udmap为行为属性,其中的key1到key9表示不同的行为属性,如项目名、项目id等相关字段,common_ts为应用访问记录发生时间(毫秒时间戳),其余字段x1至x8为用户相关的属性,为匿名处理字段。target字段为预测目标,即是否为新增用户。

赛题评估指标f1_score

可以直接使用 sklearn 的库函数实现

from sklearn.metrics import f1_score

score = f1_score(y_true=train_data['target'], 
                 y_pred=clf.predict(train_data.drop(['udmap', 'common_ts', 'uuid', 'target'], axis=1)),
                 average='macro')

02 Baseline介绍

2.1 基础版(决策树分类模型模型):跑通流程

from sklearn.tree import DecisionTreeClassifier

2.2 提升版(待完成):提高预测效果

import lightgbm as lgb

03 关于提升版的思路

3.1 使用LightGBM

LightGBM(Light Gradient Boosting Machine)
是一种梯度提升框架,它使用决策树作为基学习器。LightGBM 为高效并行计算而生,它的 Light 体现在以下几个点上:

  • 更快的训练速度
  • 更低的内存使用
  • 支持单机多线程,多机并行计算,以及 GPU 训练
  • 能够处理大规模数据

3.2 添加更多特征

标签:01,LightGBM,赛题,学习,score,暑假,import,sklearn
From: https://www.cnblogs.com/ag-chen/p/17639083.html

相关文章

  • 8.17 模拟赛 & 学习笔记
    三天模拟赛+讲课,请的wyz大佬。主要是搞图论这一块。(大概能逃3天军训罢。)评价今日模拟赛:据说对标noip难度但显然放了很大的水。可惜好像手感很不好,是rank12/20。再接再厉?大家都强强强!我弱弱弱!模拟赛题目传送门A.泰拉大陆,原CF601A错因是小条件判错了??诶嘿。由于模拟......
  • 2013年12月 六级 作文翻译
    中秋节中秋节(来源:文都教育)【原文】中国人自古以来就在中秋时节庆祝丰收,这与北美地区庆祝感恩节的习俗十分相似,过中秋节的习俗与唐代早期在中国各地开始流行,中秋节在农历八月十五,是人们拜月的节日,这天夜晚皓月当空,人们合家团聚,共赏明月。2006年,中秋节被列为中国的文化遗产,200......
  • 操作系统学习2
    分别使用标准IO和系统IO写入一百万个整数到文件,测试谁的时间更短?为什么?结论:在同等数据的写入下,使用标准IO要比直接使用系统IO更快原因:标准IO有缓冲区机制,在执行fwrite写文件时,数据不是直接调用系统IO写入磁盘,而是先存放在内存的缓冲区中,直到缓冲区满后,才会调用一次系统IO全部......
  • 2016考研英语:考研作文重要词组总结
    2016考研英语:考研作文重要词组总结 2015-06-11 北京世纪高教编辑部  英语考研写作如果记住一些常用谚语和词组,一定能快速提高作文分数,下面总结的这些谚语及词组希望能助到大家取得好成绩。 一.写作常用谚语1.A friend in need is a friend indeed. ......
  • 【算法学习笔记】DFN序求LCA(最近公共祖先)
    前置知识DFN序:对一棵树进行深度优先搜索DFS得到的结点序列,即深度优先搜索DFS的访问顺序。该表述不一定严谨,建议百度ST表(SparseTable,稀疏表)算法概述引理1.1在DFN序中祖先一定出现后代之前。考虑一树上的两个节点\(x\),\(y\)的最近公共祖先\(d\),设\(x\)的DFN序......
  • 2015年6月 六级翻译+作文 卷一二三
     写作一“Knowledgeisatreasure,butpracticeisthekeytoit”Giveoneexampleortwotoillustrateyourpointofview.Youshouldwritenomorethan200words. 写作二作文:爱因斯坦说的:我没有特殊的才能,但我有充满热情的好奇心 ......
  • UEFI学习资料
    书籍《UEFI编程实践》技术博客罗冰的UEFI开发专栏https://www.lab-z.com/iof/UEFI入门必读的12本书......
  • Spring源码学习笔记13——总结篇, 从IOC到AOP
    系列文章目录和关于我零丶序言在《Spring源码学习笔记12——总结篇,IOC,Bean的生命周期,三大扩展点》中,我们总结了SpringIOC部分的知识,为了更好的给群里的伙伴们分享SpringAOP的知识,遂有了这篇文章,这篇文章将从IOC聊到AOP,其中IOC不会那么细致,重点还是在AOP。一丶引入1.AOP概述......
  • 在 Linux 上安装 SQL Server 2017
    概述通过将平台抽象层(PAL)引入SQLServer,Linux上的SQLServer成为可能。PAL将所有操作系统特定代码集中在一处,并允许其余代码保持独立于操作系统。PAL是Microsoft研究项目Drawbridge的成果。目前,RedHatEnterpriseServer、SUSELinuxEnterpriseServer和Ubunt......
  • 《Java编程思想第四版》学习笔记16
    学习了多形性的知识后,由于多形性是如此“聪明”的一种工具,所以看起来似乎所有东西都应该继承。但假如过度使用继承技术,也会使自己的设计变得不必要地复杂起来。事实上,当我们以一个现成类为基础建立一个新类时,如首先选择继承,会使情况变得异常复杂。一个更好的思路是首先选择“合成”......