机器学习-暑假学习01

时间：2023-08-17 22:46:48浏览次数：40

标签：01 LightGBM 赛题学习 score 暑假 import sklearn

01 赛题介绍

用户新增预测挑战赛链接

赛题数据由约62万条训练集、20万条测试集数据组成，共包含13个字段。其中uuid为样本唯一标识，eid为访问行为ID，udmap为行为属性，其中的key1到key9表示不同的行为属性，如项目名、项目id等相关字段，common_ts为应用访问记录发生时间（毫秒时间戳），其余字段x1至x8为用户相关的属性，为匿名处理字段。target字段为预测目标，即是否为新增用户。

赛题评估指标f1_score

可以直接使用 sklearn 的库函数实现

from sklearn.metrics import f1_score

score = f1_score(y_true=train_data['target'], 
                 y_pred=clf.predict(train_data.drop(['udmap', 'common_ts', 'uuid', 'target'], axis=1)),
                 average='macro')

02 Baseline介绍

2.1 基础版(决策树分类模型模型)：跑通流程

from sklearn.tree import DecisionTreeClassifier

2.2 提升版(待完成)：提高预测效果

import lightgbm as lgb

03 关于提升版的思路

3.1 使用LightGBM

LightGBM（Light Gradient Boosting Machine）
是一种梯度提升框架，它使用决策树作为基学习器。LightGBM 为高效并行计算而生，它的 Light 体现在以下几个点上：

更快的训练速度
更低的内存使用
支持单机多线程，多机并行计算，以及 GPU 训练
能够处理大规模数据

3.2 添加更多特征

标签：01,LightGBM,赛题,学习,score,暑假,import,sklearn
From： https://www.cnblogs.com/ag-chen/p/17639083.html

8.17 模拟赛 & 学习笔记
三天模拟赛+讲课，请的wyz大佬。主要是搞图论这一块。（大概能逃3天军训罢。）评价今日模拟赛：据说对标noip难度但显然放了很大的水。可惜好像手感很不好，是rank12/20。再接再厉？大家都强强强！我弱弱弱！模拟赛题目传送门A.泰拉大陆，原CF601A错因是小条件判错了？？诶嘿。由于模拟......
2013年12月六级作文翻译
中秋节中秋节（来源：文都教育）【原文】中国人自古以来就在中秋时节庆祝丰收，这与北美地区庆祝感恩节的习俗十分相似，过中秋节的习俗与唐代早期在中国各地开始流行，中秋节在农历八月十五，是人们拜月的节日，这天夜晚皓月当空，人们合家团聚，共赏明月。2006年，中秋节被列为中国的文化遗产，200......
操作系统学习2
分别使用标准IO和系统IO写入一百万个整数到文件，测试谁的时间更短？为什么？结论：在同等数据的写入下，使用标准IO要比直接使用系统IO更快原因：标准IO有缓冲区机制，在执行fwrite写文件时，数据不是直接调用系统IO写入磁盘，而是先存放在内存的缓冲区中，直到缓冲区满后，才会调用一次系统IO全部......
2016考研英语：考研作文重要词组总结
2016考研英语：考研作文重要词组总结 2015-06-11 北京世纪高教编辑部英语考研写作如果记住一些常用谚语和词组，一定能快速提高作文分数，下面总结的这些谚语及词组希望能助到大家取得好成绩。一.写作常用谚语1.A friend in need is a friend indeed. ......
【算法学习笔记】DFN序求LCA（最近公共祖先）
前置知识DFN序：对一棵树进行深度优先搜索DFS得到的结点序列，即深度优先搜索DFS的访问顺序。该表述不一定严谨，建议百度ST表（SparseTable，稀疏表）算法概述引理1.1在DFN序中祖先一定出现后代之前。考虑一树上的两个节点\(x\)，\(y\)的最近公共祖先\(d\)，设\(x\)的DFN序......
2015年6月六级翻译+作文卷一二三
写作一“Knowledgeisatreasure,butpracticeisthekeytoit”Giveoneexampleortwotoillustrateyourpointofview.Youshouldwritenomorethan200words. 写作二作文:爱因斯坦说的:我没有特殊的才能，但我有充满热情的好奇心 ......
UEFI学习资料
书籍《UEFI编程实践》技术博客罗冰的UEFI开发专栏https://www.lab-z.com/iof/UEFI入门必读的12本书......
Spring源码学习笔记13——总结篇, 从IOC到AOP
系列文章目录和关于我零丶序言在《Spring源码学习笔记12——总结篇,IOC，Bean的生命周期，三大扩展点》中，我们总结了SpringIOC部分的知识，为了更好的给群里的伙伴们分享SpringAOP的知识，遂有了这篇文章，这篇文章将从IOC聊到AOP，其中IOC不会那么细致，重点还是在AOP。一丶引入1.AOP概述......
在 Linux 上安装 SQL Server 2017
概述通过将平台抽象层(PAL)引入SQLServer，Linux上的SQLServer成为可能。PAL将所有操作系统特定代码集中在一处，并允许其余代码保持独立于操作系统。PAL是Microsoft研究项目Drawbridge的成果。目前，RedHatEnterpriseServer、SUSELinuxEnterpriseServer和Ubunt......
《Java编程思想第四版》学习笔记16
学习了多形性的知识后，由于多形性是如此“聪明”的一种工具，所以看起来似乎所有东西都应该继承。但假如过度使用继承技术，也会使自己的设计变得不必要地复杂起来。事实上，当我们以一个现成类为基础建立一个新类时，如首先选择继承，会使情况变得异常复杂。一个更好的思路是首先选择“合成”......

机器学习-暑假学习01

01 赛题介绍

用户新增预测挑战赛链接

赛题评估指标f1_score

02 Baseline介绍

2.1 基础版(决策树分类模型模型)：跑通流程

2.2 提升版(待完成)：提高预测效果

03 关于提升版的思路

3.1 使用LightGBM

3.2 添加更多特征

相关文章

赞助商

阅读排行

机器学习-暑假学习01

01 赛题介绍

用户新增预测挑战赛 链接

赛题评估指标f1_score

02 Baseline介绍

2.1 基础版(决策树分类模型模型)：跑通流程

2.2 提升版(待完成)：提高预测效果

03 关于提升版的思路

3.1 使用LightGBM

3.2 添加更多特征

相关文章

赞助商

阅读排行

用户新增预测挑战赛链接