01 赛题介绍
用户新增预测挑战赛 链接
赛题数据由约62万条训练集、20万条测试集数据组成,共包含13个字段。其中uuid为样本唯一标识,eid为访问行为ID,udmap为行为属性,其中的key1到key9表示不同的行为属性,如项目名、项目id等相关字段,common_ts为应用访问记录发生时间(毫秒时间戳),其余字段x1至x8为用户相关的属性,为匿名处理字段。target字段为预测目标,即是否为新增用户。
赛题评估指标f1_score
可以直接使用 sklearn
的库函数实现
from sklearn.metrics import f1_score
score = f1_score(y_true=train_data['target'],
y_pred=clf.predict(train_data.drop(['udmap', 'common_ts', 'uuid', 'target'], axis=1)),
average='macro')
02 Baseline介绍
2.1 基础版(决策树分类模型模型):跑通流程
from sklearn.tree import DecisionTreeClassifier
2.2 提升版(待完成):提高预测效果
import lightgbm as lgb
03 关于提升版的思路
3.1 使用LightGBM
LightGBM(Light Gradient Boosting Machine)
是一种梯度提升框架,它使用决策树作为基学习器。LightGBM 为高效并行计算而生,它的 Light 体现在以下几个点上:
- 更快的训练速度
- 更低的内存使用
- 支持单机多线程,多机并行计算,以及 GPU 训练
- 能够处理大规模数据