首页 > 其他分享 >kaggle竞赛实战3

kaggle竞赛实战3

时间:2024-05-29 09:04:02浏览次数:24  
标签:实战 category transaction kaggle cols 竞赛 columns id card

接前文,本文主要做以下几件事:

1、把前面处理完的几个表拼成一个大表

2、做特征衍生(把离散特征和连续特征两两组合得出)


# In[89]:


#开始拼接表
transaction = pd.concat([new_transaction, history_transaction], axis=0, ignore_index=True)#最后一个参数表示产生新的索引


# In[91]:


transaction['purchase_month'] = transaction['purchase_date'].apply(lambda x:'-'.join(x.split(' ')[0].split('-')[:2]))#先提取出月份和小时


# In[92]:


transaction['purchase_hour_section'] = transaction['purchase_date'].apply(lambda x: x.split(' ')[1].split(':')[0]).astype(int)


# In[95]:


transaction['purchase_month'] = change_object_cols(transaction['purchase_month'].fillna(-1).astype(str))


# In[96]:


cols = ['merchant_id', 'most_recent_sales_range', 'most_recent_purchases_range', 'category_4']


# In[98]:


#做合并
transaction=pd.merge(transaction,merchant[cols],how='left',on='merchant_id')


# In[99]:


numeric_cols = ['purchase_amount', 'installments']


# In[100]:


category_cols = ['authorized_flag', 'city_id', 'category_1','category_3',
                 'merchant_category_id','month_lag','most_recent_sales_range',
                 'most_recent_purchases_range', 'category_4',
                 'purchase_month', 'purchase_hour_section', 'purchase_day']


# In[101]:


id_cols = ['card_id', 'merchant_id']


# In[102]:


#对合成的表再做一下异常值处理
transaction[cols[1:]] = transaction[cols[1:]].fillna(-1).astype(int)


# In[103]:


transaction[category_cols] =transaction[category_cols].fillna(-1).astype(str)


# In[104]:


#导出成csv
transaction.to_csv("d:/transaction_d_pre.csv",index=False)


# In[105]:


del transaction


# In[106]:


gc.collect()


# In[107]:


#开始特征工程,这里用两两特征组合的方式,使得一个卡号就一条记录。具体来说,看各个卡号A特征取值为1时,C特征的和
from datetime import datetime


# In[108]:


#搞个小数据集玩一下
d1={'card_id':[1,2,1,3],'A':[1, 2, 1, 2],
    'B':[2, 1, 2, 2], 'C':[4, 5, 1, 5], 'D':[7, 5, 4, 8]}


# In[110]:


t1=pd.DataFrame(d1)


# In[111]:


numeric_cols = ['C', 'D']
category_cols = ['A', 'B']


# In[112]:


t1


# In[113]:


#创建以id为key的空字典
features={}
card_all=t1['card_id'].values.tolist()#拿出所有catd_id
for card in card_all:
    features[card]={}


# In[114]:


features


# In[115]:


columns=t1.columns.tolist()#把所有字段名称拿出


# In[116]:


columns


# In[129]:


idx = columns.index('card_id')
idx


# In[122]:


#拿出离散型字段的索引值
category_cols_index=[columns.index(col)for col in category_cols]


# In[123]:


numeric_cols_index=[columns.index(col)for col in numeric_cols]


# In[130]:


#开始吧离散字段和连续字段两两组合
for i in range(t1.shape[0]):
    va=t1.loc[i].values#取出每行的值
    card=va[idx]#取出cardid
    for cate_ind in category_cols_index:
        for num_ind in numeric_cols_index:
            col_name = '&'.join([columns[cate_ind], str(va[cate_ind]), columns[num_ind]])
            features[card][col_name] = features[card].get(col_name, 0) + va[num_ind]
    


# In[131]:


features


# In[135]:


#转化为df
df = pd.DataFrame(features).T.reset_index()#再设置个索引


# In[137]:


cols = df.columns.tolist()


# In[139]:


df.columns = ['card_id'] + cols[1:]#这两句作用就是把第一列索引名改为card_id

最终输出的结果是两两组合的特征及对应值,如图所示:

标签:实战,category,transaction,kaggle,cols,竞赛,columns,id,card
From: https://blog.csdn.net/m0_60792028/article/details/139220685

相关文章

  • YOLOv5改进策略|实战应用案例|YOLOv5机场安全围栏检查,破损围栏检测,YOLOv5平均精度 (AP
            为了确保机场的安全,必须保护空侧免受未经授权的访问。为此,通常使⽤安全围栏,但需要定期检查以发现损坏情况。然⽽,由于⼈类专家⽇益短缺以及⼤量的⼈⼯⼯作,因此需要⾃动化⽅法。⽬的是在⾃主机器⼈的帮助下⾃动检查围栏是否损坏。在这项⼯作中,我们探索对......
  • Vue从入门到实战Day12~14 - Vue3大事件管理系统
    一、用到的知识Vue3compositionAPIPinia/Pinia持久化处理ElementPlus(表单校验,表格处理,组件封装)pnpm包管理升级Eslint+prettier更规范的配置husky(Githooks工具):代码提交之前,进行校验请求模块设计VueRouter4路由设计AI大模型开发一整个项目模块(掌握最新的开发方式)·......
  • 鸿蒙HarmonyOS实战-Web组件(基本使用和属性)
    ......
  • Java进阶:详解与实战Java Stream API
    Java进阶:详解与实战JavaStreamAPI......
  • PostgreSQL数据库实战:轻松修改字段名称
    哈喽,大家好,我是木头左!在本文中,将深入探讨PostgreSQL数据库中的一个强大功能,即如何轻松修改字段名称。无论你是一个新手开发者,还是一个经验丰富的DBA,这篇文章都将为你提供实用的技巧和建议。一、为什么需要修改字段名称?在开发过程中,经常会遇到需要修改表结构的情况,比如添加新......
  • DC-5靶场渗透实战过程(个人学习)
    环境安装DC-5下载地址:https://www.vulnhub.com/entry/dc-4,313/下载完成安装后,将kali和DC-5的靶场网络环境设置一致kali的IP:192.168.37.129一、信息收集寻找靶机的IP方法一:利用nmap命令查找靶机IP方法二:利用arp-scan-l查看局域网内其他IP方式查找靶机IP发现靶机的IP为......
  • 微信小程序毕业设计-校园综合服务系统项目开发实战(附源码+论文)
    大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。......
  • 微信小程序毕业设计-校车购票系统项目开发实战(附源码+论文)
    大家好!我是程序猿老A,感谢您阅读本文,欢迎一键三连哦。......
  • Hexo最新实战:(一)Hexo7.0+GitHub Pages博客搭建
    前言很多平台都能写博客还有创作激励,为什么我又要搭一个?为什么这次要选择用Hexo框架?对应的原因是流量自由和省钱,第一个,很多平台能写但不是都有收益,而且平台有自身的规则,比如会屏蔽一些推广类信息。如果我哪天做了一产品,是没办法直接用平台博客的方式硬推的,至少放码和链接不行。......
  • 学校机房渗透测试实战
    如何黑掉机房任意电脑?ps:老师讲课太无聊了,写一下机房渗透测试的几种思路,并进行实战演示。有什么问题,可以留言,欢迎各位大佬来指正。实现目标:获取shell获取system权限建立远程桌面连接思路一:找系统漏洞1、用cmd命令查看系统版本:winver发现系统版本是win10的21H2,找一下有......