首页 > 其他分享 >Kaggle比赛:成人人口收入分类

Kaggle比赛:成人人口收入分类

时间:2024-06-17 23:03:22浏览次数:17  
标签:比赛 encoding 成人 Kaggle pd test import csv data

拿到数据首先查看数据信息和描述  

import pandas as pd  
import seaborn as sns  
import matplotlib.pyplot as plt  
  
# 加载数据(保留原路径,但在实际应用中建议使用相对路径或环境变量)  
data = pd.read_csv(r"C:\Users\11794\Desktop\收入分类\training.csv", encoding='utf-8', encoding_errors='replace')  
  
# 查看数据信息和描述  
data.info()

选择数值列进行相关性分析计算相关性矩阵绘制热力图  

import pandas as pd  
import seaborn as sns  
import matplotlib.pyplot as plt  
  
# 加载数据(保留原路径,但在实际应用中建议使用相对路径或环境变量)  
data = pd.read_csv(r"C:\Users\11794\Desktop\收入分类\training.csv", encoding='utf-8', encoding_errors='replace')  
  
# 绘制热力图  
# 选择数值列进行相关性分析  
numerical_columns = data.select_dtypes(include=['int64', 'float64']).columns
# 计算相关性矩阵  
correlation_matrix = data[numerical_columns].corr()  
# 绘制热力图  
plt.figure(figsize=(12, 10))  
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=0.5)  
plt.title('Correlation Heatmap')  
plt.savefig('correlation_heatmap.png', bbox_inches='tight')  # 保存热力图到当前目录

随后就是数据分割 ,创建并训练模型,这里我选择用决策树分类器  

import pandas as pd    
from sklearn.model_selection import train_test_split    
from sklearn.tree import DecisionTreeClassifier  # 导入决策树分类器  
from sklearn.metrics import classification_report    
import matplotlib.pyplot as plt    
from sklearn.metrics import roc_curve, auc  
import numpy as np  
  
# 加载数据(假设数据保存在CSV文件中)    
data = pd.read_csv(r"C:\Users\11794\Desktop\收入分类\training.csv", encoding='utf-8', encoding_errors='replace')   
test_data = pd.read_csv(r"C:\Users\11794\Desktop\收入分类\testing.csv", encoding='utf-8', encoding_errors='replace')    
  
# 选择特征和目标变量    
X = data.drop(['id', 'Class'], axis=1)   
y = data['Class']  # 目标变量是'Class'列    
    
# 数据分割    
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.01, random_state=42)    
    
# 创建并训练模型    
# 使用决策树分类器  
model = DecisionTreeClassifier(max_depth=30, random_state=42)  # 修改此行  
model.fit(X_train, y_train)    
   
      
# 预测测试集并评估模型    
y_pred = model.predict(X_test)    
print(classification_report(y_test, y_pred))  # 打印分类报告  
  
# 选择test_data中的特征列    
test_X = test_data.drop(['id'], axis=1)    
# 使用训练好的模型进行预测    
test_y_pred = model.predict(test_X)

准确率直接1.0 我没在验证集验证,比赛的文件也分享在csdn里了。

标签:比赛,encoding,成人,Kaggle,pd,test,import,csv,data
From: https://blog.csdn.net/2301_79675943/article/details/139756510

相关文章

  • hi.王国比赛
    [NOIOnline2022入门组]王国比赛题目背景经过管理员的考虑,我们打算将民间数据单独存放在最后一个Subtask中。这些测试点分数均为0分,但是没有通过其中的任何测试点将会视为此题不通过。民间数据提供者:@一扶苏一。题目描述智慧之王Kri统治着一座王国。这天Kri......
  • 洛谷 P5595 歌唱比赛
    题目链接:歌唱比赛思路    根据题目分析可得,假如小x的点赞数是123111,小y的点赞数是234111,则字符串的第4为到第6位结果都为Z,分别为对比(111,111),(11,11),(1,1),字符串的第三位为Y,为对比(3111,4111),则结果字符串为YYYZZZ。    此时可以轻易判断出字符串中第一个Z后面的所有字母......
  • WebGoC题解(4) 115.第5题 同心圆(比赛模拟题)
    题目描述学校准备在颁奖会把这次比赛的前10名的成绩用崭新的形状表示出来,这个艰巨的任务交给了小C。为了和以往不同,小C决定用每个学生的成绩作为半径画同心圆来表示。这个创新的举动需要你使用GoC编程,在一个黑色实心圆背景下,用10个红色圆表示成绩。具体形状参见输入输出样例......
  • 情趣商城成人用品小程序APP开发源码搭建
    搭建成人情趣用品商城APP小程序是一个需要综合考虑多方面因素的复杂过程。下面,我将详细为您分析搭建过程中需要特别注意的几个关键点,并给出一些建议,以帮助您更好地规划和实施这个项目。一、市场定位与用户需求首先,您需要明确您的市场定位和目标用户群体。情趣用品市场有其特......
  • kaggle灾难推文82.531%
    一开始window用不了keras-nlp,用wsl想下载tensorflow2.16.1,失败了,现在换了ubuntu中英文tensorflow显示页面不一样这是中文界面这是英文的就是你用的window系统的话可以用2.10,但2.10之后就只能通过wsl安装了,试了很多次没成功,直接就换成ubuntukeras-nlp在ubuntu也用不了,te......
  • AI绘画Stable Diffusion必看:如何生成人物的全身照实战教程!
    大家好,我是画画的小强在小伙伴们私下留言中,关于如何实现人物的全身照一直有人咨询,看来这个问题还是困惑着不少小伙伴,今天我们就这个问题详细讨论一下。一.宽高比参数设置在讨论如何生成图片的全身照之前,我们先来讨论一下StableDiffusion中宽高比的参数设置。这2个参......
  • 动手学深度学习4.10 实战Kaggle比赛:预测房价-笔记&练习(PyTorch)
    以下内容为结合李沐老师的课程和教材补充的学习笔记,以及对课后练习的一些思考,自留回顾,也供同学之人交流参考。本节课程地址:实战Kaggle比赛:预测房价_哔哩哔哩_bilibili本节教材地址:4.10.实战Kaggle比赛:预测房价—动手学深度学习2.0.0documentation(d2l.ai)本节开源代......
  • kaggle竞赛实战8——其他方案之XGBOOST及NLP特征优化
    之前都用的集成算法,发现差异不大,考虑在特征优化上提升数据质量,用NLP算法优化id列有两种方法,分别是countervector和TF-IDF,前者就是词频,后者由TF(词频)和IDF(反文档词频)两部分组成,具体理论部分可参考推荐算法课程学习笔记2:文本特征提取基础_countervector-CSDN博客这篇文章fromsk......
  • 比赛记录(11~20)
    112024.5.191得分题目T1T2T3T4总分得分\(0\)\(30\)\(100\)\(10\)\(140\)排名:rank\(5\)。2题解T1其实T1是本场考试最难的题,因此放到后面讲。T270pts:瞄准部分分,我们发现\(n\le15\),于是自然想到状压。考虑记录下当前选了的数字,于是定义状态为......
  • 免费,C++蓝桥杯比赛历年真题--第14届蓝桥杯省赛真题(含答案解析和代码)
    C++蓝桥杯比赛历年真题–第14届蓝桥杯省赛真题一、选择题答案:A解析:C++中bool类型与char类型一样,都需要1byte。一些其他类型的占用字节数:short:2byte,int:4byte,longlong:8byte,double:8byte,故答案为A。答案:C解析:A中结构体中可以定义成员变量,也可以定义只有该结......