首页 > 其他分享 >动手学深度学习课程竞赛:加州2020年房价预测

动手学深度学习课程竞赛:加州2020年房价预测

时间:2024-06-12 22:01:00浏览次数:19  
标签:竞赛 zip data train 2020 file test 加州 col

课程地址:课程竞赛:加州2020年房价预测_哔哩哔哩_bilibili

竞赛地址:California House Prices | Kaggle

李沐老师官方答案:10行代码战胜90%数据科学家?_哔哩哔哩_bilibili


 Kaggle竞赛-2020年加州房价预测

李沐老师2020年加州房价数据太大,按4.10节教材中的方法来训练,调参消耗巨大时间,故改用automl(autogluon)进行训练和预测。

# 解压data
import zipfile
import os

def unzip_file(zip_file, extract_dir):
    with zipfile.ZipFile(zip_file, 'r') as zip_ref:
        zip_ref.extractall(extract_dir)
    os.remove(zip_file)

unzip_file('train.csv.zip', '/home/NAS/HUIDA/YaqinJiang/my')
unzip_file('test.csv.zip', '/home/NAS/HUIDA/YaqinJiang/my')

#训练
from autogluon.tabular import TabularDataset, TabularPredictor
import numpy as np
import pandas as pd

train_data = TabularDataset(r".../my/train.csv")
# 对于数值变化较大的列取log值处理
large_val_cols = ['Lot', 'Total interior livable area', 
                  'Tax assessed value', 'Annual tax amount', 
                  'Listed Price', 'Last Sold Price']
for col in large_val_cols + ['Sold Price']:
    train_data[col] = np.log(train_data[col] + 1)
# 删去Id列和State列(因为都是加州)
predictor = TabularPredictor(label='Sold Price').fit(
    train_data.drop(columns=['Id', 'State']))

# 预测
test_data = TabularDataset(r".../my/test.csv")
for col in large_val_cols:
    test_data[col] = np.log(test_data[col] + 1)
preds = predictor.predict(test_data.drop(columns=['Id', 'State']))
submission = pd.DataFrame({'Id':test_data['Id'], 'Sold Price':np.exp(preds)-1})
submission.to_csv('submission_automl.csv',index=False)

提交Kaggle后,Private score为0.12561,Public score为0.13845;Private score接近但是没有超过李沐老师的baseline(0.12502),Public score略微超过李沐老师的baseline(0.13911)。

标签:竞赛,zip,data,train,2020,file,test,加州,col
From: https://blog.csdn.net/scdifsn/article/details/139594212

相关文章

  • AT_hitachi2020_c ThREE 题解
    题意:给定一颗树,构造一个排列\(p\)使得对于每一对\((x,y),dis(x,y)=3\),有\(3\midp_x+p_y\)或\(3\midp_x\timesp_y\)。首先我们先将所有\(p_i\)都模上\(3\)。条件等价于每一对距离为\(3\)的\((x,y)\),\(p_x\)和\(p_y\)不同时为\(1\)或\(2\)。那先考虑如......
  • springboot学科竞赛管理
    学科竞赛管理系统以实际运用为开发背景,基于SpringBoot框架、Vue框架,运用了Java语言和MYSQL数据库进行开发设计,充分保证系统的安全性和稳定性。本系统界面良好,操作简单方便,通过系统概述、系统分析、系统设计、数据库设计、系统测试这几个部分,详细的说明了系统的开发过程,最后并......
  • BUUCTF---web---[GYCTF2020]Blacklist
    1、来到题目连接页面2、测试单引号和双引号,单引号报错,双引号没报错1'1"3、使用万能句式4、使用堆叠注入测试,查看数据库名1';showdatabases;# 5、查看表名1';showtables;#6、查看FlagHere中字段名1';showcolumnsfromFlagHere;#  7、查看flag字段中......
  • python大学生创新创业大赛竞赛志愿者招募平台_s64ag
    大学生作为我国的年轻高级知识人群,有着较为丰富的知识储备和相较于其他高级知识份子所欠缺的创造力,是符合在我国十三五规划的创业主要人群。但因为大学生这个群体社会实践经验与能力的欠缺,与创业的成功要素所矛盾,导致大部分大学生创业在初期就自行夭折,使大学生创业成为了国家......
  • [WUSTCTF2020]朴实无华1
    知识点:1.目录扫描       2.burp抓包       3.弱类型比较绕过        4.科学计数法,md5碰撞            5.系统命令以及空格的替换用dirsearch扫一下目录 ~dirsearch-etxt,bak,zip,tgz-uip-t......
  • CorelDRAW2020工作室版永久免费版下载 附带激活码序列号
    亲爱的设计师小伙伴们,今天我来给大家种草一个超级实用的工具——CorelDRAW2020工作室版!作为一名数字图形设计师,我一直在寻找一款能够提高工作效率、激发创意灵感的软件。而CorelDRAW2020工作室版正是我心目中的完美选择!「CorelDRAW全系列汉化版下载」,来自夸克网盘分享链接:抓......
  • kaggle竞赛实战8——其他方案之XGBOOST及NLP特征优化
    之前都用的集成算法,发现差异不大,考虑在特征优化上提升数据质量,用NLP算法优化id列有两种方法,分别是countervector和TF-IDF,前者就是词频,后者由TF(词频)和IDF(反文档词频)两部分组成,具体理论部分可参考推荐算法课程学习笔记2:文本特征提取基础_countervector-CSDN博客这篇文章fromsk......
  • init_array与got劫持——[zer0pts 2020]easy strcmp
    只是在顺思路,wp参考了2位大佬文章列表|NSSCTF[Zer0pts2020]easystrcmp分析与加法-CSDN博客题目Die 虚拟机运行一下 没有输入,直接报错退出了IDA 很奇怪啊,就是一个比较从我们运行直接报错来看,我们运行时a1>1这个条件是不成立的我的最初思路就是调试把a1改了或......
  • 第二十届西南科技大学ACM程序设计竞赛_牛客
    E-又双叒叕分糖果_第二十届西南科技大学ACM程序设计竞赛(同步赛)(nowcoder.com)思路:"丢"糖果的话分类讨论非常麻烦!!"拿"的话贪心拿!intn;intx,y;voidsolve(){////D--题解:!贪心+思维!,,,自己的想法非常麻烦,想不清楚。////我的想法是"丢",题解是"拿"。////"拿......
  • 第二十届西南科技大学ACM程序设计竞赛(同步赛)
    第二十届西南科技大学ACM程序设计竞赛(同步赛)A:异或症题意:给定一个排列,选任意i,j,使得pi=pi^j,最后求前缀异或数组,求这个数组的最大和思路:发现可以把所有数变成出现过的二进制位的和voidsolve(){lln;cin>>n;map<ll,ll>mp;for(inti=1;i<=n;......