首页 > 其他分享 >总结

总结

时间:2023-08-25 23:12:24浏览次数:20  
标签:总结 特征 udmap train key test data

1. 针对 "common_ts" 的数据处理:


common_ts 是 “时间戳” 格式的特征列信息,挖掘数据语义:

拆分:针对年、月、日等更小的时间梯度进行新的特征划分,并将其加入特征内部;

挖掘数据内涵:时间信息是否具备更深层、更实际的时间语义:如:时间戳数据 是否集中在特定的星期几;

连续性特征:时间信息特征不同于其他普通信息,其连续性不可忽视,通过:滑动窗口等技术可挖掘。


 

2. 针对 "udmp" 的数据处理:


 

# 预处理数据:拆分,并转化为独热编码
def udmap_onethot(d):
v = [0] * 9
if d == 'unknown':
return v

d = eval(d)
for i in range(1, 10):
if 'key' + str(i) in d:
v[i - 1] = d['key' + str(i)]

return v

udmap_train = pd.DataFrame(train_data['udmap'].apply(udmap_onethot).tolist(), columns=[f'key{i}' for i in range(1, 10)])
train_data = pd.concat([train_data, udmap_train], axis=1)

udmap_test = pd.DataFrame(test_data['udmap'].apply(udmap_onethot).tolist(), columns=[f'key{i}' for i in range(1, 10)])
test_data = pd.concat([test_data, udmap_test], axis=1)

 

 3. 针对 “数值类” 特征的数据处理:


可以通过寻求最值、频率等方式补充特征;另外值得说明的是,不要忽略一些统计学特征:如中位数,方差等。

 

4. 特征缩放、标准化、归一化


① 特征缩放:在本次项目实践中,我运用到 “特征缩放” 的工程技巧,这帮助我取得了一些提升:

代码举例:

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_val_scaled = scaler.transform(X_val)
X_test_scaled = scaler.transform(X_test)

 

标签:总结,特征,udmap,train,key,test,data
From: https://www.cnblogs.com/lipengyucode/p/17658147.html

相关文章

  • 状压dp总结
    状压dp总结三进制状压Q&A1.如果我的当前的dp值需要前两个状态才可以推导出来怎么办?很简单,既然我们无法舍弃任何一个状态那我们就加一维将它纳入考虑范围之内,就拿P8756[蓝桥杯2021省AB2]国际象棋做列子我们本列的马最远是可以威胁到前两列的马,那么我们就让dp表......
  • 20230825巴蜀暑期集训测试总结
    T1考场竟然没有想到单调栈!后面看题解一看到栈就顿悟了。考场打的时\(O(n\log^2n)\)倍增,挂掉了,区间求重复了。还T了一些点,应该是常数比较大。倍增在求答案的时候其实是可以做到\(O(\logn)\)的,但是我“执意”要求GCD,时间就炸掉了。GCD,LCM和倍数因数关系如果想成与乘除法......
  • 《LGJOJ 8.25》 测试总结
    纯菜了,属于是。中间还咕了很多场总结。。。\(T1\)简单游戏输入:输出:\(\color{red}analysis:\)考试的时候看错题了,寄。正常做就是直接暴力区间\(dp\)就好了就是正常的博弈论\(dp\)其他没什么好说的了,时间复杂度\(O(n^2)\)\(PS:\)挂成了\(30pts\)\(PS:\)没加......
  • ios开发之 -- UIView总结
    如果想调用某个类的某个方法可以写成这样,这个方法来自NSObject类performSelector:performSelector:withObject:performSelector:withObject:withObject: 实际调用[selfperformSelector:@selector(displayViews)withObject:nilafterDelay:1.0f];有三个方法分别是//父视图......
  • Kafka生产问题总结及性能优化实践
    Kafka可视化管理工具kafka-manager安装及基本使用可参考:https://www.cnblogs.com/dadonggg/p/8205302.html 线上环境规划 JVM参数设置kafka是scala语言开发,运行在JVM上,需要对JVM参数合理设置,参看JVM调优专题修改bin/kafka-start-server.sh中的jvm设置,假设机器是32G内......
  • 使用bootstrap总结
    bootstrap是个很不错的前端css框架,把很多按钮、表单、表格、图片css通用样式都写好了,而且浏览器兼容不需我们考虑尤其是它的栅格系统很强大,在做响应式布局时候很有用,但是默认支持12列,一般也足够了,如果要自定义列,就要它的less我没用过,网站性能优化里面有提尽量少用css表达式<!DOC......
  • USART知识总结
    一、知识总结1.USART:(UniversalSynchronous/AsynchronousReceiverTransmitter)通用同步/异步串行收发送器。通常使用UART,UART异步收发器,是一种通用的串行、异步通信总线,该总线有两条数据线,可以实现全双工的发送和接收,在嵌入式系统中常用于主机与辅助设备之间的通信。2.并......
  • Linux学习疑惑总结
    重定向问题Linuxshell中2>&1的含义首先了解下1和2在Linux中代表什么,先整理一份在Linux系统中012是一个文件描述符:名称代码操作符Java中表示Linux下文件描述符(Debian为例)标准输入(stdin)0<或<<System.in/dev/stdin->/proc/self/fd/0->/dev/pts/0......
  • 代码随想录第二天|977.有序数组的平方;209.长度最小的子数组;59.螺旋矩阵II,总结
    今天的这三道题每道题对我来说都不简单,有序数组的平方和长度最小的子数组这两道题还能用暴力求解,螺旋矩阵看着简单却没有思路,磨了半小时还是决定直接看讲解有序数组平方和用的双指针的思想,代码如下:1classSolution{2public:3vector<int>sortedSquares(vector<int......
  • SAP总结
     1.获取session(窗口)SetSapGuiAuto=GetObject("SAPGUI")'GettheSAPGUIScriptingobjectSetSAPApp=SapGuiAuto.GetScriptingEngine'GetthecurrentlyrunningSAPGUISetSAPCon=SAPApp.Children(0)'Getthefirstsystemthatis......