首页 > 其他分享 >KDDCUP99数据处理

KDDCUP99数据处理

时间:2023-05-12 21:35:07浏览次数:36  
标签:df dst host rate num srv KDDCUP99 数据处理

代码实现如下

# 导入所需的库
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler, OneHotEncoder
from sklearn.model_selection import train_test_split

# 读取数据集
df = pd.read_csv('kddcup.data_10_percent_corrected', header=None)

# 给每一列命名
df.columns = ['duration', 'protocol_type', 'service', 'flag', 'src_bytes', 'dst_bytes', 'land', 'wrong_fragment', 'urgent',
              'hot', 'num_failed_logins', 'logged_in', 'num_compromised', 'root_shell', 'su_attempted', 'num_root',
              'num_file_creations', 'num_shells', 'num_access_files', 'num_outbound_cmds', 'is_host_login',
              'is_guest_login', 'count', 'srv_count', 'serror_rate', 'srv_serror_rate', 'rerror_rate',
              'srv_rerror_rate', 'same_srv_rate', 'diff_srv_rate', 'srv_diff_host_rate', 'dst_host_count',
              'dst_host_srv_count', 'dst_host_same_srv_rate', 'dst_host_diff_srv_rate',
              'dst_host_same_src_port_rate',
              'dst_host_srv_diff_host_rate',
              'dst_host_serror_rate',
              'dst_host_srv_serror_rate',
              'dst_host_rerror_rate',
              'dst_host_srv_rerror_rate',
              'label']

# 数值化非数值型的特征
le = LabelEncoder()
df['protocol_type'] = le.fit_transform(df['protocol_type'])
df['service'] = le.fit_transform(df['service'])
df['flag'] = le.fit_transform(df['flag'])
df['label'] = le.fit_transform(df['label'])

# 标准化数值型的特征
scaler = StandardScaler()
numeric_features = ['duration','src_bytes','dst_bytes','wrong_fragment','urgent','hot','num_failed_logins','num_compromised','num_root','num_file_creations','num_shells','num_access_files','count','srv_count','serror_rate','srv_serror_rate','rerror_rate','srv_rerror_rate','same_srv_rate','diff_srv_rate','srv_diff_host_rate','dst_host_count','dst_host_srv_count','dst_host_same_srv_rate','dst_host_diff_srv_rate','dst_host_same_src_port_rate','dst_host_srv_diff_host_rate','dst_host_serror_rate','dst_host_srv_serror_rate','dst_host_rerror_rate','dst_host_srv_rerror_rate']
df[numeric_features] = scaler.fit_transform(df[numeric_features])

# 归一化数值型的特征
scaler = MinMaxScaler()
df[numeric_features] = scaler.fit_transform(df[numeric_features])

# OneHot编码非数值型的特征
encoder = OneHotEncoder(sparse_output=False)
categorical_features = ['protocol_type','service','flag']
encoded_features = encoder.fit_transform(df[categorical_features])
encoded_features = pd.DataFrame(encoded_features)
df.drop(categorical_features, axis=1, inplace=True)
df = pd.concat([df, encoded_features], axis=1)

# 分割数据集为训练集、验证集和测试集
X = df.drop('label', axis=1)
y = df['label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.125, random_state=42)

标签:df,dst,host,rate,num,srv,KDDCUP99,数据处理
From: https://www.cnblogs.com/lisyr44/p/17396330.html

相关文章

  • BART预训练任务的数据处理代码
    DatacollatorusedforBARTdenoisinglanguagemodeling.Thecodeislargelycopiedfrom`<https://github.com/morganmcg1/rotobart/blob/main/data_collator.py#L223>`__.FormoreinformationonhowBARTdenoisinglanguagemodelingworks,oneca......
  • Cesium:数据处理遇到的一些问题
    CesiumLab地形切片出错原因是tif数据没有定义空间参考,首先找到“投影和变换——要素——定义投影”定义坐标系,选择与其他图层相同的坐标系。没有其他图层的坐标参考就根据个人需要定义坐标系统;可以参考文章......
  • 昇腾实战丨DVPP媒体数据处理视频解码问题案例
    摘要:本期就分享几个关于DVPP视频解码问题的典型案例,并给出原因分析及解决方法本文分享自华为云社区《DVPP媒体数据处理视频解码问题案例》,作者:昇腾CANN。DVPP(DigitalVisionPre-Processing)是昇腾AI处理器内置的图像处理单元,通过AscendCL媒体数据处理接口提供强大的媒体处理硬......
  • <Python数据处理> Jacqueline Kazil Katharine Jarmul
    附录:数据分析师:AllenDowney的《统计思维:程序员数学之概率统计(第2版)》很好地介绍了统计数学概念并且使用了Python。CathyO'Neill和RachelSchutt的《数据科学实战》提供了数据科学领域的深入分析。scipy技术栈WesMcKinney编写了《利用Python进行数据分析》......
  • 使用Python进行ETL数据处理
    ETL(Extract,Transform,Load)是一种广泛应用于数据处理和数据仓库建设的方法论,它主要用于从各种不同的数据源中提取数据,经过一系列的处理和转换,最终将数据导入到目标系统中。本文将介绍如何使用Python进行ETL数据处理的实战案例。一、数据来源本次实战案例的数据来源是一个包含销售......
  • 高通量测序的数据处理与分析(二)--宏基因组2
    博客原文宏基因组数据处理方法数据下载wget下载宏基因组的数据主要分布在两个数据库:1.NCBI的SRA数据库,2.ENA。近年来也有许多研究者将数据上传到中国的数据库:NGDC你可以直接通过网页下载数据,或者是通过各个网站提供的下载工具进行批量下载。也可以到sra-exporter这个网站......
  • Spark+HBase数据处理与存储实验部分内容
    0.Scala+Spark+HBase的IDEA环境配置需要下载的内容:Scala、Java,注意两者之间版本是否匹配。环境:Win10,Scala2.10.6,JDK1.7,IDEA2022.3.1创建maven工程。下载Scala插件。右键项目,添加Scala框架支持。项目结果如图所示:scala添加为源目录,下存scala代码添加依赖包。将property的......
  • padans关于数据处理的杂谈
    情况:业务数据基本字段会有如下:Index(['时间','地区','产品','字段','数值'],dtype='object')这样就会引发一个经典“三角不可能定理”,如何同时简约展现分时序、分产品、分字段数据。)一般来说,1、时序为作为单独的分类,2、然后剩下两个标签就是,要么:2.1、每个字段一张表,......
  • DNA序列数据处理
    dna序列数据处理通常包括以下步骤:数据预处理:首先,需要对原始dna序列数据进行预处理。其中包括测序错误的纠正、碱基质量过滤和去除低质量序列等。这个阶段是非常重要的,因为数据预处理的质量直接影响后续的特征提取和模型学习。特征提取:在dna序列分析中,会涉及到许多不同的特征......
  • pandas数据处理基础-数据读取/数据选择
    数据读取df=pd.read_csv("相对路径或者网址")呈现的结果是一个二维数组,dataframe结构;df.head()----显示的是前5行数据df.tail(7)----显示的是后7行数据df.describe()----对数据进行描述df.values----将dataframe转换为numpy数组结构df.index--查看索引df.columns--查看行......