KDDCUP99数据处理

时间：2023-05-12 21:35:07浏览次数：36

标签：df dst host rate num srv KDDCUP99 数据处理

代码实现如下

# 导入所需的库
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler, OneHotEncoder
from sklearn.model_selection import train_test_split

# 读取数据集
df = pd.read_csv('kddcup.data_10_percent_corrected', header=None)

# 给每一列命名
df.columns = ['duration', 'protocol_type', 'service', 'flag', 'src_bytes', 'dst_bytes', 'land', 'wrong_fragment', 'urgent',
              'hot', 'num_failed_logins', 'logged_in', 'num_compromised', 'root_shell', 'su_attempted', 'num_root',
              'num_file_creations', 'num_shells', 'num_access_files', 'num_outbound_cmds', 'is_host_login',
              'is_guest_login', 'count', 'srv_count', 'serror_rate', 'srv_serror_rate', 'rerror_rate',
              'srv_rerror_rate', 'same_srv_rate', 'diff_srv_rate', 'srv_diff_host_rate', 'dst_host_count',
              'dst_host_srv_count', 'dst_host_same_srv_rate', 'dst_host_diff_srv_rate',
              'dst_host_same_src_port_rate',
              'dst_host_srv_diff_host_rate',
              'dst_host_serror_rate',
              'dst_host_srv_serror_rate',
              'dst_host_rerror_rate',
              'dst_host_srv_rerror_rate',
              'label']

# 数值化非数值型的特征
le = LabelEncoder()
df['protocol_type'] = le.fit_transform(df['protocol_type'])
df['service'] = le.fit_transform(df['service'])
df['flag'] = le.fit_transform(df['flag'])
df['label'] = le.fit_transform(df['label'])

# 标准化数值型的特征
scaler = StandardScaler()
numeric_features = ['duration','src_bytes','dst_bytes','wrong_fragment','urgent','hot','num_failed_logins','num_compromised','num_root','num_file_creations','num_shells','num_access_files','count','srv_count','serror_rate','srv_serror_rate','rerror_rate','srv_rerror_rate','same_srv_rate','diff_srv_rate','srv_diff_host_rate','dst_host_count','dst_host_srv_count','dst_host_same_srv_rate','dst_host_diff_srv_rate','dst_host_same_src_port_rate','dst_host_srv_diff_host_rate','dst_host_serror_rate','dst_host_srv_serror_rate','dst_host_rerror_rate','dst_host_srv_rerror_rate']
df[numeric_features] = scaler.fit_transform(df[numeric_features])

# 归一化数值型的特征
scaler = MinMaxScaler()
df[numeric_features] = scaler.fit_transform(df[numeric_features])

# OneHot编码非数值型的特征
encoder = OneHotEncoder(sparse_output=False)
categorical_features = ['protocol_type','service','flag']
encoded_features = encoder.fit_transform(df[categorical_features])
encoded_features = pd.DataFrame(encoded_features)
df.drop(categorical_features, axis=1, inplace=True)
df = pd.concat([df, encoded_features], axis=1)

# 分割数据集为训练集、验证集和测试集
X = df.drop('label', axis=1)
y = df['label']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.125, random_state=42)

标签：df,dst,host,rate,num,srv,KDDCUP99,数据处理
From： https://www.cnblogs.com/lisyr44/p/17396330.html

BART预训练任务的数据处理代码
DatacollatorusedforBARTdenoisinglanguagemodeling.Thecodeislargelycopiedfrom`<https://github.com/morganmcg1/rotobart/blob/main/data_collator.py#L223>`__.FormoreinformationonhowBARTdenoisinglanguagemodelingworks,oneca......
Cesium：数据处理遇到的一些问题
CesiumLab地形切片出错原因是tif数据没有定义空间参考，首先找到“投影和变换——要素——定义投影”定义坐标系，选择与其他图层相同的坐标系。没有其他图层的坐标参考就根据个人需要定义坐标系统；可以参考文章......
昇腾实战丨DVPP媒体数据处理视频解码问题案例
摘要：本期就分享几个关于DVPP视频解码问题的典型案例，并给出原因分析及解决方法本文分享自华为云社区《DVPP媒体数据处理视频解码问题案例》，作者：昇腾CANN。DVPP（DigitalVisionPre-Processing）是昇腾AI处理器内置的图像处理单元，通过AscendCL媒体数据处理接口提供强大的媒体处理硬......
<Python数据处理> Jacqueline Kazil　Katharine Jarmul
附录：数据分析师：AllenDowney的《统计思维：程序员数学之概率统计（第2版）》很好地介绍了统计数学概念并且使用了Python。CathyO'Neill和RachelSchutt的《数据科学实战》提供了数据科学领域的深入分析。scipy技术栈WesMcKinney编写了《利用Python进行数据分析》......
使用Python进行ETL数据处理
ETL（Extract,Transform,Load）是一种广泛应用于数据处理和数据仓库建设的方法论，它主要用于从各种不同的数据源中提取数据，经过一系列的处理和转换，最终将数据导入到目标系统中。本文将介绍如何使用Python进行ETL数据处理的实战案例。一、数据来源本次实战案例的数据来源是一个包含销售......
高通量测序的数据处理与分析(二)--宏基因组2
博客原文宏基因组数据处理方法数据下载wget下载宏基因组的数据主要分布在两个数据库：1.NCBI的SRA数据库，2.ENA。近年来也有许多研究者将数据上传到中国的数据库：NGDC你可以直接通过网页下载数据，或者是通过各个网站提供的下载工具进行批量下载。也可以到sra-exporter这个网站......
Spark+HBase数据处理与存储实验部分内容
0.Scala+Spark+HBase的IDEA环境配置需要下载的内容：Scala、Java，注意两者之间版本是否匹配。环境：Win10，Scala2.10.6，JDK1.7，IDEA2022.3.1创建maven工程。下载Scala插件。右键项目，添加Scala框架支持。项目结果如图所示：scala添加为源目录，下存scala代码添加依赖包。将property的......
padans关于数据处理的杂谈
情况：业务数据基本字段会有如下：Index(['时间','地区','产品','字段','数值'],dtype='object')这样就会引发一个经典“三角不可能定理”，如何同时简约展现分时序、分产品、分字段数据。）一般来说，1、时序为作为单独的分类，2、然后剩下两个标签就是，要么：2.1、每个字段一张表，......
DNA序列数据处理
dna序列数据处理通常包括以下步骤：数据预处理：首先，需要对原始dna序列数据进行预处理。其中包括测序错误的纠正、碱基质量过滤和去除低质量序列等。这个阶段是非常重要的，因为数据预处理的质量直接影响后续的特征提取和模型学习。特征提取：在dna序列分析中，会涉及到许多不同的特征......
pandas数据处理基础-数据读取/数据选择
数据读取df=pd.read_csv("相对路径或者网址")呈现的结果是一个二维数组，dataframe结构；df.head()----显示的是前5行数据df.tail(7)----显示的是后7行数据df.describe()----对数据进行描述df.values----将dataframe转换为numpy数组结构df.index--查看索引df.columns--查看行......

KDDCUP99数据处理

相关文章

赞助商

阅读排行