技巧一:数据预处理的重要性
理论讲解:
数据是机器学习的基础,而数据预处理则是确保模型性能的关键步骤。常见的数据预处理技术包括数据清洗、缺失值处理、特征缩放和编码等。通过这些步骤,可以提高模型的准确性和泛化能力。
代码示例:
import pandas as pd
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
# 读取数据
data = pd.read_csv('data.csv')
# 查看数据
print(data.head())
# 数据清洗:删除缺失值
data.dropna(inplace=True)
# 特征选择
X = data[['age', 'income', 'gender']]
y = data['target']
# 定义数值型和类别型特征
numeric_features = ['age', 'income']
categorical_features = ['gender']
# 创建预处理管道
preprocessor = ColumnTransformer(
transformers=[
标签:实战,ColumnTransformer,Python,数据,人工智能,import,data,预处理,sklearn
From: https://blog.csdn.net/wjianwei666/article/details/143902620