【matlab】大数据基础与应用实例

计算机友好：计算机更擅长处理数字而不是文字或标签。使用独热编码，我们可以将分类数据转化为数值型数据，使得计算机能够更轻松地理解和处理。
防止大小关系误解：如果我们直接用数字来表示分类（如0、1、2等），计算机可能会误以为这些数字之间存在大小或顺序关系。独热编码避免了这种误解。
适用于各种算法：许多机器学习算法，尤其是涉及距离计算的算法（如K近邻算法），更适合处理数值型数据。独热编码将分类数据转换为二进制形式，使得这些算法能够更好地处理。
模型的需求：在深度学习等领域，神经网络的输入层通常期望是数值型数据。独热编码为我们提供了一种有效的方式，将分类数据转换为适用于神经网络的形式。

缺点

维度爆炸：独热编码会在原始特征的基础上引入大量的新特征，导致维度爆炸，特别是当分类数量较多时。这可能增加计算复杂性和存储空间需求。
不适用于高基数特征：当分类的类别数量非常大时，独热编码可能变得不切实际。这可能导致训练数据过于稀疏，影响模型的性能。
信息冗余：由于每个类别都有一个独立的特征，独热编码可能引入冗余信息。对于某些模型，这可能导致冗余特征的存在。
不考虑特征之间的关联性：独热编码将每个类别视为独立的特征，不考虑类别之间的关联性。这可能忽略了一些信息，特别是对于具有内在顺序关系的分类数据。

综上所述，独热编码是一种有效的数据预处理技术，能够将分类数据转换为适合机器学习算法处理的数值型数据。然而，在使用独热编码时需要注意其优缺点以及适用场景，并结合实际情况进行选择和调整。

数据收集

这里选择了电影相关数据集如图所示：

数据可视化

% 1、散点图，展示评分与评分人数的关系
figure;
scatter(data.Rating, data.NumRatings, 'filled');
xlabel('评分');
ylabel('评分人数');
title('电影评分与评分人数关系');

% 2、直方图，展示电影评分的分布
figure;
histogram(data.Rating, 'BinWidth', 0.5);
xlabel('评分');
ylabel('电影数量');
title('电影评分分布');

% 3、条形图，展示各个国家/地区电影数量
figure;
categories = categorical(data.CountryRegion);
uniqueCategories = unique(categories);
counts = histcounts(categories, 'Normalization', 'count');
bar(uniqueCategories, counts);
xlabel('国家/地区');
ylabel('电影数量');
title('各个国家/地区电影数量');

% 4、盒须图，展示电影时长的分布
figure;
boxplot(data.Duration);
ylabel('时长（分钟）');
title('电影时长分布');


% 5、饼状图，统计不同类型电影的数量
for i = 1:length(uniqueGenres)
    genreCounts(i) = sum(genres == uniqueGenres(i));
end
figure;
p = pie(genreCounts, uniqueGenres);
title('不同类型电影的分布');

数据处理与分析

对电影评分数据的预处理、特征编码、线性回归模型的训练和交叉验证，以及最后绘制实际评分与预测评分的对比图。

完整代码

clc;

% 读取Excel文件
data = readtable('data.xlsx');

%数据预处理
% 数据清洗，删除包含空值的行
data = rmmissing(data);
% 将中文列名映射到英文变量名
data.Properties.VariableNames = {'Movie', 'Year', 'Rating', 'NumRatings', 'Actors', 'Genre', 'CountryRegion', 'Duration'};
% 时长列是字符串，需要转换为数值
data.Duration = str2double(regexprep(data.Duration, '[^\d]', ''));
%将类别特征转换为数值特征
genres = string(data.Genre);  
uniqueGenres = unique(genres);
genreCounts = zeros(size(uniqueGenres));


%数据可视化
% 1、散点图，展示评分与评分人数的关系
figure;
scatter(data.Rating, data.NumRatings, 'filled');
xlabel('评分');
ylabel('评分人数');
title('电影评分与评分人数关系');

% 2、直方图，展示电影评分的分布
figure;
histogram(data.Rating, 'BinWidth', 0.5);
xlabel('评分');
ylabel('电影数量');
title('电影评分分布');

% 3、条形图，展示各个国家/地区电影数量
figure;
categories = categorical(data.CountryRegion);
uniqueCategories = unique(categories);
counts = histcounts(categories, 'Normalization', 'count');
bar(uniqueCategories, counts);
xlabel('国家/地区');
ylabel('电影数量');
title('各个国家/地区电影数量');


% 4、盒须图，展示电影时长的分布
figure;
boxplot(data.Duration);
ylabel('时长（分钟）');
title('电影时长分布');


% 5、饼状图，统计不同类型电影的数量
for i = 1:length(uniqueGenres)
    genreCounts(i) = sum(genres == uniqueGenres(i));
end
figure;
p = pie(genreCounts, uniqueGenres);
title('不同类型电影的分布');


% 确保年份,评分人数和时长列为数值类型
data.Year = str2double(string(data.Year));
data.NumRatings = str2double(string(data.NumRatings));
data.Duration = str2double(string(data.Duration));


% 数据预处理
% 使用独热编码（One-Hot Encoding）处理类型特征
genreMatrix = zeros(height(data), length(uniqueGenres));
for i = 1:height(data)
    genreIndices = ismember(uniqueGenres, strsplit(genres(i), ', '));
    genreMatrix(i, genreIndices) = 1;
end

% 组合所选特征
X = [data.Year, data.NumRatings, data.Duration, genreMatrix];
y = data.Rating;

% 标准化特征矩阵
X = normalize(X);

% 使用线性回归模型进行k折交叉验证
k = 5; % 5折交叉验证
cv = cvpartition(height(data), 'KFold', k);

mseValues = zeros(k, 1); % 存储每折的均方误差
yPredAll = cell(k, 1); 
for i = 1:k
    trainIdx = training(cv, i);
    testIdx = test(cv, i);
    
    % 训练模型
    model = fitlm(X(trainIdx, :), y(trainIdx));
    
    % 测试模型
    yPred = predict(model, X(testIdx, :));
    yPredAll{i} = yPred; % 存储每折的预测值
    
    % 计算均方误差
    mseValues(i) = mean((y(testIdx) - yPred).^2);
end

% 输出平均均方误差
averageMSE = mean(mseValues);
disp(['平均均方误差: ', num2str(averageMSE)]);

% 绘制实际值和预测值的曲线图
figure;
hold on;

% 初始化一个数组来存储所有实际值和预测值
allYActual = [];
allYPred = [];

for i = 1:k
    testIdx = test(cv, i);
    yActual = y(testIdx);
    yPred = yPredAll{i};
    
    % 检查向量长度是否一致
    if length(yActual) == length(yPred)
        allYActual = [allYActual; yActual]; % 将每折的实际值添加到总数组中
        allYPred = [allYPred; yPred];       % 将每折的预测值添加到总数组中
    else
        warning(['Fold ', num2str(i), ' 的预测值和实际值长度不匹配']);
    end
end

% 根据索引排序，以便绘制曲线图
[~, sortIdx] = sort(allYActual);
sortedYActual = allYActual(sortIdx);
sortedYPred = allYPred(sortIdx);

% 绘制曲线图
plot(sortedYActual, '-b', 'DisplayName', '实际值'); % 蓝色实线表示实际值
hold on;
plot(sortedYPred, '-r', 'DisplayName', '预测值');   % 红色实线表示预测值

xlabel('样本索引');
ylabel('评分');
title('实际值与预测值曲线图');
legend('show'); % 显示图例
hold off;

标签：编码,评分,模型,独热,电影,实例,matlab,应用,data
From： https://blog.csdn.net/m0_58683132/article/details/140406909

【matlab】大数据基础与应用实例

引言

线性回归模型

基本形式

最小二乘法

多元线性回归

线性回归的假设

模型评估

应用

独热编码

原理

应用场景

优点

缺点

数据收集

数据可视化

数据处理与分析

完整代码

相关文章

赞助商

阅读排行