首页 > 其他分享 >MATLAB改进模糊C均值聚类FCM在电子商务信用评价应用:分析淘宝网店铺数据

MATLAB改进模糊C均值聚类FCM在电子商务信用评价应用:分析淘宝网店铺数据

时间:2023-06-15 23:45:45浏览次数:42  
标签:信用 模糊 指标体系 算法 MATLAB 聚类 评价 FCM

全文链接:http://tecdat.cn/?p=32794

原文出处:拓端数据部落公众号

近年来电子商务发展迅速,随之而来的信用问题给消费者带来诸多困扰,造成电子商务网上各种交易问题产生的原因是多方面的,但总的来说是缺乏有效的信用评价体系。目前各电子商务网站虽然都建立了信用评价体系,但是各网站提出的信用评价系统、流程以及指标体系大体相同并已经使用多年,并没有根据电子商务的现实发展而进行创新优化,也没有根据评价用户实际需求进行更精准的设计。

本文以淘宝网为例,帮助客户改进了指标体系,并通过模糊C均值聚类对卖家基于新的指标体系进行信用分类。

聚类算法是一种常用的数据分析和模式识别方法,用于将数据集划分为若干个相似的子集,每个子集称为一个簇。模糊聚类算法是一种基于模糊理论的聚类方法,具有较好的鲁棒性和灵活性,因此在许多领域得到了广泛的应用。

传统的模糊C均值聚类算法

模糊C均值聚类算法是最早和最常用的模糊聚类算法之一。该算法通过最小化目标函数来确定数据集中每个样本的隶属度和聚类中心,从而实现聚类分析。然而,传统的模糊C均值聚类算法存在收敛速度慢、对初始聚类中心敏感等问题。

改进的模糊聚类算法

为了克服传统模糊C均值聚类算法的不足,研究者们提出了许多改进的模糊聚类算法。例如,基于遗传算法的模糊聚类算法、基于粒子群优化的模糊聚类算法等。这些改进算法在收敛速度、聚类效果等方面都有所提升。

基于模糊聚类的其他应用领域

除了在数据分析和模式识别领域,模糊聚类算法还被广泛应用于其他领域。例如,在图像分割、模式识别、生物信息学等领域都有模糊聚类算法的应用。这些应用领域的研究为模糊聚类算法的发展提供了新的方向和挑战。

图描述了一个凝聚模糊聚类方法AGENES和一个分裂模糊聚类方法DIANA在一个包括五个对象的数据的集合{a,b,c,d,e}上的处理的过程。初始时,AGENES将每个样本点自为一簇,之后这样的簇依照某一种准则逐渐合并,例如,例如簇C1中的某个样本点和簇C2中的一个样本点相隔的距离是所有不同类簇的样本点间欧几里得距离最近的,则认为簇C1和簇C2是相似可合并的。

image.png

实验及结果分析

C2C电子商务信用评价模型的基本原理是:确认收货之后,买方可以根据模型内的评价指标,如商品质量,物流速度,售后服务等方面,在一定时间内,根据自身交易完成情况为卖家评价,也可以双方互评以形成信用记录。交易双方的信用反馈都会按模型设定的计算方式累计,以反映该用户的信用状况,以便其他交易方做选择时参考。

目前淘宝网所采用的信用评价模型是累加模型,即原有的信用积分基础上直接进行加减,其模型表示如下:

image.png

其中:Rn、Rn-1分别表示淘宝用户截止到第 n、n-1 次交易之后所获得的信用得分,rn{-1,0,1}表示{差评,中评,好评},即当 rn获得“差评”时在原来信用积分的基础上加上“-1”分,用户获得中评时,就在原来信用积分的基础上加“0”分,当用户获得好评时,在原来信用积分的基础上加“+1”分。累加模型能够简单直观的展现交易双方的信用积分,一定程度上可作为交易双方的信用参考。

实验平台

MATLAB是matrix&laboratory两个词的组合,意为矩阵工厂(矩阵实验室)。是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将数值分析、矩阵计算、科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中,为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案,并在很大程度上摆脱了传统非交互式程序设计语言(如C、Fortran)的编辑模式,代表了当今国际科学计算软件的先进水平。

构建指标体系

由于本文主要是基于 C2C 电子商务交易过程中的信用问题,从交易主体的角度来对 C2C 电子商务信用风险进行评价,目前淘宝网的信用评价指标体系主要由三个指标构成,分别是:与图片相符程度、服务态度以及发货速度,如下图所示:

image.png

而在实际网购过程中可以发现这三个指标并不能让消费者对于物品的进行准确评价,消费者往往需要额外进行大片文字的叙述来评价商品以及服务。

故此,本文根据消费者评论文字中经常出现的关键词新增了评价指标,选择了商品属性,卖家服务以及物流服务作为相应准则层,具体的指标体系如下:

image.png

数据集搜集及预处理

本文以日常生活使用较多的淘宝网为例,按照指标体系中所列指标进行数据获取,其中与图片相符程度,服务态度以及发货速度三个指标在淘宝网上能够直接获取,其他指标由于淘宝网上没有直接数据,故选择了10家本人及朋友购买过的淘宝服装店铺,针对其他指标给出自己的评分,将所有指标的评分原始数据汇总,计算平均值,所得数据汇总如下:

image.png

实验过程(关键参数设置)

一次聚类算法是一种无监督的层次聚类算法,需要事先给定层次聚类数C。

 
% 计算样本点距离聚类中心的距离
% 输入:
%   center     ---- 聚类中心
%   data       ---- 样本点
% 输出:
%   out        ---- 距离
out = zeros(size(center, 1), size(data, 1)); 
for k = 1:size(center, 1), % 对每一个聚类中心


f = U.^expo;       % 隶属度矩阵进行指数运算结果

dist = distfcm(center, data);       % 计算距离矩阵



%将options 中的分量分别赋值给四个变量; 
expo = options(1);          % 隶属度矩阵U的指数
max_iter = options(2);  % 最大迭代次数
min_impro = options(3);  % 隶属度最小变化量,迭代终止条件
display = options(4);  % 每次迭代是否输出信息标志

objfcn = zeros(max_iter, 1); % 初始化输出参数obj_fcn 

由于数据集各指标值的量纲相同,因此不需要对相关指标值进行标准化处理,得到如图所示的结果

相应的层次聚类谱系图如图所示:

 
  plot(data(:,1), data(:,2),'o'); 
       hold on; 
       maxU = max(U); 
       index1 = find(U(1,:) == maxU); 
       index2 = find(U(2,:) == maxU); 
       line(data(index1,1),data(index1,2),'marker','*','color','g'); 
       line(data(index2,1),data(index2,2),'marker','*','color','r'); 
       plot([center([1 2],1)],[center([1 2],2)],'*','color','k') 

image.png

1111.png

结果分析

对于现有指标体系,增加了新的指标如:售后服务,送货速度,包装完整度等,使得指标体系更完全,通过淘宝10个卖家的指标数据的处理,得出最终的信用综合评分,由排名可以看见第四家得分最高,而第四家由于其商品质量高,价格却很便宜,在服务态度以及物流服务方面都深得买家的喜欢,排名最低的第一家买家其销量非常高,但是由于商品质量不过关,使得商品的质量与其价格不对称,而且卖家售后服务态度恶劣,由此可以看出淘宝现有的信用评价体系能够给买家提供一定的参考,但是如果能够增加一些指标,将会对买家起到更好的参考作用。

总结

本文总结了简单介绍了层次聚类算法国内外研究现状,重点介绍了层次聚类算法的基本原理与实现流程。同时,针对 C2C 电子商务中所出现的信用风险问题,提出使用信用评价体系来降低信用风险。并简述了国内外在信用评价方面的研究现状。基于现有的评价指标体系,添加新指标,给出了更为全面完善的指标体系。以淘宝网为例,采集数据,应用层次聚类对10家店铺进行聚类分析。对比最终结果和实际购买体验,证明了淘宝现有信用评价模型对于消费者选择卖家时有一定的指导意义,但是体系有明显提升空间。

参考文献

[1] Pang-Ning Tan Michael Steinbach Vipin Kumar著.范明,范宏建等译.数据挖掘导论[M].北京:人民邮电出版社,2006.

[2]J.Han,M.Kamber著.范明,孟小峰等译.数据挖掘概念与技术[M].北京:机械工业出版社,2001:1~262.

[3] 张鑫.层次聚类算法的研究与应用[D]:[硕士学位论文].江西:江西理工大学,2008.

[4] 段明秀.层次聚类算法的研究及应用[D]:[硕士学位论文].长沙:中南大学,2009.

[5] 杨海斌.一种新的层次聚类算法的研究及应用[D]:[硕士学位论文].甘肃:西北师范大学,2011.

[6] 马晓艳,唐雁.层次聚类算法研究[J].计算机科学,2008,34(7):34~36.

[7] 魏桂英,郑玄轩.层次聚类方法的CURE算法研究[J].科技和产业,2005,5(11):22~24.

[8] 蒋盛益,李霞.一种改进的BIRCH聚类算法[J].计算机应用,2009,29(1):293~296.


The_consumer_sector_in_2030_1536x1536_Original.jpg 最受欢迎的见解

1.R语言k-Shape算法股票价格时间序列聚类

2.R语言基于温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图

3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归

4.r语言鸢尾花iris数据集的层次聚类

5.Python Monte Carlo K-Means聚类实战

6.用R进行网站评论文本挖掘聚类

7.R语言KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化

8.PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像

9.R语言基于Keras的小数据集深度学习图像分类

标签:信用,模糊,指标体系,算法,MATLAB,聚类,评价,FCM
From: https://www.cnblogs.com/tecdat/p/17484491.html

相关文章

  • k均值聚类算法_异常数据检测
    k均值聚类_异常检测先来张图,快速理解正常数据应该分布在两个簇中异常数据,距离两个簇都很远fromsklearn.clusterimportKMeansfromscipy.spatial.distanceimportcdistimportnumpyasnpimportmatplotlib.pyplotaspltif__name__=='__main__':#正常......
  • 【教程】Matlab解密神器,让p文件瞬间“现身”成m文件
    当你手中拿到一个p文件时,你是否会感到束手无策?不妨试试左左Matlab解密助手,这是一款功能强大的解密工具,可以将p文件解密成m文件。下面,我们来看看左左Matlab解密助手的具体功能:pcode解密左左Matlab解密助手可以将使用pcode加密的m文件进行解密。只需简单几步,即可将pcode解密成可读......
  • 对称点模式(symmetric dot pattern, SDP)-matlab版
    近年来,一种直观的信号表示方法--对称点模式(symmetricdotpattern,SDP)被用于信号分析和模式识别。与一些常规方法不同,SDP是一种基于极坐标系的图像表示方法,可以直接将原始信号转换为镜像对称雪花图像,实现简单,计算量小,且对噪声鲁棒。模式之间的识别和区分与信号之间的幅度和频率......
  • R语言k-prototype聚类新能源汽车行业上市公司分析混合型数据集
    本文的研究目的是基于R语言的k-prototype算法,帮助客户对新能源汽车行业上市公司进行混合型数据集的聚类分析。通过对公司的财务数据、市场表现和发展战略等多个方面的变量进行聚类分析,我们可以将这些公司划分为不同的类别,并分析不同类别的特点和发展趋势。这样的研究结果对于投......
  • MATLAB技巧——sort和sortrows函数
    1、sort函数sort函数用于对数据进行排序,通过helpsort命令,可以查找到sort函数的具体用法:Y=SORT(X,DIM,MODE)hastwooptionalparameters.DIMselectsadimensionalongwhichtosort.MODEselectsthedirectionofthesort'ascend'resultsinascendingorder......
  • Matlab马尔可夫链蒙特卡罗法(MCMC)估计随机波动率(SV,Stochastic Volatility) 模型|附代码
    全文下载链接:http://tecdat.cn/?p=16708最近我们被客户要求撰写关于随机波动率的研究报告,包括一些图形和统计输出。波动率是一个重要的概念,在金融和交易中有许多应用。它是期权定价的基础。波动率还可以让您确定资产配置并计算投资组合的风险价值(VaR)甚至波动率本身也是一种......
  • MATLAB偏最小二乘回归(PLSR)和主成分回归(PCR)分析光谱数据|附代码数据
    全文链接:http://tecdat.cn/?p=2655最近我们被客户要求撰写关于偏最小二乘回归(PLSR)和主成分回归(PCR)的研究报告,包括一些图形和统计输出。此示例显示如何在matlab中应用偏最小二乘回归(PLSR)和主成分回归(PCR),并讨论这两种方法的有效性当存在大量预测变量时,PLSR和PCR都是对因变量建模......
  • 【VRP问题】基于遗传算法求解多约束多无人机灾情应急救援路径规划问题附matlab代码
    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。......
  • 基于Matlab实现DS-CDMA通信系统仿真
    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。......
  • 【数字信号】基于matlab模拟GPS信号频谱
    ✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。......