全文链接:http://tecdat.cn/?p=32794
原文出处:拓端数据部落公众号
近年来电子商务发展迅速,随之而来的信用问题给消费者带来诸多困扰,造成电子商务网上各种交易问题产生的原因是多方面的,但总的来说是缺乏有效的信用评价体系。目前各电子商务网站虽然都建立了信用评价体系,但是各网站提出的信用评价系统、流程以及指标体系大体相同并已经使用多年,并没有根据电子商务的现实发展而进行创新优化,也没有根据评价用户实际需求进行更精准的设计。
本文以淘宝网为例,帮助客户改进了指标体系,并通过模糊C均值聚类对卖家基于新的指标体系进行信用分类。
聚类算法是一种常用的数据分析和模式识别方法,用于将数据集划分为若干个相似的子集,每个子集称为一个簇。模糊聚类算法是一种基于模糊理论的聚类方法,具有较好的鲁棒性和灵活性,因此在许多领域得到了广泛的应用。
传统的模糊C均值聚类算法
模糊C均值聚类算法是最早和最常用的模糊聚类算法之一。该算法通过最小化目标函数来确定数据集中每个样本的隶属度和聚类中心,从而实现聚类分析。然而,传统的模糊C均值聚类算法存在收敛速度慢、对初始聚类中心敏感等问题。
改进的模糊聚类算法
为了克服传统模糊C均值聚类算法的不足,研究者们提出了许多改进的模糊聚类算法。例如,基于遗传算法的模糊聚类算法、基于粒子群优化的模糊聚类算法等。这些改进算法在收敛速度、聚类效果等方面都有所提升。
基于模糊聚类的其他应用领域
除了在数据分析和模式识别领域,模糊聚类算法还被广泛应用于其他领域。例如,在图像分割、模式识别、生物信息学等领域都有模糊聚类算法的应用。这些应用领域的研究为模糊聚类算法的发展提供了新的方向和挑战。
图描述了一个凝聚模糊聚类方法AGENES和一个分裂模糊聚类方法DIANA在一个包括五个对象的数据的集合{a,b,c,d,e}上的处理的过程。初始时,AGENES将每个样本点自为一簇,之后这样的簇依照某一种准则逐渐合并,例如,例如簇C1中的某个样本点和簇C2中的一个样本点相隔的距离是所有不同类簇的样本点间欧几里得距离最近的,则认为簇C1和簇C2是相似可合并的。
实验及结果分析
C2C电子商务信用评价模型的基本原理是:确认收货之后,买方可以根据模型内的评价指标,如商品质量,物流速度,售后服务等方面,在一定时间内,根据自身交易完成情况为卖家评价,也可以双方互评以形成信用记录。交易双方的信用反馈都会按模型设定的计算方式累计,以反映该用户的信用状况,以便其他交易方做选择时参考。
目前淘宝网所采用的信用评价模型是累加模型,即原有的信用积分基础上直接进行加减,其模型表示如下:
其中:Rn、Rn-1分别表示淘宝用户截止到第 n、n-1 次交易之后所获得的信用得分,rn{-1,0,1}表示{差评,中评,好评},即当 rn获得“差评”时在原来信用积分的基础上加上“-1”分,用户获得中评时,就在原来信用积分的基础上加“0”分,当用户获得好评时,在原来信用积分的基础上加“+1”分。累加模型能够简单直观的展现交易双方的信用积分,一定程度上可作为交易双方的信用参考。
实验平台
MATLAB是matrix&laboratory两个词的组合,意为矩阵工厂(矩阵实验室)。是由美国mathworks公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将数值分析、矩阵计算、科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中,为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案,并在很大程度上摆脱了传统非交互式程序设计语言(如C、Fortran)的编辑模式,代表了当今国际科学计算软件的先进水平。
构建指标体系
由于本文主要是基于 C2C 电子商务交易过程中的信用问题,从交易主体的角度来对 C2C 电子商务信用风险进行评价,目前淘宝网的信用评价指标体系主要由三个指标构成,分别是:与图片相符程度、服务态度以及发货速度,如下图所示:
而在实际网购过程中可以发现这三个指标并不能让消费者对于物品的进行准确评价,消费者往往需要额外进行大片文字的叙述来评价商品以及服务。
故此,本文根据消费者评论文字中经常出现的关键词新增了评价指标,选择了商品属性,卖家服务以及物流服务作为相应准则层,具体的指标体系如下:
数据集搜集及预处理
本文以日常生活使用较多的淘宝网为例,按照指标体系中所列指标进行数据获取,其中与图片相符程度,服务态度以及发货速度三个指标在淘宝网上能够直接获取,其他指标由于淘宝网上没有直接数据,故选择了10家本人及朋友购买过的淘宝服装店铺,针对其他指标给出自己的评分,将所有指标的评分原始数据汇总,计算平均值,所得数据汇总如下:
实验过程(关键参数设置)
一次聚类算法是一种无监督的层次聚类算法,需要事先给定层次聚类数C。
% 计算样本点距离聚类中心的距离
% 输入:
% center ---- 聚类中心
% data ---- 样本点
% 输出:
% out ---- 距离
out = zeros(size(center, 1), size(data, 1));
for k = 1:size(center, 1), % 对每一个聚类中心
f = U.^expo; % 隶属度矩阵进行指数运算结果
dist = distfcm(center, data); % 计算距离矩阵
%将options 中的分量分别赋值给四个变量;
expo = options(1); % 隶属度矩阵U的指数
max_iter = options(2); % 最大迭代次数
min_impro = options(3); % 隶属度最小变化量,迭代终止条件
display = options(4); % 每次迭代是否输出信息标志
objfcn = zeros(max_iter, 1); % 初始化输出参数obj_fcn
由于数据集各指标值的量纲相同,因此不需要对相关指标值进行标准化处理,得到如图所示的结果
相应的层次聚类谱系图如图所示:
plot(data(:,1), data(:,2),'o');
hold on;
maxU = max(U);
index1 = find(U(1,:) == maxU);
index2 = find(U(2,:) == maxU);
line(data(index1,1),data(index1,2),'marker','*','color','g');
line(data(index2,1),data(index2,2),'marker','*','color','r');
plot([center([1 2],1)],[center([1 2],2)],'*','color','k')
结果分析
对于现有指标体系,增加了新的指标如:售后服务,送货速度,包装完整度等,使得指标体系更完全,通过淘宝10个卖家的指标数据的处理,得出最终的信用综合评分,由排名可以看见第四家得分最高,而第四家由于其商品质量高,价格却很便宜,在服务态度以及物流服务方面都深得买家的喜欢,排名最低的第一家买家其销量非常高,但是由于商品质量不过关,使得商品的质量与其价格不对称,而且卖家售后服务态度恶劣,由此可以看出淘宝现有的信用评价体系能够给买家提供一定的参考,但是如果能够增加一些指标,将会对买家起到更好的参考作用。
总结
本文总结了简单介绍了层次聚类算法国内外研究现状,重点介绍了层次聚类算法的基本原理与实现流程。同时,针对 C2C 电子商务中所出现的信用风险问题,提出使用信用评价体系来降低信用风险。并简述了国内外在信用评价方面的研究现状。基于现有的评价指标体系,添加新指标,给出了更为全面完善的指标体系。以淘宝网为例,采集数据,应用层次聚类对10家店铺进行聚类分析。对比最终结果和实际购买体验,证明了淘宝现有信用评价模型对于消费者选择卖家时有一定的指导意义,但是体系有明显提升空间。
参考文献
[1] Pang-Ning Tan Michael Steinbach Vipin Kumar著.范明,范宏建等译.数据挖掘导论[M].北京:人民邮电出版社,2006.
[2]J.Han,M.Kamber著.范明,孟小峰等译.数据挖掘概念与技术[M].北京:机械工业出版社,2001:1~262.
[3] 张鑫.层次聚类算法的研究与应用[D]:[硕士学位论文].江西:江西理工大学,2008.
[4] 段明秀.层次聚类算法的研究及应用[D]:[硕士学位论文].长沙:中南大学,2009.
[5] 杨海斌.一种新的层次聚类算法的研究及应用[D]:[硕士学位论文].甘肃:西北师范大学,2011.
[6] 马晓艳,唐雁.层次聚类算法研究[J].计算机科学,2008,34(7):34~36.
[7] 魏桂英,郑玄轩.层次聚类方法的CURE算法研究[J].科技和产业,2005,5(11):22~24.
[8] 蒋盛益,李霞.一种改进的BIRCH聚类算法[J].计算机应用,2009,29(1):293~296.
最受欢迎的见解
2.R语言基于温度对城市层次聚类、kmean聚类、主成分分析和Voronoi图
3.R语言对用电负荷时间序列数据进行K-medoids聚类建模和GAM回归
5.Python Monte Carlo K-Means聚类实战
7.R语言KMEANS均值聚类和层次聚类:亚洲国家地区生活幸福质量异同可视化
8.PYTHON用户流失数据挖掘:建立逻辑回归、XGBOOST、随机森林、决策树、支持向量机、朴素贝叶斯模型和KMEANS聚类用户画像
标签:信用,模糊,指标体系,算法,MATLAB,聚类,评价,FCM From: https://www.cnblogs.com/tecdat/p/17484491.html