首页 > 其他分享 >【视频】N-Gram、逻辑回归反欺诈模型文本分析招聘网站欺诈可视化|附数据代码

【视频】N-Gram、逻辑回归反欺诈模型文本分析招聘网站欺诈可视化|附数据代码

时间:2024-04-23 22:44:20浏览次数:20  
标签:欺诈 变量 模型 conc 可视化 Gram 数据 回归

原文链接:https://tecdat.cn/?p=36028

原文出处:拓端数据部落公众号

随着互联网的快速发展,招聘网站已成为求职者与雇主之间的重要桥梁。然而,随之而来的欺诈行为也日益猖獗,给求职者带来了极大的困扰和风险。因此,如何帮助客户有效地识别和防范招聘网站上的欺诈行为,已成为一个亟待解决的问题。

image.png

逻辑回归模型作为一种强大的分类工具,在识别欺诈行为方面具有独特的优势。它能够根据输入的特征,通过训练和学习,自动发现数据中的规律和模式,从而实现对欺诈行为的准确预测。在招聘网站的欺诈检测中,逻辑回归模型可以帮助我们快速识别出潜在的欺诈行为,保护求职者的合法权益。

本文将通过视频讲解,展示如何用N-Gram、逻辑回归模型分析招聘网站欺诈可视化,并结合R语言逻辑回归logistic模型ROC曲线可视化分析2个例子的代码数据,为读者提供一套完整的实践数据分析流程。

一、数据整理

首先,我们从招聘网站上收集了大量数据,包括职位名称、职位描述、行业分类、岗位要求等信息。接下来,我们对数据进行了清洗和预处理,去除空值、重复项和异常值,确保数据的准确性和完整性。

image.png

二、探索性数据分析

为了深入了解数据的分布和特征,我们进行了探索性数据分析。使用直方图、箱线图等可视化工具,我们分析了各个特征的分布情况,包括职位数量、行业分布、薪资水平等。此外,我们还利用词云图对职位描述中的关键词进行了可视化展示,以便更直观地了解招聘市场的热点和趋势。

image.png

image.png

image.png

三、特征工程

特征工程是机器学习建模的关键步骤。我们首先对文字信息进行了预处理,包括分词、去除停用词、词干提取等。接着,我们利用N-Gram分析提取了职位描述中的词组特征,以捕捉更多的语义信息。此外,我们还进行了特征合并,将行业、岗位和描述信息结合起来,形成更具代表性的特征。在特征选择方面,我们根据相关性分析和重要性评估,去除了不相关的特征,以降低模型的复杂度。

image.png

四、建模

在本研究中,我们选择了逻辑回归模型作为分析工具。逻辑回归是一种广泛应用于分类问题的机器学习算法,它能够根据输入特征预测目标变量的概率分布。我们将经过特征工程处理后的数据输入到逻辑回归模型中,通过训练和优化模型参数,使其能够准确识别招聘网站上的欺诈行为。

image.png

五、模型评估

为了评估模型的性能,我们使用了混淆矩阵来衡量准确性。混淆矩阵展示了模型在不同类别上的分类结果,包括真正例、假正例、真反例和假反例。通过计算准确率、召回率、F1值等指标,我们全面评估了模型在识别招聘欺诈方面的表现。此外,我们还对模型的稳定性进行了检验,确保其在不同数据集上都能保持较好的性能。

image.png

六、结论与展望

通过逻辑回归模型的分析,我们成功地识别了招聘网站上的欺诈行为,并揭示了欺诈行为的一些典型特征。这为招聘网站和求职者提供了有益的参考,有助于维护招聘市场的公平和诚信。然而,本研究还存在一些局限性,如数据来源的单一性、模型假设的简化等。未来,我们将进一步拓展数据来源,优化模型结构,提高模型的泛化能力和鲁棒性,以更好地应对招聘欺诈问题。

R语言逻辑回归logistic模型ROC曲线可视化分析2例:麻醉剂用量影响、汽车购买行为

本文利用R语言,通过逐步逻辑回归模型帮助客户分析两个实际案例:麻醉剂用量对手术病人移动的影响以及汽车购买行为预测。通过构建模型并解释结果,我们探究了各自变量对因变量的影响程度。同时,借助ROC曲线可视化分析,评估了模型的预测性能。本文旨在为相关领域的研究提供方法学参考和实际应用指导。

R语言分析麻醉剂用量(conc)对手术病人是否移动(nomove)的影响

在医学实践中,麻醉剂用量的精确控制对于手术过程的顺利进行和病人的术后恢复至关重要。随着医疗技术的不断发展,数据分析和统计学方法在医学研究中的应用日益广泛。本文旨在通过逻辑回归模型,探究麻醉剂用量(conc)对手术病人是否移动(nomove)的影响。逻辑回归是一种广泛应用于二元响应变量分析的统计方法,它可以帮助我们理解自变量与因变量之间的概率关系。本文使用的数据集包含了一组医学数据,其中变量conc表示麻醉剂的用量,而nomove作为因变量,用于表示手术病人是否有所移动。

首先载入数据集并读取部分文件,为了观察两个变量之间关系,我们可以利cdplot函数来绘制条件密度图

   
head(anesthetic)

image.png

   
chart.Correlation(anesthetic,  
                  method="spearman",  
                  histogram=TRUE,  
                  pch=16)
                  

image.png

   
cdplot(factor(nomove)~conc,data=anesthetic,main='条件密度图',ylab='病人移动',xlab='麻醉剂量')

image.png

从图中可见,随着麻醉剂量加大,手术病人倾向于静止。下面利用logistic回归进行建模,得到intercept和conc的系数为-6.47和5.57,由此可见麻醉剂量超过1.16(6.47/5.57)时,病人静止概率超过50%。

image.png

偏差残差:这是逻辑回归模型拟合后每个观测值与模型预测值之间的差异。从最小值-1.76666到最大值2.06900,我们可以看到数据点的分布。通常,我们希望这些残差接近0,并且分布均匀。

系数

  • 截距 (Intercept) : -6.469。这是当模型中的其他变量都为0时,预测值的起点。这里的截距为负,可能意味着在没有其他因素影响时,某个特定的结果(例如,响应变量为1的概率)是较低的。
  • conc: 5.567。这是anes1数据集中conc变量的系数。它表示当conc每增加一个单位时,响应变量(通常是二元结果,如1或0)的对数几率平均增加5.567个单位。这通常意味着conc与响应变量之间存在正相关关系。

显著性代码:输出还提供了系数的显著性水平。例如,'***' 表示该系数的p值小于0.001,是非常显著的。这意味着我们可以非常确信conc与响应变量之间的关系不仅仅是偶然的。

分散参数:对于二项分布家族,分散参数通常被设为1,这里也是如此。

偏差统计

  • Null偏差:这是仅包含截距的模型的偏差,用于比较完整模型的效果。在这里,Null偏差为82.911,表示在没有其他预测变量的情况下,模型与数据的拟合程度。
  • 残差偏差:这是包含所有预测变量的完整模型的偏差。残差偏差为55.508,比Null偏差小,说明添加conc变量后,模型对数据的拟合度有所提高。

AIC (赤池信息准则) :这是一个衡量模型拟合度的指标,同时考虑了模型的复杂性和拟合度。较低的AIC值通常表示模型更好。这里的AIC为59.508。

Fisher评分迭代次数:在逻辑回归模型拟合过程中,算法使用了5次迭代来收敛到最终的系数估计。

综上所述,anes1数据集中的conc变量与响应变量之间存在显著的正相关关系,而逻辑回归模型在拟合数据方面表现良好。这些结果提供了关于conc如何影响响应变量的有用信息。

对模型做出预测结果

根据不同的临界值threshold来计算TPR和FPR,之后绘制成图

   
for (i in 1:n){  
   
  threshold=data$prob[i]  
   
  tp=sum(data$prob>threshld&data$obs==1)  
   
  fp=sum(data$prob>thresold&data$obs==0)  
   
  tn=sum(data$prob)

image.png

image.png

上面的方法是使用原始的0-1数据进行建模,即每一行数据均表示一个个体,另一种是使用汇总数据进行建模,先将原始数据按下面步骤进行汇总

  js
gate(aneshetic[,c('move','nostheic$conc),FUN=sum)

对于汇总数据,有两种方法可以得到同样的结果,一种是将两种结果的向量合并做为因变量,如anes2模型。另一种是将比率做为因变量,总量做为权重进行建模,如anes3模型。这两种建模结果是一样的。

image.png

根据logistic模型,我们可以使用predict函数来预测结果,下面根据上述模型来绘图:

下载.png

R语言逻辑回归模型分析汽车购买行为

数据描述

用R语言做logistic regression,建模及分析报告,得出结论,数据有一些小问题,  现已改正重发:改成以“是否有汽车购买意愿(1买0不买)”为因变量,以其他的一些  项目为自变量,来建模分析,目的是研究哪些变量对用户的汽车购买行为的影响较为  显著。

问题描述

  我们尝试并预测个人是否可以根据数据中可用的人口统计学变量使用逻辑回归预测是否有汽车购买意愿(1买0不买)。 在这个过程中,我们将:
1.导入数据
2.检查类别偏差
3.创建训练和测试样本
4.建立logit模型并预测测试数据
5.模型诊断

数据描述分析

查看部分数据

image.png

对数据进行描述统计分析:

 

image.png

从上面的结果中我们可以看到每个变量的最大最小值中位数和分位数等等。

image.png

检查类偏差

 

理想情况下,Y变量中事件和非事件的比例大致相同。 所以,我们首先检查因变量是否有汽车购买意愿中的类的比例。

 

image.png

显然,不同购买意愿.人群比例 有偏差 。 所以我们必须以大致相等的比例对观测值进行抽样,以获得更好的模型。

建模分析

创建训练和试验样本

解决类别偏差问题的一个方法是以相等的比例绘制训练数据(开发样本)的0和1。 在这样做的时候,我们将把其余的inputData不包含在testData 中。

构建Logit模型和预测

全变量模型

 

image.png

从全变量模型的结果来看,可以发现得到的模型变量并不显著,因此需要重新建模

筛选出显著的变量:

逐步回归筛选后模型

  image.png

从上面的回归结果中,我们可以看到公共汽.电.车车辆数.辆.,公交客运总量.万人次. ,私人汽车保有量.辆.,地铁长度 ,日最高温度.F.的最大值 ,摩托车数量  对是否有汽车购买意愿有重要的影响。从中同时可以看到公交客运总量.万人次. ,私人汽车保有量.辆.,地铁长度 , 日最高温度.F.的最大值和是否有汽车购买意愿存在正相关的关系。

确定模型的最优预测概率截止值

默认的截止预测概率分数为0.5或训练数据中1和0的比值。 但有时,调整概率截止值可以提高开发和验证样本的准确性。InformationValue :: optimalCutoff功能提供了找到最佳截止值以提高1,0,1和0的预测的方法,并减少错误分类错误。 可以计算最小化上述模型的错误分类错误的最优分数。

 

   
misClassError(testData$是否有汽车购买意愿.1买0不买., predicted, threshold = optCutOff)

image.png

ROC

ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

image.png

上述型号的ROC曲线面积为61%,相当不错。

 

一致性

简单来说,在1-0  的所有组合中,一致性是预测对的百分比 ,一致性越高,模型的质量越好。

 

image.png

 上述的61%的一致性确实是一个很好的模型。

特异性和敏感性

敏感度(或真正正率)是模型正确预测的1(实际)的百分比,而特异性是0(实际)正确预测的百分比。 特异性也可以计算为1-假阳性率。

 

   
 specificity(testData$是否有汽车购买意愿.1买0不买., predicted, threshold = optCutOff)

image.png

 

 以上数字是在不用于训练模型的验证样本上计算的。 所以测试数据的真实检测率为99%是好的。


QQ截图20220226113029.png

关于分析师

image.png

Zhuo Chen是拓端研究室(TRL)的研究员。在此对他对本文所作的贡献表示诚挚感谢,他在UCSD完成了商业分析专业的硕士学位,专注数据分析, 客户分析, 非结构性数据分析,推荐系统, 商业分析, 金融相关领域。擅长R语言、 Python、 SQL、 Tableau。

标签:欺诈,变量,模型,conc,可视化,Gram,数据,回归
From: https://www.cnblogs.com/tecdat/p/18153975

相关文章

  • 与开源数据可视化平台深度融合,进入流程办公新时代!
    进入新时代,需要有新的软件平台实现创新智造。开源数据可视化平台是流行于各中小型企业中的快速框架软件平台,够灵活、易操作、好维护、可视化操作界面等多个优势特点,在降本增效、减少成本支出、实现流程化办公等方面具有事半功倍的应用价值和效果。流辰信息作为专业的服务商,将不遗......
  • English Grammar Analysis
    目录各种功能词的认识名词(Noun)冠词(Article)代词(Pronoun)动词(Verb)介词(Preposition)形容词(Adjective)副词(Adverb)量词(Quantifier)情态动词(ModalVerb)连词(Conjunction)感叹词(Interjection)数词(Numeral)句型动词不定式动名词分词名词性从句定语从句和关系代词定语从句和关系副词状语从句虚拟语......
  • 【rust】《Rust深度学习[3]-数据可视化(Plotters)》
    什么是Plotters?Plotters是一个用纯Rust开发的图形库,用于中渲染图形、图表和数据可视化。它支持静态图片渲染和实时渲染,并支持多种后端,包括:位图格式(png、bmp、gif等)、矢量图(svg)、窗口和HTML5Canvas。Plotters对不同后端使用统一的高级API,并允许开发者自定义坐标系。在Plotters......
  • 领略未来办公魅力:办公楼3D可视化技术解析
    在数字化浪潮的推动下,办公楼的设计和管理也在经历着前所未有的变革。 想象一下,你站在一个虚拟的办公楼前,手指轻轻一点,就能深入其中,看到每一层、每一间办公室的布局,甚至每一个设备的运行状态。这不仅仅是一个简单的画面展示,更是一种全新的办公体验和管理方式的革新。 3D可视......
  • NET6 Hangfire 可视化配置
    Nuget<PackageReferenceInclude="Hangfire"Version="1.8.5"/><PackageReferenceInclude="Hangfire.AspNetCore"Version="1.8.5"/><PackageReferenceInclude="Hangfire.Console"Version="1......
  • 解锁化学密码:元素周期表可视化的魅力之旅
    你是否曾经被复杂的元素周期表所困扰,想要一窥化学世界的奥秘却又无从下手?如今,随着科技的进步,我们有了更直观、更生动的方式来探索这个神秘的领域。 元素周期表可视化,就是将传统的元素周期表以图形化的方式呈现出来。它不再是一张单调乏味的表格,而是一个充满活力、色彩斑斓的世......
  • The 18-th Beihang University Collegiate Programming Contest (BCPC 2023) - Final
    https://codeforces.com/gym/104883A#include<bits/stdc++.h>usingnamespacestd;usingi32=int32_t;usingi64=longlong;usingvi=vector<int>;i32main(){ios::sync_with_stdio(false),cin.tie(nullptr);i64n,sum=0;c......
  • YOLO可视化界面
    此版本的可视化界面比较麻烦,需要安装gpu版的torch和torchvision包(1)将可视化代码下载到本地文件夹中并解压;(2)在终端激活yolov8的运行环境,可通过anaconda终端激活或pycharm终端进入。任意一种方式进入终端后,依次运行以下三条命令进行依赖库安装pipinstall-rrequirements.txt......
  • YOLOv8可视化界面
    1.配置运行环境在终端安装streamlit和ultralytics两个库streamlit库的安装命令:pipinstallstreamlit==1.22.0-ihttps://pypi.tuna.tsinghua.edu.cn/simpleultralytics库的安装命令:pipinstallultralytics-ihttps://pypi.tuna.tsinghua.edu.cn/simple2.运行可视化界面(1......
  • 深度学习-nlp-NLP之实现skip-gram--74
    目录1.数据的获取2.数据加载3.制作数据集4.制作训练集5.模型定义6.训练模型7.可视化8.结果1.数据的获取#导入一些需要的库#由于Python是由社区推动的开源并且免费的开发语言,不受商业公司控制,因此,Python的改进往往比较激进,#不兼容的情况时有发生。Python为了确保......