首页 > 其他分享 >SAS逻辑回归logistic在对鲍鱼年龄识别中的应用可视化

SAS逻辑回归logistic在对鲍鱼年龄识别中的应用可视化

时间:2023-12-20 23:33:26浏览次数:44  
标签:逻辑 回归 分类 Numeric 可视化 logistic SAS 鲍鱼 年龄

全文链接:https://tecdat.cn/?p=34623

原文出处:拓端数据部落公众号

逻辑回归具有适合于解决复杂的非线性问题的特点,因此,在这里根据鲍鱼的多个生理特征,如性别、重量、直径等信息,采用逻辑回归的方法,对鲍鱼的年龄进行分类预测,以满足商家对鲍鱼的分类。本文先介绍一个简单的逻辑回归,利用SAS软件对鲍鱼数据进行操作。

引言

鲍鱼是一种原始的海洋贝类,单壳软体动物,只有半面外壳,壳坚厚,扁而宽。是我国著名的海产八珍之一,味道清新,肉质鲜嫩,不仅美味佳肴,而且有治病功用,可治阴虚内热、废墟咳嗽等症。鲍鱼外形呈有螺旋形,结构有单个外壳、吸盘上足、触角等构成。鲍鱼还有极高的应该价值,、鲍鱼含有丰富的蛋白质,还有较多的钙、铁和维生素A等营养元素。

随着社会的进步,人们物质生活的日益丰富,人类对食物的要求越来越高。鲍鱼是中国传统的名贵食材,四大海味之首,鲍鱼的肉很好吃,自古以来人们都非常喜欢食用。但它的自然产量较小,远远不能满足需要,所以人们都想办法养殖它,目前在日本已对鲍鱼的养殖做了很多工作。我国在这方面也进行了一些工作,为鲍鱼养殖建立了一定的条件。

由于人工饲养的鲍鱼与野生的鲍鱼的个头有所不同,野生鲍鱼的个头明显大于人工饲养的,且鲍鱼种类繁多,且鲍鱼的肉质受年龄的影响较大。所以,我们需要一种简单快速的分类方法,通过对鲍鱼的性别、重量、直径、高度等生理特征分析,将鲍鱼以年龄分离开来,满足商家对鲍鱼的分类包装销售,以满足不同人群对不同种类鲍鱼的需求。

鲍鱼数据集与预处理

鲍鱼数据集是鲍鱼的各方面生理特征与它们年龄之间的一个关系。其中,我们可以由它的“年轮”得出其年龄。鲍鱼的属性信息如表1所示。

由于鲍鱼年龄从一岁到二十九岁,即目标向量元素过多,会由于两个相邻年龄里面属性相近,而易导致分类错误。所以,在数据预处理阶段,我们按鲍鱼的年龄段进行分类,即以四个年龄为一个年龄段(共七个年龄段)。鲍鱼的性别方面,幼鲍对应1,雄性对应2,雌性对应3。

image.png

基本理论

Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可 能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。(注意这里是:“可能性”,而非数学上的“概率”,logisitc回归的结果并非 数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘) 。

逻辑回归其实仅为在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,逻辑回归成为了机器学习领域一颗耀眼的明星,更是计算广告学的核心。对于多元逻辑回归,可用如下公式似合分类,其中公式(4)的变换,将在逻辑回归模型参数估计时,化简公式带来很多益处,y={0,1}为分类结果。

image.png

算法以及步骤

Regression问题的常规步骤为:

  1. 寻找h函数(即hypothesis);
  2. 构造J函数(损失函数);
  3. 想办法使得J函数最小并求得回归参数(θ)

Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题(即输出只有两种,分别代表两个类别),所以利用了Logistic函数(或称为Sigmoid函数),函数形式为:

image.png

Sigmoid 函数在有个很漂亮的“S”形,如下图所示(引自维基百科):

image.png

逻辑回归在识别鲍鱼年龄中的应用

我们现在用SAS自带的逻辑回归函数对鲍鱼的数据进行操作。鲍鱼数据70%作为训练集,15%作为验证集,15%作为测试集,然后进行训练。

将来自abalone.csv的数据加载到SAS中,并根据下表分配变量名称和格式。

Name Data Type Description
Sex Categorical M, F, and I (infant)
Length Numeric (continuous) mm Longest shell measurement
Diameter Numeric (continuous) mm perpendicular to length
Height Numeric (continuous) mm with meat in shell
WT_Whole Numeric (continuous) grams whole abalone
WT_Shuck Numeric (continuous) grams weight of meat
WT_Vscra Numeric (continuous) grams gut weight (after bleeding)
WT_Shell Numeric (continuous) grams after being dried
Rings Numeric (integer) +1.5 gives the age in years

读取数据

   
**data**  abalone;

infile "J:\abalone.csv" DSD delimiter=','

image.png

使用 PROC CORR 对各个变量的相关性进行探索。

   
**proc** **corr** data=abalone nomiss

image.png

这是鲍鱼尺寸和重量的一般描述性概述。很容易注意到,与雌性或雄性相比,幼体具有最小的长度、直径和高度。

image.png

然后使用逻辑回归对数据进行分析,得到如下的结果:

   
**proc** **glm** data=abalone;

image.png

image.png

通过二元逻辑斯蒂回归,雌性被低估,而雄性被高估。

QQ截图20231128144503.png

最后使用模型我们可以预测样本性别:

image.png

总结与分析

本次对鲍鱼年龄进行识别分类的实验中,由于鲍鱼年龄从1至29岁不等,所以造成分类的困难度增大。所以,在对数据进行训练之前,先把鲍鱼的年龄按年龄段分。虽然现在只有4个年龄段,但是,每个年龄段中相差较大的两个年龄之间它们的属性相差很大,所以造成分类的错误率增大,最终造成整体的正确率较低,而且不容易更正。

参考文献 (References)

[1]     Jiawei Han, Micheline Kamber. 数据挖掘概念与技术. 北京: 机械工业出版社, 2007.3

[2]     Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction to Data Mining. 北京:机械工业出版社,  2009.9


what-is-digital-transformation-1459532837-standard-1536x1536.webp 最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言回归中的Hosmer-Lemeshow拟合优度检验

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.在R语言中实现Logistic逻辑回归

8.python用线性回归预测股票价格

9.R语言如何在生存分析与Cox回归中计算IDI,NRI指标

标签:逻辑,回归,分类,Numeric,可视化,logistic,SAS,鲍鱼,年龄
From: https://www.cnblogs.com/tecdat/p/17917877.html

相关文章

  • 南凌科技推出首款Arm架构SASE BOX,打造5G专网跨域解决方案
    SASE是一种新兴的网络安全架构,旨在为远程用户提供安全的网络访问,简化网络安全设备的部署和管理。在SASE市场,云网基础、全域服务是南凌科技SASE服务的优势所在。南凌科技正凭借优质的平台资源、强大的研发实力、灵活的资源整合能力以及专业的一站式服务在SASE赛道多方势力的竞逐中脱......
  • EasyV+UE创造数字孪生可视化新篇章!
    众所周知,UE是UNREAL ENGINE(虚幻引擎)的简写,由Epic开发,是世界知名授权最广的游戏引擎之一。EasyV是一款数据可视化应用平台,用户通过EasyV可以更高效的实现数据可视化项目搭建,产品内有丰富的模版、海量的组件、简单的操作、多样的数据源等多种功能,是一款专业的数字孪生低代码可视化平......
  • 数据可视化爆发式发展背后原因探析
    现在,数据可视化作为一种强大的工具逐渐走进人们的视野,其爆发式发展背后涌现了多种原因值得探讨,今天我就以可视化从业者的视角来简单谈谈数据可视化爆发式发展背后的原因。首先是互联网和传感技术的普及,令大量数据源不断涌现,例如IOT设备、传感器等。这使得数据规模巨大且类型多样......
  • R语言群组变量选择、组惩罚group lasso套索模型预测分析新生儿出生体重风险因素数据和
    原文链接:http://tecdat.cn/?p=25158原文出处:拓端数据部落公众号 本文拟合具有分组惩罚的线性回归、GLM和Cox回归模型的正则化路径。这包括组选择方法,如组lasso套索、组MCP和组SCAD,以及双级选择方法,如组指数lasso、组MCP。还提供了进行交叉验证以及拟合后可视化、总结和预测的实......
  • 支持可视化提取变量,Apipost配置变量不要太简单
    在调试接口时我们需要将响应结果中的某个字段配置为环境变量在其他接口中引用,之前在Apipost中需要配置脚本而在最近Apipost后执行操作中可以进行可视化的断言和变量提取,无需配置繁琐脚本。这里我们在登录接口下配置一条Token环境变量,在后执行脚本-添加操作项-选择提取变量 输......
  • 阿里-可视化建模-数据准备与预处理
    通常情况下,在构建一个模型时,您需要准备好用于模型构建和调试所需要使用的数据,并完成数据的预处理,以便后续根据业务需求进行模型开发所需的进一步加工。本示例以PAI为您提供的公开数据为例,演示数据准备与预处理的操作步骤。前提条件已经新建了一个工作流,详情请参见新建自定义工......
  • 阿里-可视化建模-评估模型
    登录PAI控制台,进入工作流页面。操作详情请参见step1:进入工作流页面。构建预测节点。在组件列表中分别搜索预测组件,找到后将其拖入画布,并将生成的节点作为拆分-1、逻辑回归二分类-1节点的下游节点,拼接为实验。单击画布中的预测-1节点,在右侧节点配置中,分别单击特征列字段、......
  • 阿里-可视化建模-模型部署及训练
    快速开始预置了多种预训练模型。您可以基于预训练模型快速上手并使用PAI的训练和部署功能。本文为您介绍如何在快速开始查找适合您业务需求的模型、部署和调试模型、微调训练模型。前提条件如果您需要对模型进行微调训练或增量训练,需要创建OSSBucket存储空间,具体操作请参见控......
  • 安防视频监控/可视化监控云平台EasyCVR播放鉴权与播放限制功能详细介绍
    视频监控GB28181视频管理平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,在视频监控播放上,智能监控平台可支持1、4、9、16个画面窗口播放,可同时播放多路视频流,也能支持视频定时轮播。视频监控汇聚平台EasyCVR支持多种播放协议,包括:HLS、HTTP-FLV......
  • 智慧安防视频监控可视化平台EasyCVR调用接口返回“Unauthorized”是什么原因?
    智慧安防视频监控可视化平台EasyCVR采用了开放式的网络结构,平台能在局域网、公网、专网等复杂的网络环境中,将场景中分散的海量网络监控设备进行统一接入与汇聚管理,并能提供实时远程视频监控、视频录像、录像回放与存储、告警、语音对讲、云台控制、平台级联、磁盘阵列存储、视频集......