首页 > 其他分享 >阿里-可视化建模-数据准备与预处理

阿里-可视化建模-数据准备与预处理

时间:2023-12-19 17:59:48浏览次数:37  
标签:归一化 建模 预处理 画布 数据表 可视化 SQL 组件 节点

通常情况下,在构建一个模型时,您需要准备好用于模型构建和调试所需要使用的数据,并完成数据的预处理,以便后续根据业务需求进行模型开发所需的进一步加工。本示例以PAI为您提供的公开数据为例,演示数据准备与预处理的操作步骤。

前提条件

已经新建了一个工作流,详情请参见新建自定义工作流

step1:进入工作流页面

  1. 登录PAI控制台,在左侧导航栏单击工作空间列表,再单击待操作的工作空间名称,进入对应工作空间内。

  2. 在工作空间页面的左侧导航栏选择模型开发与训练 > 可视化建模(Designer),进入Designer页面。

  3. 在工作流列表页面,选中对应工作流后,单击进入工作流即可进入工作流页面。

step2:准备数据

本示例使用PAI为您提供的心脏病案例的公开数据。您无需新建表、写入表数据,可直接使用读数据表来读取此公开数据,作为数据准备。

说明

通常情况下,您需要准备一个MaxCompute表或OSS表,并通过源/目标组件下的读数据表、写数据表、读OSS数据等组件来查询或写入数据到表中,操作详情可参见源/目标对应组件文档。

43a466b14a69a9811948b46d83377753.png
  1. 在左侧组件列表的搜索框中,搜索读数据表,找到读数据表组件。

  2. 将读数据表组件拖入右侧画布中,画布中自动生成一个名称为读数据表-1的工作流节点。

  3. 在画布中选中读数据表-1节点,在右侧节点配置页面中的表名中输入pai_online_project.heart_disease_prediction,读取公开的心脏病案例的数据表。

    您也可以将右侧的节点配置页面切换到字段信息页签,查看此公开数据的字段详情。

step3:数据预处理

本示例使用的原始数据为公开的心脏病案例的数据,数据预处理以将所有字段取值归一化为例,为您展示数据预处理的步骤。本示例的数据预处理主要包括三个处理流程:

  1. 将原始数据表中,取值为非数值类型的字段,通过SQL替换为数值类型的取值,以保证此预处理后,表中所有字段的取值都是数值类型。

  2. 将表中字段转换为double类型,以保证此预处理后,表中字段均满足后续归一化处理的字段属性要求。

  3. 将表中字段的取值均归一化。

详细操作如下。

  1. 数据预处理:转换非数值类型字段。2701eea1a4d4a49c8892983094eceffa.png

    1. 在左侧组件列表的搜索框中,搜索SQL脚本,找到SQL脚本组件。

    2. 将SQL脚本组件拖入右侧画布中,画布中将自动生成一个名称为SQL脚本-1的工作流节点。

    3. 通过连线,将SQL脚本-1节点的t1输入源作为读数据表-1节点的下游节点。

    4. 在画布中选中SQL脚本-1节点(此时在画布右侧参数设置页面的输入源为t1),在右侧节点配置页面中的SQL脚本输入框中输入以下SQL代码。

         
      select age,
      (case sex when 'male' then 1 else 0 end) as sex,
      (case cp when 'angina' then 0  when 'notang' then 1 else 2 end) as cp,
      trestbps,
      chol,
      (case fbs when 'true' then 1 else 0 end) as fbs,
      (case restecg when 'norm' then 0  when 'abn' then 1 else 2 end) as restecg,
      thalach,
      (case exang when 'true' then 1 else 0 end) as exang,
      oldpeak,
      (case slop when 'up' then 0  when 'flat' then 1 else 2 end) as slop,
      ca,
      (case thal when 'norm' then 0  when 'fix' then 1 else 2 end) as thal,
      (case status  when 'sick' then 1 else 0 end) as ifHealth
      from  ${t1};
      说明

      SQL脚本-1节点有t1、t2、t3和t4四个输入源。在SQL代码示例中,${t1}表示输入源为t1。如果您从读数据表-1到SQL脚本-1连线的节点是t2或其他(在SQL脚本-1的参数设置页面的输入源会显示对应节点),需要修改SQL语句为对应节点。

    5. 单击画布上方的运行运行按钮,实验将根据工作流顺序依次运行读数据表-1、SQL脚本-1节点。

  2. 数据预处理:将所有字段转换为double类型。

    b4e7bb3e15838f4bfd46dcdec8eb60d6.png
    1. 在左侧组件列表的搜索框中,搜索类型转换,找到类型转换组件。

    2. 将类型转换组件拖入右侧画布中,画布中自动生成一个名称为类型转换-1的工作流节点。

    3. 通过连线,将类型转换-1节点作为SQL脚本-1节点的下游节点。

    4. 在画布中选中类型转换-1节点,在右侧节点配置页面中的字段设置页签,单击转换为double类型的列下的选择字段,将所有字段转换为double类型。

  3. 数据预处理:归一化。

    bbd133ada39f2d0da5853c21ee08e5b7.png
    1. 在左侧组件列表的搜索框中,搜索归一化,找到归一化组件。

    2. 将归一化组件拖入右侧画布中,画布中自动生成一个名称为归一化-1的工作流节点。

    3. 通过连线,将归一化-1节点作为类型转换-1节点的下游节点。

    4. 在画布中选中归一化-1节点,在右侧节点配置页面中的字段设置页签,选择所有字段。

  4. 在左侧组件列表的搜索框中,搜索拆分,找到拆分组件后拖入画布,并将其通过拉线作为归一化-1节点的下游节点。

    拆分组件默认将原始数据按4:1拆分为模型训练集和模型预测集。您也可以单击拆分组件,在右侧参数设置页签,设置切分比例。

  5. 单击画布上方的保存,保存工作流配置。

step4:调试运行工作流

右键单击画布中的类型转换-1组件,在快捷菜单中单击从此处开始执行,调试运行本工作流。582b14cc7ac747572e4f2f445ec374a5.png实验将根据工作流顺序依次运行各节点。当节点成功运行完成后,节点的右上角会出现成功提示运行成功。运行成功后,您可以右键各节点,选择查看数据,进一步查看当前节点的输出数据是否正确。

说明

当工作流比较复杂时,您可以每拖入一个组件配置完成一个节点后,就单击保存和运行,进行调试。如果运行失败,可右键节点查看日志,进行失败原因的排查处理。

标签:归一化,建模,预处理,画布,数据表,可视化,SQL,组件,节点
From: https://www.cnblogs.com/ExMan/p/17914334.html

相关文章

  • 阿里-可视化建模-评估模型
    登录PAI控制台,进入工作流页面。操作详情请参见step1:进入工作流页面。构建预测节点。在组件列表中分别搜索预测组件,找到后将其拖入画布,并将生成的节点作为拆分-1、逻辑回归二分类-1节点的下游节点,拼接为实验。单击画布中的预测-1节点,在右侧节点配置中,分别单击特征列字段、......
  • 阿里-可视化建模-模型部署及训练
    快速开始预置了多种预训练模型。您可以基于预训练模型快速上手并使用PAI的训练和部署功能。本文为您介绍如何在快速开始查找适合您业务需求的模型、部署和调试模型、微调训练模型。前提条件如果您需要对模型进行微调训练或增量训练,需要创建OSSBucket存储空间,具体操作请参见控......
  • 安防视频监控/可视化监控云平台EasyCVR播放鉴权与播放限制功能详细介绍
    视频监控GB28181视频管理平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,在视频监控播放上,智能监控平台可支持1、4、9、16个画面窗口播放,可同时播放多路视频流,也能支持视频定时轮播。视频监控汇聚平台EasyCVR支持多种播放协议,包括:HLS、HTTP-FLV......
  • 智慧安防视频监控可视化平台EasyCVR调用接口返回“Unauthorized”是什么原因?
    智慧安防视频监控可视化平台EasyCVR采用了开放式的网络结构,平台能在局域网、公网、专网等复杂的网络环境中,将场景中分散的海量网络监控设备进行统一接入与汇聚管理,并能提供实时远程视频监控、视频录像、录像回放与存储、告警、语音对讲、云台控制、平台级联、磁盘阵列存储、视频集......
  • 安防视频云平台/可视化监控云平台EasyCVR获取设备录像失败,该如何解决?
    视频云存储/安防监控EasyCVR视频汇聚平台基于云边端智能协同,支持海量视频的轻量化接入与汇聚、转码与处理、全网智能分发、视频集中存储等。GB28181音视频流媒体视频平台EasyCVR拓展性强,视频能力丰富,具体可实现视频监控直播、视频轮播、视频录像、云存储、回放与检索、智能告警、......
  • 可视化场景及解读
    数合建模及可视化是款免费的数据建模及可视化工具,那么什么是可视化呢?数据可视化有很多种方式,不同的图表可以展示出数据不同的特征:一、趋势类折线图,适合展示一段时间内的趋势,可以使用多条线来展示多个组的趋势。二、关系,数据中变量之间的关系条形图,适用于比较不同组对应的数量。饼图......
  • 刘方舟 VC++面向对象与可视化程序设计 黄维通
    注:由于题目不确定,整理知识点范围比较宽,适当选取1.内联函数     定义:定义在类体内的成员函数,即函数的函数体放在类体内     特点:在调用处用内联函数体的代码来替换,用于解决程序的运行效率问题。一定要在调用之前定义,并且内联函数无法递归调用。2.构造函数与析构......
  • R语言贝叶斯Metropolis-Hastings采样 MCMC算法理解和应用可视化案例
    贝叶斯MCMC模拟是一个丰富的领域,涵盖了各种算法,共同目标是近似后验模型。例如,使用的rstan包采用了一个HamiltonianMonteCarlo算法。用于贝叶斯建模的另一个rjags包采用了Gibbssampling算法。尽管细节有所不同,但这两种算法都是基于基本的Metropolis-Hastings算法的变体。主要思......
  • 聚类建模对智能助眠灯市场营销分析
    分析师:YueYu如何精准定位目标客户,准确量化客户需求来开发新的产品组合,并预测其可能的市场份额。解决方案任务/目标根据零售业务营销要求,运用多种数据源分析向客户给出产品性能组合的建议。数据源准备搜集除已有销量数据之外的额外信息包括对潜在消费者进行市场调查,收集其基本信息......
  • (三十五)C#编程基础复习——C#预处理器指令
    预处理指定的作用主要是向编译器发出指令,以便在程序编译开始之前对信息进行一些预处理操作。在C#中,预处理器指令均以#开头,并且预处理器指令之前只能出现空格不能出现任何代码。另外,预处理器指令不是语句,因此它们不需要分好;结尾。在C#中,预处理指令用于帮助条件编译。不同于C和C++......