首页 > 其他分享 >CRISP-DM的应用与理解

CRISP-DM的应用与理解

时间:2024-08-30 16:51:51浏览次数:14  
标签:DM CRISP 模型 建模 业务 理解 数据挖掘 数据

本文分享自天翼云开发者社区《CRISP-DM的应用与理解》,作者:吴****嫄

CRISP-DM是一个数据挖掘项目规划的开放标准流程框架模型,主要分为业务理解、数据理解、数据准备、建模、评估、部署六个阶段。

业务理解

从业务的角度理解项目的目标和需求,将业务的目的转换为一个数据挖掘的问题,制定一个初步的实现计划计划。

商业理解是明确要达到的业务目标,并将其转化为数据挖掘主题。要从商业角度对业务部门的需求进行理解,并把业务需求的理解转化为数据挖掘的定义,拟定达成业务目标的初步方案。具包括商业背景分析、商业成功标准的确定、形势评估、获得企业资源清单、获得企业的要求和想、评估成本和收益、评估风险和意外、初步理解行业术语,并确定数据挖掘的目标和制定数挖掘计划。

在整个CRISP-DM的过程当中,围绕数据为核心,项目可能会在各个阶段之间跳跃,因为数据分析一定是一个不断迭代的过程。是否可以继续进行下一个阶段取决于是否有达到最初的业务目标,如果业务目标没有达到,那么就要考虑是否是数据不够充分或算法需要调整,一切都以业务目标为导向。

数据理解

初步收集数据,了解、熟悉数据。关注数据质量,进行探索性的分析。数据理解是找出可能的影响主题的因素,确定这些影响因素的数据载体、数据体现形式和数据存储位置。数据理解从数据收集开始,然后熟悉数据,具体包括以下工作内容:检测数据质量,对数据进行初步理解,简单描述数据,探测数据意义,并对数据中潜藏的信息和知识提出拟用数据加以验证的假设。

数据准备

准备最终输入到模型中的数据,数据的选择,数据清晰等。

数据准备是将前面找到的数据进行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。数据准备阶段要从原始数据中形成作为建模分析对象的最终数据集。数据准备阶段的具体工作主要包括数据制表、记录处理、变量选择、数据转换、数据格式化和数据清理等,各项工作并不需要预先规定好执行顺序,而且数据准备工作还有可能多次执行。

建模

一般使用多种技术进行建模,将模型调整到最佳状态。

建立模型是应用软件工具,选择合适的建模方法,处理准备好的数据宽表,找出数据中隐藏的规律。在建立模型阶段,将选择和使用各种建模方法,并将模型参数进行优化。对同样的业务问和数据准备,可能有多种数据挖掘技术方法可供选用,此时可优选提升度高、置信度高、简单而易于总结业务政策和建议的数据挖掘技术方法。在建模过程中,还可能会发现一些潜在的数据问题,要求回到数据准备阶段。建立模型阶段的具体工作包括:选择合适的建模技术、进行检验设计、建造模型。

评估

到这个阶段一般已经有从数据角度来看满足要求的模型。重点是评估是否有业务问题还没有考虑到,是否已经完全满足业务要求。评估数据挖掘结果的使用可能性。

模型评估是要从业务角度和统计角度进行模型结论的评估。要求检查建模的整个过程,以确保型没有重大错误,并检查是否遗漏重要的业务问题。当模型评估阶段结束时,应对数据挖掘结果的发布计划达成一致。

部署

数据分析完成了但是还不是最后一步。最后一步的部署可能是生成一个报告,也可能是需要建立一个整个公司层面的新的系统,这是看业务的需求来定。要保证数据分析的结果被正确的使用。

模型发布又称为模型部署,建立模型本身并不是数据挖掘的目标,虽然模型使数据背后隐藏的作息和知识显现出来,但数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来,并用来改善运营和提高效率。当然,在实际的数据挖掘工作中,根据不同的企业业务需求,模型发布具体工作可能简单到提交数据挖掘报告,也可能复杂到将模型集成到企业的核心运营系统中去。

标签:DM,CRISP,模型,建模,业务,理解,数据挖掘,数据
From: https://www.cnblogs.com/developer-tianyiyun/p/18389046

相关文章

  • 深入理解 C# 中的适配器模式:连接不兼容的世界
    在软件开发中,我们经常会遇到需要将两个不兼容的接口连接在一起的场景。适配器模式(AdapterPattern)作为结构型设计模式之一,提供了一种灵活的解决方案,使得不兼容的接口能够协同工作,从而提高系统的可扩展性和复用性。本文将详细介绍适配器模式的概念、适用场景,并通过一个C#......
  • Java Script网页设计案例04A6PZbSPCHdMhmS
    1.JavaScript网页设计案例下面我将提供一个简单的JavaScript网页设计案例,该案例将实现一个动态的待办事项列表(TodoList)。用户可以在页面上添加新的待办事项,标记它们为已完成,以及删除它们。这个案例将使用HTML来构建页面结构,CSS来美化页面,以及JavaScript来添加动态功能。1.1HT......
  • 软件解决显卡欺骗器,HDMI欺骗器,如何使用ToDesk免费功能
    大家遇到电脑没有显示屏,或者显示屏的显卡太老,无法正常打开时,常常会给自己备上一个显卡欺骗器和HDMI欺骗器,虽说它们都能模拟显示屏正常使用环境,但这种方法通常需要额外的硬件支持,对于急用的小伙伴来说,这个方法很难快速解决显示屏难题。小社长最近发现ToDesk远程控制软件的虚拟屏......
  • 阿里重磅开源超强AI模型Qwen2-VL:能理解超 20 分钟视频!
    炸裂!阿里巴巴的云计算部门刚刚发布了一款全新的AI模型——Qwen2-VL,而且一口气发布了20亿参数和70亿参数两个版本,还开放了最强720亿参数版本的API!小伙伴们可能要问了,这个Qwen2-VL到底有多厉害?01、Qwen2-VL有多厉害?·看得清,看得懂: Qwen2-VL在各种视觉理解任务上都取......
  • Vue 过滤器(Filter)的理解与用法
    Vue.js是一个渐进式JavaScript框架,它提供了丰富的功能来构建用户界面。其中,过滤器(Filter)是一个非常有用的特性,它允许我们在模板中对数据进行格式化处理。本文将详细介绍Vue过滤器的概念、用法以及一些最佳实践。1.过滤器的基本概念1.1什么是过滤器?过滤器是Vue提供的一种......
  • 深入理解Java中的分布式锁实现:从理论到实践
    引言在分布式系统中,多个进程或线程可能需要访问同一份资源,这时就需要一种机制来确保资源不被同时修改,从而避免数据不一致的问题。分布式锁正是应对这种场景的重要手段。本文将详细介绍Java中的分布式锁实现原理、常见的分布式锁技术,以及具体的代码示例。目录分布式锁的基本......
  • python模型训练之朴素理解
            模型训练就是通过一组训练数据,这组数据我这里举例x,y。x是自变量,y是因变量。那么我们可以定义数据x=[2,5,8,11,13],y=[100,156,144,180],        这些数据是我自己随便写的。我们可以看到这组数据类似y=ax。        然后我们想要的是通......
  • 深入理解前向传播、反向传播和计算图
    1.什么是前向传播?前向传播(ForwardPropagation)是神经网络的推理过程。它将输入数据逐层传递,通过每一层的神经元计算,最终生成输出。前向传播的公式假设我们有一个简单的三层神经网络(输入层、一个隐藏层和输出层),网络的每一层计算如下:......
  • 图神经网络——GCN聚合原理理解
    本博客基于B站UP主望舒同学的图神经网络系列讲解及代码实现-GCN1。GCN的核心思想:通过邻接矩阵A对结点特征进行聚合,用于更新某结点特征。不同的聚合方式\(\rightarrow\)GCN变体。GCN基于的一个假设:结点的特征与其邻居结点有密切的关系,并且距离越近的邻居关系越大。GCN聚合直......
  • HDMI详解
    HDMI详解摘要本文详细介绍了HDMI接口的定义、不同类型的接口、HDMI脚位功能、版本间的区别,重点探讨了电路设计,包括电源、HPD检测、I2C通信、数据时钟、ARC/eARC音频回传以及CEC消费电子控制等内容,为HDMI产品设计者提供了实用指南。HDMI的定义HDMI是高清多媒体接口(HighDefini......