首页 > 其他分享 >数据挖掘 流程简介

数据挖掘 流程简介

时间:2023-06-09 10:02:15浏览次数:37  
标签:分析 简介 流程 流失 客户 数据挖掘 数据 模型


我们这就是有 企业挖掘中最常用的 《流失用户分析》来说明:

数据挖掘流程:
1. 定义主题 : 天啊,我在干什么!( 此模块绝大多数主观意识上完成,有少量客观验证)
  1.1 明确主题用户在各用户群中的分布 - 流失用户在各用户群中比例
    不同客户群的流失程度如:某渠道,某软件版本,页面布局,功能等主观上去分析。
    尽量把影响流失比较大的因素详细罗列出来 如: 概率分布,页面布局变化影响等
  1.2 明确主题用户特征 -  流失用户特征
     对流失用户影响比较大的字段如:金额,软件版本(缺少最需要的功能),客服对问题的处理的时间
 

2. 数据选择 : 什么样的选民,选出什么样的总统
   在此模块中有个比较难把握的地方: 维度越高越能准确的定义数据,但也会越复杂度 。
   你大概不会希望花3天分析出2天前的流失用户吧!! :)
   2.1 分区收集
       在用户流失分析中,若采集时间过长,可能在流失判断出来时客户已然流失;若采集时间过于紧密或者实时采集则需要考虑运营商现有系统的支撑能力。因此对数据采集时间间隔的设置显得尤为重要。
   2.2 减少数据噪音
   2.3 剔除部分冗余数据
       此间要注意的是在客户流失分析上,从数据仓库中采集数据的主要目的是调查客户信息的变化情况。一些不必要的数据就去除掉吧


3. 分析数据 : 热身,很重要!
   3.1 数据抽样
       多说了,在这信息爆炸的时代,别说你把上百TB的数据放到应用分析库中去!
   3.2 数据转换
       比如时间方面:可以把上午转换为 1 ,中午转换为 2 等等.便于分析
   3.3 缺损数据处理
   3.4 样本生成
        建模样本:为下个阶段准备
        测试样本: 对模型进行修正和检验

4. 模型建立 : 找个合得来的过这一辈子吧!
  对数据进行分析并利用各种数据挖掘技术和方法在多个可供选择的模型中找出最佳模型,这个过程是一个循环迭代的过程.
  建立模型通常由数据分析专家配合业务专家来完成
  4.1  常用的流失分析模型主要有  决策树 / 贝叶斯网络 / 神经网络等


5. 模型的评估与检验 : 开花!

6. 应用模型 : 终于,结出好果(结果)!




$>流失分析中需要注意的问题
 
>>过度抽样
      国内电信企业每月的客户流失率一般在1%~3%左右,如果直接采用某种模型(比如决策树、人工神经网络等)可能会因为数据概率太小而导致模型的失效
      因此我们需要加大流失客户在总样本中的比例,但是这种过度抽样必须谨慎小心,要充分考虑它的负面效应
 
>> 模型的有效性
   预测出结果,但用户已经流失 ,主要要关注采样时间跨度问题
 
>> 模型的流失后分析
  数据挖掘在客户流失管理中的重要应用不仅仅应包括对客户流 失的提前预警,还应包括客户流失后的问题分析。按照不同的客户信息纬度,查找最容易流失的客户群,同业务部门人员配合,辅以相关调查,力求发现客户流失的 症结所在。然而,这一部分往往由于过度专注于挖掘模型本身的拟合度而忽略了流失管理的实际价值所在。


谢谢 同事 吴 的指导,这他的原话 转出来供大家学习

0. 我觉得做bi和技术最大的一点差别就是
    bi是数据导向,需求的优先级要低于数据

1. 没数据的话,需求就没戏了  
2. 技术是需求导向,只要有需求,技术基本上都能做出来
3. 数据的加载、加工、清洗,叫做etl,其实和你现在做的事情很像
4. etl是挖掘里非常重要的一部分







参考: 数据挖掘在电信客户流失分析中的应用

标签:分析,简介,流程,流失,客户,数据挖掘,数据,模型
From: https://blog.51cto.com/u_16065168/6445515

相关文章

  • 01-Maven基础-简介安装、基本使用(命令)、IDEA配置、(写jar,刷新自动下载)、依赖管理
    文章目录0、Maven1、Maven简介2、Maven安装配置安装配置步骤3、Maven基本使用Maven常用命令Maven生命周期IDEA配置MavenMaven坐标详解IDEA创建Maven项目IDEA导入Maven项目配置Maven-Helper插件(非常实用的小插件)依赖管理使用坐标导入jar包依赖范围0、Maven1......
  • 数据库中数据挖掘的基本技术介绍
    随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润,而这种从海量数据库中挖掘信息的技术,就称之为数据挖掘。数据挖掘工具能够对将来的趋势......
  • Database System Concepts——读书笔记 第二章 关系模型简介
    关系模型简介在关系模型中,术语relation用于指代table,而术语tuple用于指代row。类似地,术语attribute(属性)指的是表中的一column(列)。我们必须区分数据库模式和数据库实例,前者是数据库的逻辑设计,后者是给定时刻数据库中数据的快照。关系的模式指的是它的逻辑设计,而关系的实例指的......
  • Database System Concepts——读书笔记 第三、四、五章 SQL简介
    SQL简介关系代数运算和SQL运算之间有着密切的联系。一个关键的区别是,与关系代数不同,SQL允许重复与select子句不同,union联合操作会自动消除重复项.如果我们想保留所有的副本,我们就必须用“unionall”代替“union.intersectall,exceptall您可以验证,如果r.A为null,则“1<r.A”......
  • 2022年8月最新运维面试题-服务器上下架流程
    四维图新最近的宝马tsp项目招人,薪资再25k以上,13薪。学员反馈回来的面试题正在整理中。其中一个问题:机房设备上下架是个怎么个操作流程?这个题目的确难住了很多人,我曾经三个人上架近千台服务器,但你让我说上架流程,我也不知道该怎么描述。而且在整个的培训流程中,很少会涉及到服务器的......
  • 敏捷项目管理流程
    在了解敏捷项目管理之前,我们先看下敏捷和传统项目管理有什么区别。传统项目管理:阶段式项目管理模式。制定详细的计划和步骤,按计划执行,直到所有的计划执行全部结束。咖 敏捷项目管理模式,从愿景和高价值的目标出发,它将整个项目过程拆分为若干个迭代,每个迭代交付一个完整可交付的功能......
  • 科研必备:LaTeX论文排版软件的简介,安装与使用教程
    现如今发论文已经成为各大高校以及研究所进行学术科研考核的。对于发表论文来说,除了idea以外,更多的是进行论文的排版,毕竟论文是要给别人看的,因此写作风格以及使用的排版软件进行排版尤为重要。LaTeX软件可以进行较快的论文格式排版,尤其是很多的高水平论文与会议的官网会发布论文的......
  • Golang的reflect包简介
    Golang的Reflect包简介什么是Golang的Reflect包?Golang的Reflect包(reflect)是一个强大的内置包,它提供了在运行时进行程序反射的功能。通过使用Reflect包,我们可以在不了解类型的情况下,动态地检查变量的类型、调用函数和方法,以及修改变量的值。为什么使用Golang的Reflect包?Golang的......
  • SpringMVC执行流程关键代码
    org.springframework.web.servlet.DispatcherServletprotectedvoiddoDispatch(HttpServletRequestrequest,HttpServletResponseresponse)...{//processedRequest为org.apache.catalina.connector.RequestFacadeHttpServletRequestprocessedRequest=requ......
  • 8.17 Object类简介
    classPerson{}和classPersonextendsObject是一样的。前面extendsObject被省略了如果一个程序的方法要求可以接收所有类对象的时候,就可以利用Object类实现。demo1classPerson{}publicclassHelloWorld{publicstaticvoidmain(Stringargs[]){......