2-技术篇

时间：2023-06-14 22:26:59浏览次数：43

本篇是数据挖掘技术的主体部分，系统介绍了数据挖掘的相关技术及其这些技术的应用实例。该部分又分三个层次:

1)数据挖掘前期的一些技术，包括数据的准备(收集数据、数据质量分析、数据预处理等)和数据的探索(衍生变量、数据可视化、样本选择、数据降维等)。

2)数据挖掘的核心六大类方法，包括关联规则、回归、分类、聚类、预测和诊断。对于每类方法，则详细介绍了其包含的典型算法，包括基本思想、应用场景、算法步骤、MATLAB实现程序、应用实例。

3)数据挖掘中特殊的实用技术，包含两章内容，一是关于时序数据挖掘的时间序列技术;二是智能优化方法。该层次也是数据技术体系中不可或缺的技术。时序数据是数据挖掘中的一类特殊数据，所以针对该类特殊的数据类型，介绍了时间序列方法。另外，数据挖掘离不开优化，所以又以一章智能优化方法介绍了两个比较常用的优化方法，遗传算法和模拟退火算法。

数据的准备

从雅虎获取交易数据

其中雅虎与MATLAB有接口，所以可以利用MATLAB从雅虎获得这些交易数据，取的程序如P4-1所示。运行该程序，可以得到深市主板的数据，对该程序略作修改，就可以获得沪市和创业板的数据。这里，作为例子，只用深市的交易数据作为研究对象。

从大智慧获取财务数据

从Wind获取高质量数据

数据质量分析方法

值分析

值分析通常是进行数据质量分析的第一步,它可以帮助我们在总体上分析数据的自然分布情况。比如，数据是否只有唯一值，该变量中有多少空值等。值分析是我们常用方法中最简单的一种，它的分析信息统计简便，信息含义清晰易理解，同时也是最有效的分析方法，因为它能够快速地给出明确的结论。

统计分析

统计分析是统计量对数据进行统计学特征的分析，常用的统计量有均值、最小值、最大值、标准差、极差和一些拓展统计量。常用的拓展统计量有以下几个:
1)众数(Mode) :变量中发生频率最大的值。众数不受极端数据的影响，并且求法简便。当数值或被观察者没有明显次序(常发生于非数值性资料)时特别有用。例如:用户状态有正常、欠费停机、申请停机、拆机、销号这几种可能，该变量的众数是“正常”则是正常的。
2)分位数( Median) :将数据从小到大排序，小于某个值的数据占总数的百分比。例如，我们通常所说的中位数就是50%分位数，即小于中位数的所有值占总数的50%。
3)中位数:中位数可避免极端数据，代表着数据总体的中等情况。如果总数个数是奇数，按从小到大的顺序，取中间的那个数，如果总数个数是偶数个，按从小到大的顺序，取中间那两个数的平均数。
4)偏度:正态分布的偏度为0,偏度<0称分布具有负偏离，偏度>0称分布具有正偏离。若知道分布有可能在偏度上偏离正态分布时，可用偏度来检验分布的正态性。偏度的计算公式为:

频次与直方图分析

直方图和频次图都是一种用柱状图表示数据分布特征的分析方式。通过直方图和频次图可以有效地观测出数据分布的两个重要特征:集中趋势和离散趋势。直方图适用于对大量连续性数据进行整理加工，找出其统计规律，以便对其总体分布特征进行推断。频次图是为了计算离散型数据各值分布情况的统计方法，它有助于理解某些特殊数值的意义，同时它也可以支持多个维度组合分布情况。频次与直方图分析方法在提供更细节信息的同时，也存在必须人工分析的局限。同时，很多时候需要借助一些业务经验。

数据预处理

数据清洗

数据清理的主要任务是填充缺失值和去除数据中的噪声。

缺失值处理

噪声过滤

回归法
均值平滑法
离群点分析
小波去噪

数据变换

标准化

离散化

语义转换

数据的探索

关联规则方法

数据回归方法

分类方法

聚类方法

预测方法

诊断方法

时间序列方法

智能优化方法

标签：分析,数据,技术,直方图,偏度,数据挖掘,方法
From： https://www.cnblogs.com/cheng020406/p/17481496.html

机器学习/深度学习前沿技术，论文，数据，源码？这个网站统统都有，必须收藏！
废话不多，就是这个网站。https://paperswithcode.com/目录1.有事没事浏览一下最新技术2.3597个公开数据集1.有事没事浏览一下最新技术点击网页最上方，BrowseState-of-the-Art。里面涵盖了各个领域的最新技术论文，数据，以及论文代码。下面这个图是经上面翻译来的。主要包含以下几......
计算广告——搜索广告技术初窥
这是对一个PPT的内容的整理，PPT的主要内容是刘铁岩的《OnlineAdvertising》。主要介绍了一些付费搜索相关的一些技术。这篇文章主要是对这方面的知识做一个整理。在搜索广告中，有很多的知识点是值得借鉴的。一、广告1.1、定义：Advertisingisaformofcommunicationintendedtope......
图像拼接算法技术报告
图像拼接算法技术报告代码介绍图像拼接是将多个图像按照一定的顺序和几何变换方法组合在一起，形成一个更大、更完整的图像的过程。通过图像拼接，可以将多个部分图像合并为一个整体，以展示更广阔的视野或提供更全面的信息。我们先感性地看一组实验结果（静态场景的图像拼接）：左图......
风口上的AIGC，技术岗动不动年薪百万，甚至重金难求？
2023年，职场人都在讨论什么？自今年3月以来，随着ChatGPT应用持续走俏，AIGC领域抢人大战盛况空前。随之而来的便是“AI取代人类”“10亿打工人被革命”，AI的发展速度和步伐，超乎我们预期，也影响了很多行业。那说到底，哪些行业可以搭上这趟AI快车？哪些人的工作会被AI“干掉”？《2023第一季度A......
互动场景下的低延迟编码技术
上海交通大学教授宋利在LiveVideoStackCon2020线上峰会的演讲内容整理而成，从分析视频传输系统延迟入手，详细介绍视频编码延迟的产生机制，总结优化编码延迟的技术手段和业界典型的低延迟编码方案，讨论不同场景的延迟要求，并对后续技术演进发展方向进行展望。文/宋利整理/LiveVideoSt......
谷歌 I/O 2021 在音视频领域中有哪些技术值得被关注？
时隔两年GoogleI/O大会再次与大家见面。虽然去年的大会因新冠疫情被迫取消，但技术的迭代发展却未被打断，反而因疫情的影响促使了技术的创新变得愈加以人们的需求为首要考量，从而变得更具人性化也更具智能化。整理/ LiveVideoStack“在重要的时刻提供帮助”——是此次谷歌I/O2021......
UWB通信技术基本原理和测试流程
简介：什么是UWB技术？超宽带（UltraWideBand，UWB）技术是一种无线载波通信技术，它不采用正弦载波，而是利用纳秒级的非正弦波窄脉冲传输数据，因此其所占的频谱范围很宽。UWB技术是一种使用1GHz以上频率带宽的无线载波通信技术。它不采用正弦载波，而是利用纳秒级的非正弦波窄脉冲传输数据，因......
【技术积累】Python中的NumPy库【二】
NumPy库的主要类有哪些？NumPy库的主要类包括：ndarray：N维数组对象，是NumPy最重要的类之一。它是Python中数组的基本数据结构，可以进行高效的数学计算和数据处理操作。ufunc：通用函数对象，是NumPy库中的另一个重要类。它是一种高效的元素级运算工具，提供了基本......
常用的响应式设计技术
1.弹性网格布局（FlexibleGridLayout）：使用CSS的Flexbox布局来创建弹性网格系统。示例：.container{display:flex;flex-wrap:wrap;}.item{flex:1025%;/*在容器内占据四分之一的空间*/} 2.媒体查询（MediaQueries）：使用CSS的媒体查询来根据......
音视频技术开发周刊（第128期）
架构大家都切换到UnifiedPlan了吗? 忽悠，继续忽悠统计的数据。在Chrome中使用WebRTCICE服务器进行端口扫描这真是相当不错的。不知道将开放多长时间。浅谈WebRTCNetEQWebRTCNative代码里面有很多值得学习的宝藏，其中一个就是WebRTC的NetEQ模块。根据WebRTC术语表......