数据分析 - 理论简介 - IPS99技术分享

什么是数据分析

数据分析是将数学、统计学理论结合科学的统计分析方法（如线性回归分析、聚类分析、方差分析、时间序列分析等）对数据库中的数据、Excel数据、收集的大量数据、网页抓取的数据等进行分析，从中提取有价值的信息形成结论并进行展示的过程。数据分析的目的在于将隐藏在一大堆看似杂乱无章的数据背后的有用信息提取出来，总结出数据的内在规律，以帮助在实际工作中的管理者做出决策和判断。

数据分析方法

基础分析方法

以基础的统计分析为主，包括对比分析法、同比分析法、环比分析法、定比分析法、差异分析法、结构分析法、因素分析法、80/20法则等

对比分析法
对比分析法是对客观事物进行比较，以达到认识事物的本质和规律的目的并做出正确的评价。对比分析法通常是把两个相互联系的指标数据进行比较，从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢及各种关系是否协调。
同比分析法
同比分析法是按照时间即年度、季度、月份、日期等进行扩展，用本期实际发生数与同口径历史数字相比，产生动态的相对指标，用以揭示发展水平以及增长速度。
同比分析法主要是为了消除季节变动的影响，用以说明本期水平与往年同期水平对比而达到的相对值。
同比增长速度=（本期-往年同期）/往年同期×100%
环比分析法
环比分析是报告期水平与前一时期水平之比，表明现象逐期的变化趋势。如果计算一年内各月与前一个月对比，即1月比去年12月，2月比1月，3月比2月……，6月比5月，说明逐月的变化程度。本期数据与上期数据比较，形成时间序列图。
环比增长速度=（本期-上期）/上期×100%
80/20法则
80/20法则，又称二八法则、帕累托法则、帕累托定律、最省力法则或不平衡原则。80/20法则认为：原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。
80/20法则仅仅是一个比喻和实用基准。真正的比例不一定正好是80%∶20%。80/20法则表明在多数情况下该关系很可能是不平衡的，并且接近于80/20。

高级分析法

以建模理论为主，包括回归分析法、聚类分析法、相关分析法、矩阵分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列分析法等

回归分析法
回归分析法多用于统计分析和预测。它研究变量之间的相关关系以及相互影响程度，通过建立自变量和因变量的方程，研究某个因素受其他因素影响的程度或用来预测。
回归分析法有线性和非线性回归、一元和多元回归之分。
常用的回归有一元线性和多元线性回归方程。
聚类分析法
聚类分析法多用于人群分类和客户分类。所谓聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程（即将相似数据并成一组），聚类就是一种发现这种内在结构的技术。聚类的意思就是把一个大数据集按照某种距离计算方式，分成若干个分类。其中每个分类内的差异性要比类与类之间的差异性小很多。
聚类与分类分析不同，它所划分的类是未知的。因此，聚类分析也称为无指导或无监督的学习。
它是一门静态数据分析技术，在许多领域受到广泛应用，包括机器学习、数据挖掘、模式识别、图像分析以及生物信息。
时间序列分析法
时间序列分析法多用于统计和预测。它是按照时间的顺序把随机事件变化发展的过程记录下来构成一个时间序列，并对这个时间序列进行观察、研究，找出它变化发展的规律，预示它将来的走势。
时间序列分析法可分为描述性时序分析法和统计时序分析法
- 描述性时序分析法：是通过直观的数据比较或绘图观测，寻找序列中蕴含的发展规律。
- 统计时序分析法的原理是：根据系统观察得到的时间序列数据，通过曲线拟合和参数估计来建立数学模型的理论和方法，一般使用自回归移动平均模型ARMA(p，q)，它是时间序列中最为重要的模型之一，主要由两部分组成：AR代表p阶自回归过程，MA代表q阶移动平均过程。

数据挖掘类

以机器学习、数据仓库等复合技术为主

数据分析流程

1. 明确目的
而在数据分析方面，首先要花些时间搞清楚要分析什么，要达到什么样的结果，明确分析目的和思路后再考虑用哪种分析方法，然后进行数据处理和数据分析等后续工作。
2. 获取数据
获取数据的方式有很多种，如公开的数据集、爬虫、数据采集工具、付费API等

公开的数据集
- 常用数据公开网站
  · UCI：经典的机器学习、数据挖掘数据集，包含分类、聚类、回归等问题下的多个数据集。
  · 国家数据：数据来源于中华人民共和国国家统计局（以下简称国家统计局），包含了我国经济民生等多个方面的数据。
  · CEIC：最完整的一套超过128个国家的经济数据，能够精确查找GDP、CPI、进口、出口、外资直接投资、零售、销售以及国际利率等深度数据。其中的“中国经济数据库”收编了几十万条时间序列数据，数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。
  · 万得：在金融业有着全面的数据覆盖，金融数据的类目更新非常快，因此很受国内的商业分析者和投资人的青睐。
  · 搜数网：汇集了中国资讯行自1992年以来收集的所有统计和调查数据。
  · 中国统计信息网：国家统计局的官方网站，汇集了海量的全国各级政府各年度的国民经济和社会发展的统计信息等。
  · 亚马逊：来自亚马逊的跨学科的云数据平台，包含化学、生物、经济等多个领域的数据集。
  · Figshare：研究成果共享平台，这里可以找到来自世界各地的大牛们的研究成果数据。
  · GitHub：一个非常全面的数据获取渠道，包含各个细分领域的数据库资源，自然科学和社会科学的覆盖都很全面，适合做研究和数据分析的人员。
- 政府开放数据
  · 北京市政务数据资源网：包含竞技、交通、医疗、天气等数据。
  · 深圳市政府数据开放平台：包含交通、文娱、就业、基础设施等数据。
  · 上海市政务数据服务网：覆盖经济建设、文化科技、信用服务、交通出行等领域数据。
- 数据竞赛网站
  · DataCastle：专业的数据科学竞赛平台
  · Kaggle：全球最大的数据竞赛平台。
  · 天池：阿里旗下的数据科学竞赛平台。
  · DataFountain：中国计算机学会（CCF）指定大数据竞赛平台。
利用爬虫获取数据
可以使用爬虫爬取网站上的数据，某些网站上也给出获取数据的API接口，但需要付费。
数据交易平台
由于数据需求的增大，涌现出很多数据交易平台，这些平台属于付费平台，但里面也会有些免费的数据，如优易数据、数据堂等。
网络指数
通过指数的变化可以查看某个主题在各个时间段受关注的情况，可以进行趋势分析、行情分析和预测，如百度指数、阿里指数、友盟指数、爱奇艺指数等。
网络采集器
网络采集器是通过软件的形式实现简单快捷地采集网络上分散的内容，具有很好的内容收集作用，如造数、爬山虎等。

3. 数据处理
数据处理是从大量的、杂乱无章的、难以理解的、缺失的数据中，抽取并推导出对解决问题有价值、有意义的数据。数据处理主要包括数据规约、数据清洗、数据加工等处理方法

4. 数据分析
数据分析过程中，选择适合的分析方法和工具很重要，所选择的分析方法应兼具准确性、可操作性、可理解性和可应用性。但对于业务人员（如产品经理或运营）来说，数据分析最重要的是数据分析思维。

5. 验证结果

6. 数据展现
数据展现即数据可视化的部分，把数据分析结果展示给业务的过程。数据展现除遵循各公司统一规范原则外，具体形式还要根据实际需求和场景而定，其中以图表的方式展现更清晰、更直观。

7. 数据应用

Python数据分析模块

数值计算模块：NumPy
数据处理模块：pandas
数据可视化模块：Matplotlib
机器学习模块：sklearn

笔记从微信读书的

获取

标签：数据分析,20,简介,理论,分析法,序列,80,数据
From： https://www.cnblogs.com/yigehulu/p/18029914

数据分析 - 理论简介