首页 > 其他分享 >数据分析 - 理论简介

数据分析 - 理论简介

时间:2024-02-26 16:12:35浏览次数:24  
标签:数据分析 20 简介 理论 分析法 序列 80 数据

什么是数据分析

数据分析是将数学、统计学理论结合科学的统计分析方法(如线性回归分析、聚类分析、方差分析、时间序列分析等)对数据库中的数据、Excel数据、收集的大量数据、网页抓取的数据等进行分析,从中提取有价值的信息形成结论并进行展示的过程。数据分析的目的在于将隐藏在一大堆看似杂乱无章的数据背后的有用信息提取出来,总结出数据的内在规律,以帮助在实际工作中的管理者做出决策和判断。

数据分析方法

基础分析方法

以基础的统计分析为主,包括对比分析法、同比分析法、环比分析法、定比分析法、差异分析法、结构分析法、因素分析法、80/20法则等

  • 对比分析法
    对比分析法是对客观事物进行比较,以达到认识事物的本质和规律的目的并做出正确的评价。对比分析法通常是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模的大小、水平的高低、速度的快慢及各种关系是否协调。

  • 同比分析法
    同比分析法是按照时间即年度、季度、月份、日期等进行扩展,用本期实际发生数与同口径历史数字相比,产生动态的相对指标,用以揭示发展水平以及增长速度。
    同比分析法主要是为了消除季节变动的影响,用以说明本期水平与往年同期水平对比而达到的相对值。
    同比增长速度=(本期-往年同期)/往年同期×100%

  • 环比分析法
    环比分析是报告期水平与前一时期水平之比,表明现象逐期的变化趋势。如果计算一年内各月与前一个月对比,即1月比去年12月,2月比1月,3月比2月……,6月比5月,说明逐月的变化程度。本期数据与上期数据比较,形成时间序列图。
    环比增长速度=(本期-上期)/上期×100%

  • 80/20法则
    80/20法则,又称二八法则、帕累托法则、帕累托定律、最省力法则或不平衡原则。80/20法则认为:原因和结果、投入和产出、努力和报酬之间本来存在着无法解释的不平衡。
    80/20法则仅仅是一个比喻和实用基准。真正的比例不一定正好是80%∶20%。80/20法则表明在多数情况下该关系很可能是不平衡的,并且接近于80/20。

高级分析法

以建模理论为主,包括回归分析法、聚类分析法、相关分析法、矩阵分析法、判别分析法、主成分分析法、因子分析法、对应分析法、时间序列分析法等

  • 回归分析法
    回归分析法多用于统计分析和预测。它研究变量之间的相关关系以及相互影响程度,通过建立自变量和因变量的方程,研究某个因素受其他因素影响的程度或用来预测。
    回归分析法有线性和非线性回归、一元和多元回归之分。
    常用的回归有一元线性和多元线性回归方程。

  • 聚类分析法
    聚类分析法多用于人群分类和客户分类。所谓聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程(即将相似数据并成一组),聚类就是一种发现这种内在结构的技术。聚类的意思就是把一个大数据集按照某种距离计算方式,分成若干个分类。其中每个分类内的差异性要比类与类之间的差异性小很多。
    聚类与分类分析不同,它所划分的类是未知的。因此,聚类分析也称为无指导或无监督的学习。
    它是一门静态数据分析技术,在许多领域受到广泛应用,包括机器学习、数据挖掘、模式识别、图像分析以及生物信息。

  • 时间序列分析法
    时间序列分析法多用于统计和预测。它是按照时间的顺序把随机事件变化发展的过程记录下来构成一个时间序列,并对这个时间序列进行观察、研究,找出它变化发展的规律,预示它将来的走势。
    时间序列分析法可分为描述性时序分析法和统计时序分析法

    • 描述性时序分析法:是通过直观的数据比较或绘图观测,寻找序列中蕴含的发展规律。
    • 统计时序分析法的原理是:根据系统观察得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法,一般使用自回归移动平均模型ARMA(p,q),它是时间序列中最为重要的模型之一,主要由两部分组成:AR代表p阶自回归过程,MA代表q阶移动平均过程。
数据挖掘类

以机器学习、数据仓库等复合技术为主

数据分析流程

1. 明确目的
而在数据分析方面,首先要花些时间搞清楚要分析什么,要达到什么样的结果,明确分析目的和思路后再考虑用哪种分析方法,然后进行数据处理和数据分析等后续工作。
2. 获取数据
获取数据的方式有很多种,如公开的数据集、爬虫、数据采集工具、付费API等

  • 公开的数据集
    • 常用数据公开网站
      · UCI:经典的机器学习、数据挖掘数据集,包含分类、聚类、回归等问题下的多个数据集。
      · 国家数据:数据来源于中华人民共和国国家统计局(以下简称国家统计局),包含了我国经济民生等多个方面的数据。
      · CEIC:最完整的一套超过128个国家的经济数据,能够精确查找GDP、CPI、进口、出口、外资直接投资、零售、销售以及国际利率等深度数据。其中的“中国经济数据库”收编了几十万条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。
      · 万得:在金融业有着全面的数据覆盖,金融数据的类目更新非常快,因此很受国内的商业分析者和投资人的青睐。
      · 搜数网:汇集了中国资讯行自1992年以来收集的所有统计和调查数据。
      · 中国统计信息网:国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展的统计信息等。
      · 亚马逊:来自亚马逊的跨学科的云数据平台,包含化学、生物、经济等多个领域的数据集。
      · Figshare:研究成果共享平台,这里可以找到来自世界各地的大牛们的研究成果数据。
      · GitHub:一个非常全面的数据获取渠道,包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,适合做研究和数据分析的人员。
    • 政府开放数据
      · 北京市政务数据资源网:包含竞技、交通、医疗、天气等数据。
      · 深圳市政府数据开放平台:包含交通、文娱、就业、基础设施等数据。
      · 上海市政务数据服务网:覆盖经济建设、文化科技、信用服务、交通出行等领域数据。
    • 数据竞赛网站
      · DataCastle:专业的数据科学竞赛平台
      · Kaggle:全球最大的数据竞赛平台。
      · 天池:阿里旗下的数据科学竞赛平台。
      · DataFountain:中国计算机学会(CCF)指定大数据竞赛平台。
  • 利用爬虫获取数据
    可以使用爬虫爬取网站上的数据,某些网站上也给出获取数据的API接口,但需要付费。
  • 数据交易平台
    由于数据需求的增大,涌现出很多数据交易平台,这些平台属于付费平台,但里面也会有些免费的数据,如优易数据、数据堂等。
  • 网络指数
    通过指数的变化可以查看某个主题在各个时间段受关注的情况,可以进行趋势分析、行情分析和预测,如百度指数、阿里指数、友盟指数、爱奇艺指数等。
  • 网络采集器
    网络采集器是通过软件的形式实现简单快捷地采集网络上分散的内容,具有很好的内容收集作用,如造数、爬山虎等。

3. 数据处理
数据处理是从大量的、杂乱无章的、难以理解的、缺失的数据中,抽取并推导出对解决问题有价值、有意义的数据。数据处理主要包括数据规约、数据清洗、数据加工等处理方法

4. 数据分析
数据分析过程中,选择适合的分析方法和工具很重要,所选择的分析方法应兼具准确性、可操作性、可理解性和可应用性。但对于业务人员(如产品经理或运营)来说,数据分析最重要的是数据分析思维。

5. 验证结果

6. 数据展现
数据展现即数据可视化的部分,把数据分析结果展示给业务的过程。数据展现除遵循各公司统一规范原则外,具体形式还要根据实际需求和场景而定,其中以图表的方式展现更清晰、更直观。

7. 数据应用

Python数据分析模块

  • 数值计算模块:NumPy
  • 数据处理模块:pandas
  • 数据可视化模块:Matplotlib
  • 机器学习模块:sklearn

笔记从微信读书的

获取

标签:数据分析,20,简介,理论,分析法,序列,80,数据
From: https://www.cnblogs.com/yigehulu/p/18029914

相关文章

  • 寒假总结3spark简介
    ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不......
  • GNN基础理论
    GNN基础理论1、图神经网络基础知识对于图神经网络的提出背景:常规算法(机器学习、卷积神经网络等)处理的大多为欧几里得空间数据(Euclideanspace)[一般指:图片等数据]欧几里德数据:数据特点是排列整齐。对于某个节点,很容易可以找出其邻居节点,就在旁边,不偏不倚。最常见到的是图片(ima......
  • 痛定思痛,好好做人,从头过一遍PyTorch框架(一)(1.深度学习简介、2.预备知识)
    现在是2024年2月24日,13:59,从研一就开始断断续续说要过一遍框架,到现在博一下学期,还一直拖着呢,拖延症太可怕啦,决定好好做人,不拖了,就从现在开始,好好过一遍,呜呜呜呜呜呜呜呜,(罪该万死)。看的教程是:《动手学深度学习》(PyTorch版),是把李沐老师的《动手学深度学习》原书中的MXNet实现改......
  • 1.图书简介-来源豆瓣
    【内容简介】《活着》是当代作家余华的代表作,讲述了一个人历尽世间沧桑和磨难的一生,亦将中国大半个世纪的社会变迁凝缩其间。《活着》还讲述了眼泪的宽广和丰富;讲述了绝望的不存在;讲述了人是为了活着本身而活着的,而不是为了活着之外的任何事物而活着。《活着》出版25年来打动了无......
  • 1.图书简介-来源豆瓣
    【内容简介】《活着》是当代作家余华的代表作,讲述了一个人历尽世间沧桑和磨难的一生,亦将中国大半个世纪的社会变迁凝缩其间。《活着》还讲述了眼泪的宽广和丰富;讲述了绝望的不存在;讲述了人是为了活着本身而活着的,而不是为了活着之外的任何事物而活着。《活着》出版25年来打动了无......
  • SharePoint Online Framework Extension 简介
    前言可以使用SharePoint框架(SPFx)扩展来扩展SharePoint用户体验。使用SPFx扩展,可以自定义SharePoint体验的更多方面,包括通知区域、工具栏、列表数据视图和表单。SPFx扩展在生产使用的所有Microsoft365订阅中可用。SPFx扩展使你能够在新式页面和文档......
  • HTTP 简介
    HTTP简介HTTP简介HTTP协议是HyperTextTransferProtocol(超文本传输协议)的缩写,是用于从万维网(WWW:WorldWideWeb)服务器传输超文本到本地浏览器的传送协议。HTTP是一个基于TCP/IP通信协议来传递数据(HTML文件,图片文件,查询结果等)。HTTP工作原理HTTP协议工作于客户端......
  • python包管理利器poetry和conda使用简介
     #基本信息 conda相对于主流的虚拟环境管理工具,在python开发环境中最大的特点便是“不需要安装python”。但这并不意味着conda不需要python来运行脚本,而是conda不会依赖于系统中已经存在的python进行运行。因此conda拥有较高的独立性以及强悍的跨版本支持......
  • 爬虫简介
    爬虫分类:  通用爬虫:抓取系统重要组成部分,抓取的是一个整张页面的数据  聚焦爬虫:是建立在通用爬虫的基础之上。抓取的是页面中特定的局部内容  增量式爬虫:检测网站中数据更新的情况,指挥抓取网站中最新更新出来的数据爬虫的矛与盾:反爬机制  门户网站,可以通过制定相应......
  • 代码随想录算法训练营第二十四天|● 理论基础 ● 77. 组合
    回溯理论基础 回溯法,与递归有类似形式,本质是穷举(可能存在剪枝),效率并不高。回溯的模板:voidbacktracking(参数){if(终止条件){存放结果;return;}for(选择:本层集合中元素(树中节点孩子的数量就是集合的大小)){处理节点;......