首页 > 其他分享 >数据分析--学习笔记01

数据分析--学习笔记01

时间:2022-11-04 21:36:03浏览次数:75  
标签:数据分析 分析 01 -- python https 数据

python数据分析

python数据分析工具包

Numpy, SciPy.org, matplotlib,lean,pandas,k

学习方法: 重视理论 --》勤于查阅 --》 身体力行 --》 联系实际

image-20221104203748496[4]

数据获取手段
数据仓库

将所有业务数据经汇总处理,构成数据仓库-- DW

  1. 全部事实的记录

  2. 部分维度和数据的整理-- 数据集市DM

数据库 vs 仓库

  1. 数据库面向业务存储,仓库面向主题存储 (主题:较高层次上对分析对象数据的一个完整并且一致的描述)

  2. 数据库针对应用 OLTP -- Online Transaction processing

  3. 仓库针对分析 OLAP -- Online analysis process

  4. 数据库组织规范,仓库可能冗长,相对变化大,数据量大

检测与抓取

直接解析网页、接口、文件信息

python常用工具:

rullib,urllib2, requests, scrapy, PhantomJS, beautifulSoap, xpath(lxml)

填写、埋点、日志

用户填写信息

APP 或网页埋点 -- 特定流量的信息记录点

操作日志

计算

通过已有数据计算生成衍生数据

例如:统计报表信息

数据学习网站
数据竞赛网站:

Kaggel: https://www.kaggle.com/

天池: https://tianchi.aliyun.com/dataset

数据集网站:

ImageNet: https://www.image-net.org/

Open images : https://www.kaggle.com/datasets/bigquery/open-images

各领域的统计数据:

统计局、政府机构、公司财报

数据分析理论

集中趋势:均值,中位数与分位数,众数

四分位数计算方法:

Q1的位置 = (n+1) x 0.25

Q2的位置 = (n+1) x 0.5

Q3的位置 = (n+1) x 0.75

离中趋势:方差与标准差

image-20221104210040665[4]

偏态系数与峰度系数

image-20221104210155853[4]

正态分布与三大分布

image-20221104210309738[4]

抽样理论

抽样误差与精度

image-20221104210400170[4]

案例1:

image-20221104210428132[4]

案例2:

image-20221104210459466[4]

数据分类

定类(类别):根据事物离散、无差别属性进行的分类

定序(顺序):可以界定数据的大小,但不能测定差值

定距(间隔):可以界定数据大小的同时,可测定差值,但无绝对零点

定比(比例):可以界定数据大小,可以测定差值,有绝对零点

单属性分析

异常值分析:离散异常值,连续异常值,常识异常值

image-20221104211221917[4]

对比分析:绝对数与相对数,时间、空间、理论维度比较

绝对数比较,

相对数比较:结构、比例、比较、动图、强度

时间、空间、经验与计划

结构分析:各组成部分的分布与规律

部分:总体 --》 静态 动态

分布分析:数据分布频率的显式分析

标签:数据分析,分析,01,--,python,https,数据
From: https://www.cnblogs.com/orange2016/p/16859168.html

相关文章

  • 实验3
    #include<stdio.h>#include<stdlib.h>#include<time.h>#include<windows.h>#defineN80voidprint_text(intline,intcol,chartext[]);voidprint_spaces......
  • 有没有开发过⼀些vue插件?举例说说 - 批量引入插件
    有过,项⽬开发的时间⻓了,沉淀了不少业务通⽤全局组件,想把他们统⼀进⾏注册,就封装了⼀个⼩插件当时其实⼀开始也没有什么思路,后来扒了⼀下elementUI的源码,仿了⼀下它的写......
  • 数据库设计心得-软件2003坤坤说的都队
    数据库设计心得项目连锁门店管理系统数据库设计思路设计思路:我们小组根据开会讨论,初步确定了10个数据表,后根据边耐政老师的数据库评审意见,添加了角色表、用户表、权限......
  • 利用ocr将pdf转为docx
    利用ocr将pdf转为docx项目地址:https://github.com/jiangnanboy/pdf_to_docx背景该项目首先将pdf文件转为图片形式,再使用百度的paddleocr对这些图片文件分别进行识别,利用......
  • 小米路由器绑定迅雷失败
    本文地址https://www.cnblogs.com/wanger-sjtu/p/16859177.html在公司或者其它地方上网,发现网上的优秀资源,却发现自己身边没有移动存储设备来下载。这时候如果在家里事......
  • docker支持ipv6
    方法方法一、Pv6地址不为容器中的服务特别分配IPv6地址。只要Docker把外部的IPv6地址端口映射到容器的IPv4端口上,随后访问主机的IPv6相应端口即可。方法二、为Docker网......
  • 数据库设计心得——五班再卷紫砂辣
    数据库设计心得——五班再卷紫砂辣项目简介与背景“新冠”疫情爆发后,“健康码”通过大数据赋能,为统筹做好疫情防控和加快恢复生产生活秩序提供了有力支撑。“健康码”起......
  • excel导出功能的实现流程说⼀下?
    导出的话,我们因为到处的数据量不⼤,所以直接采取的时候前端主导的⽅案,参考的现成⽅案实现的导出⼤概得流程就是1.调⽤后端接⼝得到要导出的数据2.把数据简单处理⼀下......
  • 杂题选做2
    P8292题意:有\(n\le10^6\)张卡片,卡片上有权值\(a_i\),有\(m\le1500\)次询问,每次给定\(c_i\)个质数(\(\sumc_i\le18000\)),要求选择的卡片乘积整除每一个给定质数的......
  • 文件
    什么是文件?文件是我们保存数据的地方。文件流文件在程序中是以流的形式来操作的。流:数据在数据源(文件)和程序(内存)之间经历的路径输入流:数据从数据源(文件)到程序......