首页 > 其他分享 >数据科学

数据科学

时间:2023-02-27 11:57:27浏览次数:21  
标签:数据 变换 Data data https 科学 com

数据和数据集

01.数据属性 
     四种类型:标称,nominal;序数,ordinal;区间,interval;比率,ratio。
     用值的个数描述属性:离散,discrete;连续,continuous。
02.数据集--维度(有的属性数目)  稀疏性  分辨率-粒度 (数据的尺度基准)  分布

03.评价和可观测性
   数据质量: precision  accuracy  ,robust algorithm
               outlier anomalous  deduplication
   数据质量问题的检测和纠正,叫做数据清理,data cleaning
04. 数据预处理
    包括聚集,抽样,维归约,特征子集选择,特征创建,离散化和二元化,变量变换
	  Data aggregation · Data smoothing · Data discretization 
	  Data generalization · Data attribute construction
05.数据衡量
   	邻近度,proximity  --distance --》 Euclidean distanc   简单匹配系数,SMC,Simple Matching Coefficient 
	相似度,similarity    余弦相似度(consine similarity)  广义Jaccard系数   Mahalanobis距离
	相异度,dissimilarity

Compositional Data Analysis

成分数据定量地描述了整体的各个部分,并且只提供了它们的组成部分之间的相关信息。
    因此,成分数据以整体或部分总量的比例或分数存在
	成分数据(Compositional Data)是指含有D分量的向量,其分量满足非负且和为1的条件
    对应的各活动行为时间数据存在定和限制(即所有成分比例总和为1),称为成分数据(compositional data)。
	成分数据样本空间属于标准的单形空间-通常需要采用适当的变换方法将成分数据. 转化到欧氏空间后再进行统计分析
	
成分数据的定和限制不可能使其满足一般的前提假设,所以需要对其先做变换然后在进行分析.
   成分数据的变换,其中包括非对称logratio变换、对称logratio变换、等距logratio变化和球坐标变换
      ALR(Additive log ratio)方法	 Additive Log-Ratio (alr) Transformation(加性对数比(alr)变换
      Centered Log-Ratio (clr) Transformation(中心对数比(clr)变换)
      Isometric Log-Ratio (ilr) transformation(等距对数比(ILR)变换)		  
    成分数据的代数空间——单形空间(simplex) 
     The ILR (Isometric Log-Ratio)等距对数变换 
       成分ISM,对各行为活动的时间数据进行等距对数比(isometric log ratio,ilr)转换,然后用转换后的时间数据拟合线性回归模型,
       接着对模型各系数进行 ilr 逆转换,得到各成分与结局变量在单形空间拟合的回归系数,并据此计算变化预测矩阵,
       最后根据变化预测矩阵计算时间重新分配后产生的效应,以便解释响应变量的变化
eg:部门投资比例 家庭生活费用指出比例
    人群24 h活动行为时间使用比例分布  时间的分布特征
	    时间为互斥关系,即24 h内一种行为使用时间的改变,需在其他至少一种行为时间上进行补偿,
		所导致的健康效应除受该行为时间改变影响外,也部分归因于其他至少一种行为时间的补偿性改变

<<3种成分数据方法在24 h活动行为时间使用流行病学研究中的应用比较>>
  统计软件 
 本研究使用R 3.6.0软件完成,其中,
  ilr和Dirichlet方法相关R包为compositions包(Van den Boogaart et al.,2018),
   FD方法相关R包为FlexDir包(Migliorati et al.,2017b)。
  isometric logratio transformation (ilr) 
  The ILR (Isometric Log-Ratio) transformation is used in the analysis of compositional data.
  等时替代模型( Isotemporal Substitution Model) 时间数据实际上属于成分数据  
  等时替代模型( Isotemporal Substitution Model)https://blog.csdn.net/weixin_43645790/article/details/125154019
   Box-Cox变换  box-cox解读 https://www.cnblogs.com/triple-y/p/11244798.html
Transformations for compositional data
 https://www.r-bloggers.com/2023/02/transformations-for-compositional-data-by-ellis2013nz/	   

有序数据

时序数据
有序数据主要是包含时序数据和序列数据
 sequential data	
   时间序列数据 time series data	
   空间数据,特点是空间自相关性,spatial autocorrelation

分类数据

numeric variable and categorical variable
 分类数据--multiple category method  多重分类法-- 记录方式
        multiple dichotomy method  多重二分法--可应用统计的数据排列格式

数据变换

Numeric Variable Transformation
2.1. Standardization
2.2. Min-max scaling
2.3. Logarithmic transformation
2.4. Box-Cox transformation
2.5. Yeo-Johnson transformation
2.6. Clipping
2.7. Binning
2.8. Rank
2.9. RankGauss
2.10. Other non-linear transformations


3. Categorical Variable Transformations
3.1. One-hot encoding
3.2. Label encoding
3.3. Feature hashing
3.4. Binary encoding & BaseN encoding
3.5. Frequency encoding
3.6. Target encoding
3.7. Special treatment when there are levels only included in test set
3.8. More categorical variable transformations


Catalog of Variable Transformations To Make Your Model Work Better
https://towardsdatascience.com/catalog-of-variable-transformations-to-make-your-model-works-better-7b506bf80b97

Data architecture

  Data Mart一般指数据集市	
     Data Lake -> Data Warehouse -> Data Mart

 https://towardsdatascience.com/

职业

 Data Architect(数据架构师)
 payscale.com/ 可以用它查到美国的各专业本科、研究生毕业薪水排名
    https://www.payscale.com/research/US/Country=United_States/Salary
set daily, weekly, monthly, and yearly goals to help guide their progress,

网址

 https://github.com/vinta/awesome-python
 https://github.com/qinwf/awesome-R
 https://www.r-bloggers.com/
 https://rviews.rstudio.com/
 https://towardsdatascience.com/

  https://paperswithcode.com/sota  机器学习资源网站 PapersWithCode
  https://github.com/paperswithcode
  https://towardsdatascience.com/about

 http://tapdata.org.cn/

标签:数据,变换,Data,data,https,科学,com
From: https://www.cnblogs.com/ytwang/p/17159162.html

相关文章