数据和数据集
01.数据属性
四种类型:标称,nominal;序数,ordinal;区间,interval;比率,ratio。
用值的个数描述属性:离散,discrete;连续,continuous。
02.数据集--维度(有的属性数目) 稀疏性 分辨率-粒度 (数据的尺度基准) 分布
03.评价和可观测性
数据质量: precision accuracy ,robust algorithm
outlier anomalous deduplication
数据质量问题的检测和纠正,叫做数据清理,data cleaning
04. 数据预处理
包括聚集,抽样,维归约,特征子集选择,特征创建,离散化和二元化,变量变换
Data aggregation · Data smoothing · Data discretization
Data generalization · Data attribute construction
05.数据衡量
邻近度,proximity --distance --》 Euclidean distanc 简单匹配系数,SMC,Simple Matching Coefficient
相似度,similarity 余弦相似度(consine similarity) 广义Jaccard系数 Mahalanobis距离
相异度,dissimilarity
Compositional Data Analysis
成分数据定量地描述了整体的各个部分,并且只提供了它们的组成部分之间的相关信息。
因此,成分数据以整体或部分总量的比例或分数存在
成分数据(Compositional Data)是指含有D分量的向量,其分量满足非负且和为1的条件
对应的各活动行为时间数据存在定和限制(即所有成分比例总和为1),称为成分数据(compositional data)。
成分数据样本空间属于标准的单形空间-通常需要采用适当的变换方法将成分数据. 转化到欧氏空间后再进行统计分析
成分数据的定和限制不可能使其满足一般的前提假设,所以需要对其先做变换然后在进行分析.
成分数据的变换,其中包括非对称logratio变换、对称logratio变换、等距logratio变化和球坐标变换
ALR(Additive log ratio)方法 Additive Log-Ratio (alr) Transformation(加性对数比(alr)变换
Centered Log-Ratio (clr) Transformation(中心对数比(clr)变换)
Isometric Log-Ratio (ilr) transformation(等距对数比(ILR)变换)
成分数据的代数空间——单形空间(simplex)
The ILR (Isometric Log-Ratio)等距对数变换
成分ISM,对各行为活动的时间数据进行等距对数比(isometric log ratio,ilr)转换,然后用转换后的时间数据拟合线性回归模型,
接着对模型各系数进行 ilr 逆转换,得到各成分与结局变量在单形空间拟合的回归系数,并据此计算变化预测矩阵,
最后根据变化预测矩阵计算时间重新分配后产生的效应,以便解释响应变量的变化
eg:部门投资比例 家庭生活费用指出比例
人群24 h活动行为时间使用比例分布 时间的分布特征
时间为互斥关系,即24 h内一种行为使用时间的改变,需在其他至少一种行为时间上进行补偿,
所导致的健康效应除受该行为时间改变影响外,也部分归因于其他至少一种行为时间的补偿性改变
<<3种成分数据方法在24 h活动行为时间使用流行病学研究中的应用比较>>
统计软件
本研究使用R 3.6.0软件完成,其中,
ilr和Dirichlet方法相关R包为compositions包(Van den Boogaart et al.,2018),
FD方法相关R包为FlexDir包(Migliorati et al.,2017b)。
isometric logratio transformation (ilr)
The ILR (Isometric Log-Ratio) transformation is used in the analysis of compositional data.
等时替代模型( Isotemporal Substitution Model) 时间数据实际上属于成分数据
等时替代模型( Isotemporal Substitution Model)https://blog.csdn.net/weixin_43645790/article/details/125154019
Box-Cox变换 box-cox解读 https://www.cnblogs.com/triple-y/p/11244798.html
Transformations for compositional data
https://www.r-bloggers.com/2023/02/transformations-for-compositional-data-by-ellis2013nz/
有序数据
时序数据
有序数据主要是包含时序数据和序列数据
sequential data
时间序列数据 time series data
空间数据,特点是空间自相关性,spatial autocorrelation
分类数据
numeric variable and categorical variable
分类数据--multiple category method 多重分类法-- 记录方式
multiple dichotomy method 多重二分法--可应用统计的数据排列格式
数据变换
Numeric Variable Transformation
2.1. Standardization
2.2. Min-max scaling
2.3. Logarithmic transformation
2.4. Box-Cox transformation
2.5. Yeo-Johnson transformation
2.6. Clipping
2.7. Binning
2.8. Rank
2.9. RankGauss
2.10. Other non-linear transformations
3. Categorical Variable Transformations
3.1. One-hot encoding
3.2. Label encoding
3.3. Feature hashing
3.4. Binary encoding & BaseN encoding
3.5. Frequency encoding
3.6. Target encoding
3.7. Special treatment when there are levels only included in test set
3.8. More categorical variable transformations
Catalog of Variable Transformations To Make Your Model Work Better
https://towardsdatascience.com/catalog-of-variable-transformations-to-make-your-model-works-better-7b506bf80b97
Data architecture
Data Mart一般指数据集市
Data Lake -> Data Warehouse -> Data Mart
https://towardsdatascience.com/
职业
Data Architect(数据架构师)
payscale.com/ 可以用它查到美国的各专业本科、研究生毕业薪水排名
https://www.payscale.com/research/US/Country=United_States/Salary
set daily, weekly, monthly, and yearly goals to help guide their progress,
网址
https://github.com/vinta/awesome-python
https://github.com/qinwf/awesome-R
https://www.r-bloggers.com/
https://rviews.rstudio.com/
https://towardsdatascience.com/
https://paperswithcode.com/sota 机器学习资源网站 PapersWithCode
https://github.com/paperswithcode
https://towardsdatascience.com/about
http://tapdata.org.cn/
标签:数据,变换,Data,data,https,科学,com
From: https://www.cnblogs.com/ytwang/p/17159162.html