首页 > 其他分享 >Daily_and_Sports_Activities数据集的详细介绍及训练

Daily_and_Sports_Activities数据集的详细介绍及训练

时间:2024-12-09 17:57:12浏览次数:6  
标签:Activities ... data LA Daily dataset 受试者 Sports 数据

一、Daily_and_Sports_Activities数据集

1.数据集介绍

该数据集包括19项日常和体育活动的运动传感器数据,每项活动由8名受试者以自己的风格进行5分钟。躯干、手臂和腿部使用五个Xsens-MTx单位。19 项活动中的每一项都由 8 名受试者(4 名女性,4 名男性,年龄在 20 至 30 岁之间)进行,每次 5 分钟。 每个受试者的每项活动的总信号持续时间为 5 分钟。 受试者被要求以自己的风格进行活动,并且不受活动方式的限制。出于这个原因,某些活动的速度和幅度存在主体间差异。 这些活动在比尔肯特大学体育馆的电气和电子工程大楼进行, 在校园内平坦的户外区域。传感器单元经过校准,可在 25 Hz 采样频率下采集数据。将 5 分钟信号分成 5 秒段,以便为每个活动获得 480(=60x8) 个信号段。

2.数据集内容

这19项活动是: 坐着(A1), 站立(A2), 仰卧和右侧(A3 和 A4), 上下楼梯(A5和A6), 站在电梯里静止不动 (A7) 在电梯(A8)中四处走动, 在停车场(A9)行走, 在跑步机上以 4 公里/小时的速度行走(在平坦和 15 度倾斜的位置)(A1 0 和 A11), 在跑步机上以 8 公里/小时的速度跑步 (A12), 在步进器(A13)上锻炼, 在交叉训练器(A14)上锻炼, 在水平和垂直位置(A15 和 A16)骑健身车, 划船 (A17), 跳跃 (A18), 和打篮球(A19)。

3.数据集文件结构

19项活动(a)(按上述顺序排列) 8 个科目 (p) 60 段 (s) 躯干 (T)、右臂 (RA)、左臂 (LA)、右腿 (RL)、左腿 (LL) 5 个单位 每个单元上有 9 个传感器(x、y、z 加速度计、x、y、z 陀螺仪、x、y、z 磁力计)。

文件夹 a01、a02、…、a19 包含 19 项活动记录的数据。 对于每个活动,子文件夹 p1、p2、…、p8 包含来自 8 个主题中每个主题的数据。 在每个子文件夹中,有 60 个文本文件 s01、s02、…、s60,每个段一个。

在每个文本文件中,有 5 个单位 x 9 个传感器 = 45 列和 5 秒 x 25 Hz = 125 行。 每列包含 125 个数据样本,这些数据样本在 5 秒的时间内从其中一个单元的传感器获取。 每行都包含从所有 45 个传感器轴在特定采样时刻采集的数据,用逗号分隔。
第 1-45 列对应于:

T_xacc、T_yacc、T_zacc、T_xgyro、…、T_ymag、T_zmag、 RA_xacc、RA_yacc、RA_zacc、RA_xgyro、…、RA_ymag、RA_zmag、 LA_xacc、LA_yacc、LA_zacc、LA_xgyro、…、LA_ymag、LA_zmag、 RL_xacc、RL_yacc、RL_zacc、RL_xgyro、…、RL_ymag、RL_zmag、 LL_xacc、LL_yacc、LL_zacc、LL_xgyro、…、LL_ymag、LL_zmag。

因此 第 1-9 列对应于单元 1 (T) 中的传感器, 第 10-18 列对应于单元 2 (RA) 中的传感器, 第 19-27 列对应于单元 3 (LA) 中的传感器, 第 28-36 列对应于单元 4 (RL) 中的传感器, 第 37-45 列对应于单元 5 (LL) 中的传感器。

  • Dataset Characteristics 数据集特征

Multivariate, Time-Series 多变量,时间序列

  • Subject Area 学科领域

Computer Science 计算机科学

  • Associated Tasks 相关任务

Classification, Clustering 分类、聚类

  • Feature Type 要素类型

Real 真正

  • Instances 实例

9120

  • Features 特性

5625

二、数据集处理

原数据分析: 原始文件共19个活动,每个活动都由8个受试者进行信号采集,每个受试者在每一类上采集5min的信号数据,采样频率25hz(每个txt是 125*45 的数据,包含5s时间长度,共60个txt)

预处理思路: 数据集网站的介绍中说到60个txt是有5min连续数据分割而来,因此某一类别a下同一个受试者p的60个txt数据是时序连续的。所以可以将a()p()下的所有txt数据进行时序维度拼接,选择窗口大小为125,重叠率为40%进行滑窗。

1. 环境设置

首先,确保Python环境已安装以下库:

  • numpy:用于数值计算。
  • pandas:用于数据处理和CSV文件读取。
  • os:用于操作系统功能,如文件路径处理。
  • sys:用于访问与Python解释器紧密相关的变量和函数。

如果未安装,可以通过以下命令安装:

pip install numpy pandas

2. 数据集下载

数据集可以从UCI机器学习库下载,我们编写一个函数来自动下载并解压数据集。

import os
import zipfile
from urllib.request import urlretrieve

def download_dataset(dataset_name, file_url, dataset_dir):
    # 定义文件名和下载路径
    file_name = dataset_name + '.zip'
    download_path = os.path.join(dataset_dir, file_name)
    
    # 下载文件
    urlretrieve(file_url, download_path)
    
    # 解压文件
    with zipfile.ZipFile(download_path, 'r') as zip_ref:
        zip_ref.extractall(dataset_dir)
    
    # 删除压缩文件
    os.remove(download_path)

# 调用下载函数
download_dataset(
    dataset_name='Daily_and_Sports_Activities',
    file_url='http://archive.ics.uci.edu/static/public/256/daily+and+sports+activities.zip', 
    dataset_dir='./data'
)

3. 数据预处理

我们使用一个DASA函数来处理数据集,执行以下步骤:

3.1 参数设置

在函数开始处,我们设置了一些预处理参数:

  • dataset_dir:数据集存放的目录。
  • WINDOW_SIZE:滑动窗口的大小。
  • OVERLAP_RATE:滑动窗口的重叠率。
  • SPLIT_RATE:训练集和测试集的分割比例。
  • VALIDATION_SUBJECTS:用于验证的受试者编号集合。
  • Z_SCORE:是否进行Z分数标准化。
  • SAVE_PATH:预处理后数据的保存路径。
def DASA(dataset_dir='./data', WINDOW_SIZE=125, OVERLAP_RATE=0.4, SPLIT_RATE=(8, 2), VALIDATION_SUBJECTS={7, 8}, Z_SCORE=True, SAVE_PATH=os.path.abspath('../../HAR-datasets')):
    # ... 省略其他代码 ...

3.2 数据读取与滑动窗口

接下来,我们读取原始数据,并应用滑动窗口技术来处理数据。

for label_id, adl in enumerate(adls):  # 遍历每个活动
    # ... 省略部分代码 ...
    for participant_idx, participant in enumerate(participants):  # 遍历每个受试者
        # ... 省略部分代码 ...
        files = sorted(os.listdir(participant))
        concat_data = np.vstack([pd.read_csv(file, sep=',', header=None).to_numpy() for file in files])
        cur_data = sliding_window(array=concat_data, windowsize=WINDOW_SIZE, overlaprate=OVERLAP_RATE)

这里,我们首先读取每个受试者文件夹中的所有文件,并将它们按顺序读取并垂直堆叠(np.vstack)成一个大的数组。然后,我们使用sliding_window函数对这个大数组应用滑动窗口技术,生成窗口化的数据。

3.3 数据分割

根据VALIDATION_SUBJECTS参数,我们选择留一法或平均法来分割训练集和测试集。

if VALIDATION_SUBJECTS:  # 留一法
    # ... 省略部分代码 ...
else:  # 平均法
    trainlen = int(len(cur_data) * SPLIT_RATE[0] / sum(SPLIT_RATE))
    testlen = len(cur_data) - trainlen
    xtrain += cur_data[:trainlen]
    xtest += cur_data[trainlen:]
    ytrain += [label_id] * trainlen
    ytest += [label_id] * testlen

3.4 数据标准化

如果设置了Z_SCORE=True,则对数据进行Z分数标准化。

if Z_SCORE:
    xtrain, xtest = z_score_standard(xtrain=xtrain, xtest=xtest)

3.5 数据保存

最后,我们将预处理后的数据保存到指定的路径。

if SAVE_PATH:
    # ... 省略部分代码 ...

4. 运行预处理

最后,我们调用DASA函数来执行整个预处理流程。

if __name__ == '__main__':
    DASA()

5. 结论

通过上述步骤,我们详细介绍了DASA数据集的下载、预处理、数据分割、标准化以及保存的过程。这些步骤为后续的机器学习模型训练和评估提供了准备好的数据。

请注意,上述代码中省略了一些辅助函数的实现细节,如sliding_windowz_score_standard。这些函数的具体实现将依赖于数据的具体格式和预处理需求。此外,代码中的路径和参数可能需要根据实际情况进行调整。

最后结果展示如下:
image.png

三、CNN网络训练Daily_and_Sports_Activities数据集

1.CNN网络结构

这里我们就不在过多解释,在之前的文章中已经多次提到了:
image.png

2.训练结果

image.png
通过训练CNN网络,Daily_and_Sports_Activities数据集在测试集上达到了87.93%的准确率,模型显示出了良好的泛化能力,同时具有91.60%的精确度和87.93%的召回率,F1分数为0.8973,表明模型在精确度和召回率之间取得了较好的平衡。此外,模型的推理时间非常快,单张图片的推理时间在0.0010到0.0013秒之间,整个测试集的推理时间仅为1.3570秒,显示出模型在实际应用中的高效性。

标签:Activities,...,data,LA,Daily,dataset,受试者,Sports,数据
From: https://blog.csdn.net/weixin_51390582/article/details/143029717

相关文章

  • GEE 案例:利用UCSB-CHG/CHIRPS/DAILY数据采用非监督分类实现某区域的降水区域的划分
    目录简介数据函数ee.Clusterer.wekaKMeans(nClusters, init, canopies, maxCandidates, periodicPruning, minDensity, t1, t2, distanceFunction, maxIterations, preserveOrder, fast, seed)Arguments:Returns: Clusterer代码结果简介利用UCSB-CHG......
  • [C++ Daily] 确保类复制了所有应该复制的成员
    确保类复制了所有应该复制的成员结果:源代码:#include<iostream>#include<string>#include<vector>/***copy操作应该包含对象内的所有成员变量及所有父类的成员变量,*此种可以通过调用对应的拷贝构造与拷贝赋值操作完成*////@briefsimpleterminalprint......
  • [C++ Daily] 递归锁解决标准锁的典型应用
    递归锁解决标准锁的典型应用先看源码:结果(在A种尝试锁住mutex_时失败,进程等待,死锁无法退出:将std::mutex用std::recursive_mutex替换:结果:解析:std::recursive_mutex允许同一个线程对同一个锁对象进行多次上锁,获得多层所有权.......
  • [C++ Daily] 虚继承与虚析构带来的变化
    虚继承在菱形继承中,若Student和Teacher继承于Person,TS继承于Student和Teacher,则构造TS时会调用两次Person的Construct和Destruct函数,若为虚继承,则不会出现上述问题(此类问题主要解决继承带来的多次非法delete)原继承:结果:虚继承:结果:虚析构父......
  • 编程题之Daily Temperatures
    LeetCode原题地址https://leetcode.com/problems/daily-temperatures/题目介绍Givenanarrayofintegerstemperaturesrepresentsthedailytemperatures,returnanarrayanswersuchthatanswer[i]isthenumberofdaysyouhavetowaitaftertheithdaytogeta......
  • Microsoft.WSMan.Management.Activities.dll文件丢失导致程序无法运行问题
    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题,如果是新手第一时间会认为是软件或游戏出错了,其实并不是这样,其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库,这时你可以下载这个Microsoft.WSMan.Management.Activities.dll......
  • Windows11系统System.Workflow.Activities.dll文件丢失问题
    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题,如果是新手第一时间会认为是软件或游戏出错了,其实并不是这样,其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库,这时你可以下载这个System.Workflow.Activities.dll文件(挑选合......
  • Windows11系统System.Workflow.Activities.resources.dll文件丢失问题
    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题,如果是新手第一时间会认为是软件或游戏出错了,其实并不是这样,其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库,这时你可以下载这个System.Workflow.Activities.resources.dll......
  • T461430 「Daily OI Round 4」Mine
    T461430「DailyOIRound4」MineT461430「DailyOIRound4」Mine解题思路首先,有个简单的想法就是我们考虑选择的那个采矿点是谁,但是我们发现,如果直接算,会重复,比如采矿点\(A\)和采矿点\(B\)所能采集的线段集合如果有交,显然会方案数会重复。这里学到一个计数的技巧:考......
  • Daily Training & 推荐文章
    前言:放一起了。\(\texttt{DailyTraining}\)懒得写详细题解,有冒号及后面的文字的表示做了,只有成套的打算做的才会放进来,有些题是同系列的以前做过的,比较喜欢的题会用\(\texttt{*}\)标出,半颗(\(\degree\))就是普通略好,一颗一般是有趣,两颗一般是有趣或者妙妙,三颗一般是妙妙或者牛......