首页 > 其他分享 >Online Anomalous Subtrajectory Detection onRoad Networks with Deep Reinforcement Learning

Online Anomalous Subtrajectory Detection onRoad Networks with Deep Reinforcement Learning

时间:2024-11-25 20:34:03浏览次数:4  
标签:轨迹 数据 Anomalous Deep Detection 坐标 异常 路由 标注

用到的数据集

以下是对文中实验数据的解读:

数据集概况

  • 来源
    数据来自滴滴出行的两个真实世界的出租车轨迹数据集,分别是成都西安。使用了开放地图项目(OpenStreetMap)获取两地的道路网络。

  • 轨迹数量

    • 成都:677,492 条轨迹。
    • 西安:373,054 条轨迹。
  • 道路网络

    • 道路段数量(segments):成都 4,885 段,西安 5,052 段。
    • 路口数量(intersections):成都 12,446 个,西安 13,660 个。

数据处理和标注

  1. 轨迹预处理

    • 采用了流行的地图匹配算法,将原始轨迹转换为地图匹配后的轨迹。
    • 对于起点-终点对(SD-pairs),保留至少包含 25 条轨迹的点对,以确保足够的样本量。
    • 随机抽取 10,000 条轨迹用于训练,其余轨迹用于测试。
  2. 标注方式

    • 抽取了 200 个具有足够轨迹数量的 SD-pairs(每对至少 30 条轨迹,平均 900 条轨迹)。
    • 通过可视化方式由 5 位参与者手动标注异常轨迹。
    • 异常轨迹的定义:由大部分轨迹经过的道路段中显著偏离的轨迹被标注为异常。
    • 质量控制:随机抽取 10% 的轨迹,邀请 5 位其他标注者独立标注,采用多数投票法聚合标签,最终标注的准确率为:
      • 成都:98.7%
      • 西安:94.3%

数据标注结果

  • 轨迹与路由(routes)关系

    • 一条路由可能对应多条原始轨迹,因此路由数量少于原始轨迹数量。
  • 标注的路由和异常路由数量

    数据集 标注路由数 对应原始轨迹数 异常路由数 对应原始轨迹数 异常比例
    成都 1,688 558,098 1,436 3,930 0.7%
    西安 1,057 163,027 813 2,368 1.5%
  • 成都的异常比例较低,为 0.7%,而西安的异常比例为 1.5%。


数据采样率

  • 数据采样频率为每 2 秒到 4 秒记录一次数据点。

总结来看,研究通过大规模真实数据和高质量标注,构建了一个准确率较高的轨迹数据集,其中包含异常轨迹用于后续算法验证。

在文中,“标注路由数”和“异常路由数”是指交通轨迹研究中特定的分析对象,和路段(segments)以及路口(intersections)的概念不同。以下是对这些概念的解释:


1. 标注路由数(Labeled Routes)

  • 定义
    • 路由(Route)是指车辆从一个起点(S,Start)到一个终点(D,Destination)之间的行驶路径。这些路径由多个道路段(segments)组成,可以是从起点到终点的一条完整路线。
  • 与路段、路口的区别
    • 路段(segments)是道路网的基本构成单位,一个路由通常包括多个连续的路段。
    • 路口(intersections)是道路段之间的连接点,而路由是由多个路段和路口构成的整体路径。
  • 标注路由数的意义
    • 这些路由通过人工标注,确定哪些是正常路径,哪些是异常路径。标注的路由是本研究的核心数据,用于分析交通行为模式和异常检测。

举例:

假设从起点 A 到终点 B 有两条可能路径:

  1. 路径 1:A → C → D → B
  2. 路径 2:A → E → F → B

这两条完整路径即为两个路由,其中每条路由包含若干道路段和路口。


2. 异常路由数(Anomalous Routes)

  • 定义
    • 异常路由是指与大多数车辆行驶路径显著不同的行驶路线,通常表现为绕路、偏离主路等情况。
  • 标注方法
    • 异常路由由人工标注得出,通过对轨迹的可视化检查,识别哪些路由偏离了“正常路线”。
    • 标注还可能细化到路由中的某些具体段,标注这些部分为异常。
  • 与正常路由的对比
    • 正常路由:由大部分车辆行驶的主要路径。
    • 异常路由:偏离主要路径,可能存在绕行、交通事故规避或恶意绕路等原因。

异常路由的现实例:

  • 正常路由:从起点到终点沿直线行驶的路径。
  • 异常路由:司机选择了一个绕远的路径,或因临时交通状况绕行,导致路径与常规路线偏差较大。

3. 数据中标注路由数与异常路由数

根据文中:

  • 成都:
    • 标注路由数:1,688 条完整路线。
    • 异常路由数:1,436 条,约占 85.1% 的比例。
  • 西安:
    • 标注路由数:1,057 条完整路线。
    • 异常路由数:813 条,约占 76.9% 的比例。

这些路由的数量比原始轨迹数少得多,因为多个轨迹可能对应到相同的路由。


总结

  • 标注路由数:研究中人工定义的从起点到终点的完整行驶路径。
  • 异常路由数:从标注路由中识别出的偏离正常模式的路线。
  • 与路段、路口的关系
    • 一个路由是由多个路段和路口组成的整体行驶路径,而路段和路口是路由的基础单元。

是的,文中明确提到了关于轨迹长度的信息,主要用于将数据集分组,并对模型性能进行评估:


轨迹长度分组

在有效性评估部分,文中提到:

  • 成都数据集按轨迹长度划分为四组:
    • G1: 长度 < 15
    • G2: 15 ≤ 长度 < 30
    • G3: 30 ≤ 长度 < 45
    • G4: 长度 ≥ 45

这种划分方式以轨迹的长度(以单位时间段或单位路段数衡量)为基础,从而评估不同轨迹长度对检测效果的影响。


整体轨迹长度评估

在实验结果中:

  • 评估指标(如 F1-score 和 T F1-score)不仅对整个数据集进行评估,还在不同长度组别下分别计算,以观察模型在短轨迹和长轨迹上的性能表现。
  • 结果表明,无论轨迹长度如何,RL4OASD 方法在所有分组上的性能都优于基线方法,尤其在长轨迹(如 G3 和 G4 组)上的优势更加显著。

轨迹长度的隐含意义

虽然文中没有直接定义“轨迹长度”的单位,但根据上下文,它可能代表:

  1. 轨迹覆盖的道路段数
    • 即轨迹经过的连续道路段总数。
    • 在之前数据集中,成都每条轨迹覆盖约 139 段,西安约 74 段,可以作为轨迹长度的近似指标。
  2. 时间维度的轨迹长度
    • 如果按采样频率(2-4 秒一次)记录点数计算,长度可能代表轨迹包含的时间段或记录点数。

总结

文中明确提到轨迹长度的分组方式,并且在不同长度的轨迹上分别评估了模型的性能。这表明轨迹长度是检测效果的重要影响因素之一,特别是模型在短轨迹和长轨迹上的适应性有所不同。

文中并未明确说明轨迹数据是否包含具体的坐标信息(如经纬度)。不过,根据上下文和轨迹数据的使用场景,可以推测如下:


推测是否包含坐标数据

  1. 轨迹预处理

    • 文中提到轨迹数据被预处理为“地图匹配后的轨迹”(map-matched trajectories),这通常意味着:
      • 原始轨迹数据可能包含经纬度坐标点。
      • 通过地图匹配算法,这些坐标点被映射到具体的道路段(segments)上。
    • 地图匹配过程通常需要依赖原始的 GPS 坐标数据来确定车辆行驶的具体道路。
  2. 异常检测中的“路段”

    • 轨迹被描述为经过一系列的“道路段”(segments)或“子轨迹”(subtrajectories)。
    • 每条道路段可能由一对起点和终点的坐标表示(地图匹配后的形式)。
    • 因此,轨迹数据可能不直接以原始坐标形式存储,而是经过处理映射到具体的路段或路线。

可能的数据形式

从文中内容可以推测轨迹数据可能具有以下形式之一:

  1. 原始 GPS 坐标数据

    • 在未经过地图匹配前,轨迹通常是由一系列 GPS 坐标点组成,如:
      [(30.123, 120.456), (30.124, 120.457), ...]
      
  2. 地图匹配后的路段数据

    • 经过地图匹配后,轨迹可能被转换为一组道路段的序列(每个道路段可能间接包含坐标信息),例如:
      [Segment_1, Segment_2, Segment_3, ...]
      
      其中,每个道路段可能由其端点的坐标定义。
  3. 离散化后的标记数据

    • 在用于检测时,轨迹数据可能进一步被抽象为离散化表示,比如:
      [Road_ID_1, Road_ID_2, Road_ID_3, ...]
      
      在这种情况下,轨迹不再直接表现为坐标点,但每个 Road_ID 可以通过外部道路网络映射回其对应的地理坐标。

坐标数据的可能用途

即使文中未明确提及,坐标数据可能在以下步骤中发挥作用:

  • 地图匹配
    将原始坐标点映射到具体道路段,生成高精度轨迹。
  • 异常轨迹标注
    通过可视化(如地图上的轨迹显示)帮助人工标注异常轨迹。
  • 计算轨迹相似性
    使用坐标点计算轨迹之间的距离(如 Frechet 距离等)。

结论

虽然文中未明确说明轨迹数据是否直接包含坐标,但从实验描述和数据处理流程看,轨迹数据可能最初包含 GPS 坐标点,通过地图匹配后被转化为道路段或路由的形式。在研究或分析时,原始坐标数据可能作为基础信息存在,但后续处理后可能未直接用作输入数据。

在这个表格中,异常路由数是包含在标注路由数中的,而不是分开的。以下是表格的详细解读:


表格内容解读

数据集 标注路由数 对应原始轨迹数 异常路由数 对应原始轨迹数 异常比例
成都 1,688 558,098 1,436 3,930 0.7%

每列的含义:

  1. 标注路由数(1,688):

    • 表示在成都数据集中,研究者通过人工标注定义了 1,688 条完整的路由
    • 路由是从起点到终点的完整路径,可能由多条轨迹(车辆行驶的具体记录)构成。
  2. 对应原始轨迹数(558,098):

    • 表示这 1,688 条标注路由总共包含了 558,098 条原始轨迹。
    • 每条路由可能对应多条原始轨迹,比如多辆车沿着相同路线行驶。
  3. 异常路由数(1,436):

    • 表示在 1,688 条标注路由中,有 1,436 条被标注为异常路由。
    • 这些异常路由是标注数据的一部分,而不是独立的集合。
  4. 对应原始轨迹数(3,930):

    • 这 1,436 条异常路由总共对应了 3,930 条原始轨迹。
    • 说明异常路由在原始轨迹中所占比例较小。
  5. 异常比例(0.7%):

    • 异常轨迹在总轨迹中的比例:( \frac{3,930}{558,098} \times 100% = 0.7% )。
    • 说明异常轨迹在整个数据集中是稀少的。

是否包含关系?

是的,异常路由数 1,436标注路由数 1,688 的子集,而不是分开的:

  • 在标注的 1,688 条路由中,有 1,436 条被认定为异常路由,其余则是正常路由。

如何看这个表格?

  1. 数据范围

    • 总共有 558,098 条轨迹,这些轨迹被归纳为 1,688 条路由(即多条轨迹映射到相同的路由)。
    • 在这些路由中,有少量(1,436 条)被标注为异常。
  2. 异常轨迹稀疏性

    • 异常轨迹仅占原始轨迹的 0.7%,说明异常检测是一个稀疏问题,难度较高。
  3. 数据质量

    • 通过这种标注,研究者将复杂的轨迹数据精简为路由级别,同时标注了异常信息,为后续检测任务提供了高质量的训练和评估数据。

总结

异常路由数 1,436 是标注路由数 1,688 的一部分,对应的是一小部分原始轨迹(3,930 条),在整个数据集中的比例较低(0.7%)。这表明异常检测任务需要在大量正常数据中找到少量异常情况,是一个典型的稀疏数据问题。

标签:轨迹,数据,Anomalous,Deep,Detection,坐标,异常,路由,标注
From: https://www.cnblogs.com/GraphL/p/18568546

相关文章

  • >>>、/deep/、::v-deep、::v-deep()、:deep()区别及用法
    现象:在Vue.js项目中,在使用组件化开发时,经常需要修改组件内部的样式,但Vue的样式封装特性(如<stylescoped>)会阻止外部样式直接作用于组件内部。引入穿透选择器:在Vue.js中, >>> 、 /deep/ 、 ::v-deep 、 ::v-deep()、:deep() 都是用于穿透组件样式封装的选择器。作用......
  • Deepsort算法详解
    多目标跟踪的主要步骤:获取原视频帧利用目标检测器对视频帧中的目标进行检测将检测到的目标的框中的特征提取出来,该特征包括表观特征(方便特征对比避免IDswitch)和运动特征(运动特征方便卡尔曼滤波对其进行预测)表观特征与运动特征:表观特征:描述目标的外观信息,通常包括颜色、纹......
  • 牛马阅读(知识+重点翻译) Advanced Deep-Learning Techniques for Salient and Category
    ABSTRACT目标检测,包括目标检测(OD)、显著目标检测(SOD)和特定类别的目标检测(COD),是计算机视觉界最基本但最具挑战性的问题之一。在过去的几十年中,研究人员已经做出了巨大的努力来解决这个问题,因为它在其他计算机视觉任务(如活动或事件识别、基于内容的图像检索和场景理解)中得......
  • 【Coroutines】Deep and Deep Into Kotlin Coroutines
    StructureofCoroutineFramworkcoroutineframworkconsistoftwopartsBasicCoroutineLibrary,whichisnaturallyintegratedinkotlinlanguageCoroutineApplicationFramwork,whichisorganizedtosimplifyadvancedusageofcoroutinesThefirstpartis......
  • python系列&deep_study系列:【已解决】Failed to initialize NVML: Driver/library ver
    【已解决】FailedtoinitializeNVML:Driver/libraryversionmismatchNVMLlibraryversion:535.161【已解决】FailedtoinitializeNVML:Driver/libraryversionmismatchNVMLlibraryversion:535.161问题描述原因分析和解决当我把这个问题喂给`chatgpt`的时......
  • 【deepin23】python 与 julia环境搭建
    基于deepin23操作系统deepin23操作系统自带python3.12软件,但是没有pip程序。可以自行安装pip程序打开终端更新apt库sudoaptupdatesudoaptupgrade安装pip工具sudoaptinstallpython-pippipconfigsetglobal.index-urlhttps://mirrors.ali......
  • 数据处理和分析之数据预处理:异常值处理(Outlier Detection):基于密度的异常值检测方法
    数据处理和分析之数据预处理:异常值处理(OutlierDetection):基于密度的异常值检测方法数据处理和分析之数据预处理:异常值处理(OutlierDetection):基于密度的异常值检测方法引言异常值检测的重要性在数据科学和机器学习领域,异常值检测是数据预处理中的一个关键步骤。异......
  • Communication-Efficient Learning of Deep Networks from Decentralized Data论文阅
    联邦学习开山之作Communication-EfficientLearningofDeepNetworksfromDecentralizedDataabstractIntroductionTheFederatedAveragingAlgorithmExperimentalResultsConclusionsandFutureWorkCommunication-EfficientLearningofDeepNetworksfromDec......
  • 5分钟英文论文降重工具:DeepL【翻译、改写、缩写】
    关注B站可以观看更多实战教学视频:hallo128的个人空间5分钟英文论文降重工具:DeepL【翻译、改写、缩写】视频学习:5分钟英文论文降重工具:DeepL【翻译、改写、缩写】DeepL网址官方网址:https://www.deepl.com/zh/translator/l/en/en论文降重思路改写:单个词缩写:整段句......
  • Java Deeplearning4j:实现文本分类
    ......