用到的数据集
以下是对文中实验数据的解读:
数据集概况
-
来源:
数据来自滴滴出行的两个真实世界的出租车轨迹数据集,分别是成都和西安。使用了开放地图项目(OpenStreetMap)获取两地的道路网络。 -
轨迹数量:
- 成都:677,492 条轨迹。
- 西安:373,054 条轨迹。
-
道路网络:
- 道路段数量(segments):成都 4,885 段,西安 5,052 段。
- 路口数量(intersections):成都 12,446 个,西安 13,660 个。
数据处理和标注
-
轨迹预处理:
- 采用了流行的地图匹配算法,将原始轨迹转换为地图匹配后的轨迹。
- 对于起点-终点对(SD-pairs),保留至少包含 25 条轨迹的点对,以确保足够的样本量。
- 随机抽取 10,000 条轨迹用于训练,其余轨迹用于测试。
-
标注方式:
- 抽取了 200 个具有足够轨迹数量的 SD-pairs(每对至少 30 条轨迹,平均 900 条轨迹)。
- 通过可视化方式由 5 位参与者手动标注异常轨迹。
- 异常轨迹的定义:由大部分轨迹经过的道路段中显著偏离的轨迹被标注为异常。
- 质量控制:随机抽取 10% 的轨迹,邀请 5 位其他标注者独立标注,采用多数投票法聚合标签,最终标注的准确率为:
- 成都:98.7%
- 西安:94.3%
数据标注结果
-
轨迹与路由(routes)关系:
- 一条路由可能对应多条原始轨迹,因此路由数量少于原始轨迹数量。
-
标注的路由和异常路由数量:
数据集 标注路由数 对应原始轨迹数 异常路由数 对应原始轨迹数 异常比例 成都 1,688 558,098 1,436 3,930 0.7% 西安 1,057 163,027 813 2,368 1.5% -
成都的异常比例较低,为 0.7%,而西安的异常比例为 1.5%。
数据采样率
- 数据采样频率为每 2 秒到 4 秒记录一次数据点。
总结来看,研究通过大规模真实数据和高质量标注,构建了一个准确率较高的轨迹数据集,其中包含异常轨迹用于后续算法验证。
在文中,“标注路由数”和“异常路由数”是指交通轨迹研究中特定的分析对象,和路段(segments)以及路口(intersections)的概念不同。以下是对这些概念的解释:
1. 标注路由数(Labeled Routes)
- 定义:
- 路由(Route)是指车辆从一个起点(S,Start)到一个终点(D,Destination)之间的行驶路径。这些路径由多个道路段(segments)组成,可以是从起点到终点的一条完整路线。
- 与路段、路口的区别:
- 路段(segments)是道路网的基本构成单位,一个路由通常包括多个连续的路段。
- 路口(intersections)是道路段之间的连接点,而路由是由多个路段和路口构成的整体路径。
- 标注路由数的意义:
- 这些路由通过人工标注,确定哪些是正常路径,哪些是异常路径。标注的路由是本研究的核心数据,用于分析交通行为模式和异常检测。
举例:
假设从起点 A 到终点 B 有两条可能路径:
- 路径 1:A → C → D → B
- 路径 2:A → E → F → B
这两条完整路径即为两个路由,其中每条路由包含若干道路段和路口。
2. 异常路由数(Anomalous Routes)
- 定义:
- 异常路由是指与大多数车辆行驶路径显著不同的行驶路线,通常表现为绕路、偏离主路等情况。
- 标注方法:
- 异常路由由人工标注得出,通过对轨迹的可视化检查,识别哪些路由偏离了“正常路线”。
- 标注还可能细化到路由中的某些具体段,标注这些部分为异常。
- 与正常路由的对比:
- 正常路由:由大部分车辆行驶的主要路径。
- 异常路由:偏离主要路径,可能存在绕行、交通事故规避或恶意绕路等原因。
异常路由的现实例:
- 正常路由:从起点到终点沿直线行驶的路径。
- 异常路由:司机选择了一个绕远的路径,或因临时交通状况绕行,导致路径与常规路线偏差较大。
3. 数据中标注路由数与异常路由数
根据文中:
- 成都:
- 标注路由数:1,688 条完整路线。
- 异常路由数:1,436 条,约占 85.1% 的比例。
- 西安:
- 标注路由数:1,057 条完整路线。
- 异常路由数:813 条,约占 76.9% 的比例。
这些路由的数量比原始轨迹数少得多,因为多个轨迹可能对应到相同的路由。
总结
- 标注路由数:研究中人工定义的从起点到终点的完整行驶路径。
- 异常路由数:从标注路由中识别出的偏离正常模式的路线。
- 与路段、路口的关系:
- 一个路由是由多个路段和路口组成的整体行驶路径,而路段和路口是路由的基础单元。
是的,文中明确提到了关于轨迹长度的信息,主要用于将数据集分组,并对模型性能进行评估:
轨迹长度分组
在有效性评估部分,文中提到:
- 将成都数据集按轨迹长度划分为四组:
- G1: 长度 < 15
- G2: 15 ≤ 长度 < 30
- G3: 30 ≤ 长度 < 45
- G4: 长度 ≥ 45
这种划分方式以轨迹的长度(以单位时间段或单位路段数衡量)为基础,从而评估不同轨迹长度对检测效果的影响。
整体轨迹长度评估
在实验结果中:
- 评估指标(如 F1-score 和 T F1-score)不仅对整个数据集进行评估,还在不同长度组别下分别计算,以观察模型在短轨迹和长轨迹上的性能表现。
- 结果表明,无论轨迹长度如何,RL4OASD 方法在所有分组上的性能都优于基线方法,尤其在长轨迹(如 G3 和 G4 组)上的优势更加显著。
轨迹长度的隐含意义
虽然文中没有直接定义“轨迹长度”的单位,但根据上下文,它可能代表:
- 轨迹覆盖的道路段数:
- 即轨迹经过的连续道路段总数。
- 在之前数据集中,成都每条轨迹覆盖约 139 段,西安约 74 段,可以作为轨迹长度的近似指标。
- 时间维度的轨迹长度:
- 如果按采样频率(2-4 秒一次)记录点数计算,长度可能代表轨迹包含的时间段或记录点数。
总结
文中明确提到轨迹长度的分组方式,并且在不同长度的轨迹上分别评估了模型的性能。这表明轨迹长度是检测效果的重要影响因素之一,特别是模型在短轨迹和长轨迹上的适应性有所不同。
文中并未明确说明轨迹数据是否包含具体的坐标信息(如经纬度)。不过,根据上下文和轨迹数据的使用场景,可以推测如下:
推测是否包含坐标数据
-
轨迹预处理:
- 文中提到轨迹数据被预处理为“地图匹配后的轨迹”(map-matched trajectories),这通常意味着:
- 原始轨迹数据可能包含经纬度坐标点。
- 通过地图匹配算法,这些坐标点被映射到具体的道路段(segments)上。
- 地图匹配过程通常需要依赖原始的 GPS 坐标数据来确定车辆行驶的具体道路。
- 文中提到轨迹数据被预处理为“地图匹配后的轨迹”(map-matched trajectories),这通常意味着:
-
异常检测中的“路段”:
- 轨迹被描述为经过一系列的“道路段”(segments)或“子轨迹”(subtrajectories)。
- 每条道路段可能由一对起点和终点的坐标表示(地图匹配后的形式)。
- 因此,轨迹数据可能不直接以原始坐标形式存储,而是经过处理映射到具体的路段或路线。
可能的数据形式
从文中内容可以推测轨迹数据可能具有以下形式之一:
-
原始 GPS 坐标数据:
- 在未经过地图匹配前,轨迹通常是由一系列 GPS 坐标点组成,如:
[(30.123, 120.456), (30.124, 120.457), ...]
- 在未经过地图匹配前,轨迹通常是由一系列 GPS 坐标点组成,如:
-
地图匹配后的路段数据:
- 经过地图匹配后,轨迹可能被转换为一组道路段的序列(每个道路段可能间接包含坐标信息),例如:
其中,每个道路段可能由其端点的坐标定义。[Segment_1, Segment_2, Segment_3, ...]
- 经过地图匹配后,轨迹可能被转换为一组道路段的序列(每个道路段可能间接包含坐标信息),例如:
-
离散化后的标记数据:
- 在用于检测时,轨迹数据可能进一步被抽象为离散化表示,比如:
在这种情况下,轨迹不再直接表现为坐标点,但每个 Road_ID 可以通过外部道路网络映射回其对应的地理坐标。[Road_ID_1, Road_ID_2, Road_ID_3, ...]
- 在用于检测时,轨迹数据可能进一步被抽象为离散化表示,比如:
坐标数据的可能用途
即使文中未明确提及,坐标数据可能在以下步骤中发挥作用:
- 地图匹配:
将原始坐标点映射到具体道路段,生成高精度轨迹。 - 异常轨迹标注:
通过可视化(如地图上的轨迹显示)帮助人工标注异常轨迹。 - 计算轨迹相似性:
使用坐标点计算轨迹之间的距离(如 Frechet 距离等)。
结论
虽然文中未明确说明轨迹数据是否直接包含坐标,但从实验描述和数据处理流程看,轨迹数据可能最初包含 GPS 坐标点,通过地图匹配后被转化为道路段或路由的形式。在研究或分析时,原始坐标数据可能作为基础信息存在,但后续处理后可能未直接用作输入数据。
在这个表格中,异常路由数是包含在标注路由数中的,而不是分开的。以下是表格的详细解读:
表格内容解读
数据集 | 标注路由数 | 对应原始轨迹数 | 异常路由数 | 对应原始轨迹数 | 异常比例 |
---|---|---|---|---|---|
成都 | 1,688 | 558,098 | 1,436 | 3,930 | 0.7% |
每列的含义:
-
标注路由数(1,688):
- 表示在成都数据集中,研究者通过人工标注定义了 1,688 条完整的路由。
- 路由是从起点到终点的完整路径,可能由多条轨迹(车辆行驶的具体记录)构成。
-
对应原始轨迹数(558,098):
- 表示这 1,688 条标注路由总共包含了 558,098 条原始轨迹。
- 每条路由可能对应多条原始轨迹,比如多辆车沿着相同路线行驶。
-
异常路由数(1,436):
- 表示在 1,688 条标注路由中,有 1,436 条被标注为异常路由。
- 这些异常路由是标注数据的一部分,而不是独立的集合。
-
对应原始轨迹数(3,930):
- 这 1,436 条异常路由总共对应了 3,930 条原始轨迹。
- 说明异常路由在原始轨迹中所占比例较小。
-
异常比例(0.7%):
- 异常轨迹在总轨迹中的比例:( \frac{3,930}{558,098} \times 100% = 0.7% )。
- 说明异常轨迹在整个数据集中是稀少的。
是否包含关系?
是的,异常路由数 1,436 是 标注路由数 1,688 的子集,而不是分开的:
- 在标注的 1,688 条路由中,有 1,436 条被认定为异常路由,其余则是正常路由。
如何看这个表格?
-
数据范围:
- 总共有 558,098 条轨迹,这些轨迹被归纳为 1,688 条路由(即多条轨迹映射到相同的路由)。
- 在这些路由中,有少量(1,436 条)被标注为异常。
-
异常轨迹稀疏性:
- 异常轨迹仅占原始轨迹的 0.7%,说明异常检测是一个稀疏问题,难度较高。
-
数据质量:
- 通过这种标注,研究者将复杂的轨迹数据精简为路由级别,同时标注了异常信息,为后续检测任务提供了高质量的训练和评估数据。
总结
异常路由数 1,436 是标注路由数 1,688 的一部分,对应的是一小部分原始轨迹(3,930 条),在整个数据集中的比例较低(0.7%)。这表明异常检测任务需要在大量正常数据中找到少量异常情况,是一个典型的稀疏数据问题。
标签:轨迹,数据,Anomalous,Deep,Detection,坐标,异常,路由,标注 From: https://www.cnblogs.com/GraphL/p/18568546