本要是对于原文的部分内容翻译、摘录。详情请阅读原文。(未看完)
引言
为了解决检测具有动态和时变特征的复杂上下文异常的问题,新的有前途的循环神经网络(RNN)体系结构出现了。
由于最近出现了不同的LSTM方法,这些方法被广泛用于不同的异常检测目的,本文旨在对技术系统的异常检测进行详细概述,明确地关注这些LSTM方法,并额外关注即将到来的基于图的和迁移学习方法。
异常的分类
异常发生在不同的领域,比如网络安全、物联网、医学、制造系统等。所有领域的基本共同点是将异常理解为对规则的偏离或不被视为正常系统行为的一部分。
point anomalies
对于这种不规则性的检测,最初的主要研究重点是用于检测异常值或点异常的随机方法。因此,计算目标参数的概率密度,将一定的百分比宣布为异常,从而获得一定程度的异常(Zimek和Schubert, 2019)。
(Chandola et al., 2009)中提出的异常检测随机方法概述介绍了技术系统时间序列数据中出现的更多类型的异常。因此,除了统计上描述的异常值之外,Collective anomalies 和 Contextual anomalies 被定义为进一步的异常类型。
图1显示了根据(Kim and Cho, 2018a)将三种异常类型纳入单变量时间序列。
Collective anomalies
集体异常可以被描述为一组数据向量,其中每个单独的数据向量都处于容忍度中,但该组的组成表明存在不规则性。
Contextual anomalies
上下文异常可以描述为单个数据向量(无点异常)或数据向量组(无集合异常)在容忍范围内,但它们表现出与特定周围数据向量或数据向量组(这里称为上下文)的不规则性。
相对于由内部结构或内容描述的collective anpmalies,contextual anomalies的检测高度依赖于周围外部数据结构的短期和长期特征。对于多元时间序列,一个数据向量或一组数据向量的上下文可以被解释为位于一个定义的时间范围内的所有周围数据向量的联合
基于LSTM网络的异常检测
LSTM的结构如图2所示。
基于LSTM网络的方法
由于LSTM网络能够学习时间关系并在低维状态表示中捕获它们,因此它们注定能够检测上下文异常。
Malhotra, P., Vig, L., Shrof, G., Agarwal, P., 2015. Long short term memory networks for anomaly detection in time series提出了一种堆叠LSTM结构,用于检测时间序列数据中的异常。与鲁棒或去噪的LSTM AE相比,没有使用降维特征作为输入。该检测是通过基于方差分析来评估预测输出的偏差来实现的
Taylor, A., Leblanc, S., Japkowicz, N., 2016. Anomaly detection in automobile control network data with long short-term memory networks.中,深度LSTM网络被用作车辆常规总线通信行为的预测器,使用动态阈值检测显著偏差来检测由网络攻击引起的异常通信行为。
Ergen, T., Mirza, A.H., Kozat, S.S., arXiv:1710.09207 2017. Unsupervised and Semisupervised Anomaly Detection with LSTM Networks. 提出了复合体系结构。利用LSTM网络预测规则系统动力学,并应用支持向量机作为异常分类器,实现适应性强的自学习检测机制。因此,多元数据中的时间异常可以半监督或无监督的方式检测
Bontemps, L., Cao, V.L., McDermott, J., Le-Khac, N.A., 2016. Collective anomaly detection based on long short term memory recurrent neural networks. 提出一种用LSTM网络检测集体异常的方法见。与单独评估每个时间步长相比,其新颖性在于对多个提前一步的预测误差进行评估。LSTM网络通过预测建模平稳和非平稳的时间依赖性来提高检测精度。从而实现了对时间异常结构的有效检测。
Lee, M.-C., Lin, J.-C., Gan, E.G., 2020. ReRe: a lightweight real-time ready-to-Go anomaly detection approach for time series 实现了一种基于两个LSTM网络的实时检测方法。一种是建模短期特征,能够检测时间序列内单个即将出现的异常数据点,另一种是基于长期阈值控制检测。
基于编码器-解码器的方法
近年来开发的具有编码-解码器体系结构的新型神经网络方法在无监督检测任务中具有极好的适用性。
AE网络是一个例子,其中编码器部分的目的是学习输入数据的低维表示,解码器部分的目标是重建这些压缩特征(Schmidhuber, J., 2015. Deep learning in neural networks: an overview. Neural Netw)。因此,AE使用代表正常系统的数据进行训练,并学习如何压缩和重建这些数据。相反,用训练好的 AE 处理异常数据会导致重建误差。
Zhou, C., Paffenroth, R.C., 2017. Anomaly detection with robust deep autoencoders.
重构误差可以用来生成一个异常检测机制。以鲁棒深度AE为例。在这种情况下,AE 中集成了主成分分析和正则化层,对输入数据进行去噪并实现鲁棒检测行为。为了有效地提取异常,重构度量由两部分组成。
Naseer, S., et al., 2018. Enhanced network anomaly detection based on deep neural networks.
文中描述的收缩性LSTM AE也采用了类似的方法。重构度量的一部分评估从正常数据中分离异常值(如异常值)的能力,另一部分评估发现数据内部关系的能力。此外,描述了一种去噪LSTM AE,旨在通过提取受干扰数据中的底层和未损坏的关系来优化预测和检测精度。
LSTM和AE的组成允许学习时间低维特征方面的短期和长期依赖关系,从而为检测复杂的时变异常提供了基础。
Park, D., Hoshi, Y., Kemp, C., 2018. A multimodal anomaly detector for robot-assisted feeding using an LSTM-Based variational autoencoder
引入了一种LSTM AE的变形来进行异常检测。该方案在编码器和解码器部分采用概率投影机制。因此,输入序列转换为低维特征分布,并基于特征值进行重构。该方法通过计算真实输出和重建输出的对数似然分数,应用基于对数似然的异常检测。此外,训练后的编码器可单独用于概率降维目的。
Lindemann, B., Jazdi, N., Weyrich, M., 2020b. Anomaly detection and prediction in discrete manufacturing based on cooperative LSTM networks
提出了另一种方法,其中使用LSTM AE建模离散制造过程的正常系统行为。利用训练好的网络解码器部分作为逆过程模型,通过基于扰动观测器的真实和重构驱动变量的比较来检测异常情况。因此,不同的扰动驱动系统的特征的影响,如静止和非静止异常,可以被检测到。
sequence-to-sequence (Seq2Seq) LSTM
Fernando, T., Denman, S., Sridharan, S., Fookes, C., 2017. Soft + hardwired attention: an LSTM framework for human trajectory prediction and abnormal event detection
Seq2Seq LSTM在该文中被用于基于通过网络传播的细胞状态检测异常。未知的细胞状态和编码器和解码器层之间高度偏离的复制向量被认为是异常。然后通过后处理聚类算法进一步评价。
Loganathan, G., Samarabandu, J., Wang, X., 2018b. Sequence to sequence pattern learning algorithm for real-time anomaly detection in network traffic.
描述另一种Seq2Seq方法,其中可以通过建模和预测各种属性来检测不同的异常类型。该方法在基准数据集的实证研究范围内优于堆叠LSTM。
Kieu, T., Yang, B., Guo, C., Jensen, C.S., 2019. Outlier detection for time series with recurrent autoencoder ensembles.
(Kieu等人,2019)提出了一种增强Seq2Seq LSTM网络的泛化和外推能力以优化异常检测的方法。所提出的体系结构如图3所示。
它由稀疏连接的编码器和解码器组成,包含依赖于输入序列中的信息密度的跳跃连接,并支持更灵活的单元状态传播。多个编码器使用相同的复制层将减少的特征向量传播到解码器。这个过程可以防止过拟合,并导致更好的泛化特征。检测异常的代价函数使所有重构误差的整体最小化,并包含一个惩罚项来控制联合复制层中的信息流。