网络流量数据缺失?新算法可减少误差,提升数据恢复的精确度
武汉加油 共渡难关
福州大学物理与信息工程学院的研究人员汪灿、冯心欣,在2019年第12期《电气技术》杂志上撰文指出(论文标题为“基于交替最小二乘法的时空张量填充算法”),在网络系统中,无论采用何种流量测量系统,都无法避免数据的丢失。为解决网络流量数据的缺失问题,本文提出了一种基于交替最小二乘法的时空张量填充算法以恢复流量数据张量中的缺失值。
本文提出的算法不仅利用了张量分解及其低维表示,还充分考虑了网络流量数据的时空相关性,进一步提高了数据恢复的准确性。本文使用Abilene数据集对算法进行测试,并与现有的填充方法进行对比。实验结果表明,本文提出的方法能够有效地减少流量数据恢复的误差,提升了数据恢复的精确度。
网络流量数据是实现更好的网络管理的必要条件,作为整个网络的概述,它是许多网络任务的关键输入参数,如流量工程、容量规划和异常检测。由于流量测量系统受硬件和传输的影响,在采集过程中,不可靠的连接和传输协议造成流量数据结构丢失。如何有效地处理这些缺失数据仍然是一个挑战。因此,准确地从流量数据中恢复缺失值非常重要。
目前,数据填充算法主要包括基于机器学习的K近邻法(K-nearest neighbors, KNN)等,基于矩阵的稀疏正则化矩阵分解(sparsity regularized matrix factorization, SRMF)和奇异值阈值算法(singular value thresholding, SVT)等,以及基于张量的张量最小交替二乘法(tensor alternating least squares, TenALS)和低秩张量填充算法(tensor matrix completion, TMac)等。
在对网络流量的缺失数据进行处理时,上述方法都存在着一些缺点。例如,K近邻法需要大量的历史数据,造成计算量过大;基于矩阵的方法不能利用数据的多维特性,导致数据恢复的精确度仍然较低;基于张量的方法没有充分考虑数据潜在的时空相关性,无法达到令人满意的恢复结果。
交替最小二乘法是矩阵分解中使用的一种算法,它能有效地估算稀疏矩阵中的缺失值,因此,在众多领域中得到广泛应用。如,运用多元曲线分辨-交替最小二乘法(multivariate curve resolution- alternating least squares, MCR-ALS)研究各种药物之间的相互作用,以及在Spark框架下利用交替最小二乘法优化各种推荐算法等。
时空张量(矩阵)填充算法利用数据之间的时空相关性来提高缺失数据的恢复准确性。如,Roughan等人利用时空矩阵填充算法估算网络流量矩阵的缺失值,以及Lin等人利用时空张量填充算法提高交通数据张量的恢复精度。
为了提高网络流量缺失数据的恢复精度,本文提出了一种基于交替最小二乘法的时空张量填充算法。该算法不仅利用了张量分解及其低维表示,还充分考虑了网络流量数据的时空相关性,进一步提高了流量数据恢复的准确性。
本文研究了网络流量数据的缺失问题。为了减少数据估计的误差,本文利用张量CP分解和网络流量数据的时空相关性,提出了一种基于ALS的时空张量填充算法(TenALS-ST)以恢复流量数据的缺失值。本文使用真实的网络数据集对提出的算法进行测试,实验结果表明,所提出的方法在各种缺失率下都能实现较好的恢复精确度。