常见的网络流量识别技术
1、基于网络端口映射的流量分类识别方法
简介:该方法通过检查网络数据包的源端口号和目的端口号,根据相应网络协议或网络应用在通信时使用的端口号规则并与之映射,进而识别不同的网络应用
缺点:而随着网络技术的不断发展,这一方法的局限性也越来越明显。首先,IANA 并没有为所有的应用尤其是一些后来的新应用都定义通信端口号,这样网络端口号与应用之间不可能总是一一对应的[9];其次,某些常用协议在数据传输时使用的端口号并不固定,例如:FTP 被动模式允许服务器端和客户端动态协商文件传输端口号,而不一定使用预定义的周知端口;另外,多个网络协议的服务可以被包装成常见的应用而使用同一端口号,如许多 P2P 应用常利用类似 80 这样的周知端口或通过动态端口的方式来进行数据传输,而基于网络端口映射的流量分类识别方法对于这些问题已经无能为力,该方法的识别准确率和可靠性也不断下降,已经无法满足当今网络流量分类识别的需求。
2、基于有效载荷分析的流量分类识别方法
简介:基于有效载荷的流量分类识别方法通过分析网络数据包的有效载荷是否与特征识别库相匹配来确定网络流量类别。该方法需预先建立网络流量的应用层特征识别规则库,并通过分析有效载荷中的关键控制信息来验证其是否匹配规则库中的某一特征识别规则,进而确定该网络流量类型,因此,在实际使用该方法时,网络流量分类识别的过程也可被认为是模式验证的过程
缺点:当前,随着网络带宽不断增加,大量数据不断涌入互联网中,新型网络应用不断出现及原有的网络应用不断更新,规则库中需要存储的流量识别特征规则也快速膨胀,系统的处理和存储开销日益庞大。此外,更重要的是,完整的网络有效载荷分析不仅计算开销大,且有可能涉及到用户隐私纠纷和数据安全泄密问题,因此,在其发展过程中受到了一定的阻力
3、基于行为特征的流量分类识别方法
简介:基于行为特征的流量分类识别方法利用不同的网络应用具有不同的通信行为模式的原理,从流量特征的宏观角度对网络流量进行分类识别。该方法通过分析不同的网络应用在主机连接,网络协议使用和网络流中数据包的平均大小等传输连接模式上的宏观行为差异来解决流量分类问题,例如,FTP 协议主要用于大文件的传输服务,而 P2P(peer to peer)传输基于网络对等互连技术实现信息与服务的共享,协作与管理,因此,从流量行为特征集上看,FTP 应用产生的网络数据包平均长度更大,连接持续时间更长,P2P 应用产生的数据流量通常是持续的双向数据传输,而 FTP 应用所带来的网络流量其传输方向主要是单向的。
缺点:基于行为特征的流量分类识别方法从宏观角度对网络流量进行识别,通过分析各网络协议和网络应用映射到传输层的行为模式上的差异来进行相应网络流量的分类识别。由于此类方法的系统时空开销较大,识别实时性较差,近年来的相关研究进展有限
4、基于机器学习的流量分类识别方法
简介:基于机器学习的流量分类识别方法大致可分为基于有监督学习的流量分类识别方法,基于无监督学习的流量分类识别方法和基于半监督学习的流量分类识别方法
当前流量识别技术存在问题总结:
1)精确度仍然不够。相比于一般用途的分类,互联网流量巨大,且一些常见的流量占据了较大的部分,仅从流量的构成角度而言,常规的流量类型相对容易识别,但那些识别比较困难的流量,比如,封装的、非标准的、误用的或异常的流量,虽然占据总流量的比例不大,但对总体的错误率而言,几个百分点的差距意味着要么主要的流量类型不能被有效识别,要么有一些流量无
法识别。
(2)在利用流量的特征行为属性集进行训练和测试的过程中,选择哪些特征属性以及怎样使用这些特征集还有待进一步论证。此外,识别准确率的概率变化与不同类型的特征值之间的关系也有待进一步研究。
(3)实时性还较为有限。尽管流量分类识别问题的实时实现是非常有前景的,但目前,系统的性能和操作的可行性还不能满足实际应用要求。
(4)无法快速发现和正确识别一些关键性的流量,如入侵和网络异常。入侵检测系统在理想状态下,要求漏报率 FN(False-Negative)为零,并低延迟地鉴定出恶意入侵流量。
(5)数据完整性的问题。以前大家通常从一些应用程序,如 Web 浏览器,电子邮件,FTP,多媒体应用中选择分类对象,而这不能充分地代表整个互联网中各种不同的流量类型。此外,对于在线流量测试的系统而言,系统的准确性、完整性、延迟和吞吐量等指标之间相互关联、相互制衡,我们需要权衡各个指标的要求以达到系统的总体性能最优化。
附注:本文为摘抄周文刚博士论文,仅供学习、研究使用,无任何商业目的,尊重作者版权。
参考:《网络流量分类识别若干技术研究》,周文刚