首页 / 一种基于特征融合的加密流量特征提取方法

一种基于特征融合的加密流量特征提取方法有效专利 发明

技术领域

[0001] 本发明涉及一种基于特征融合的加密流量特征提取方法,尤其涉及对不同维度的流量特征进行维度升高和融合,旨在为识别加密流量提供高维度可靠特征,属于机器学习、网络服务安全以及流量识别技术领域。

相关背景技术

[0002] 流量是网络信息传输的载体。为了保护用户隐私,现有的网络传输协议采用加密方式传输数据。通过对加密网络流量进行分析识别,可以为网络服务供应商能够更好地制定路由策略、提高关键传输节点的数据分发效率提供理论依据,进一步提升网络用户的用户体验。现有的加密流量识别方法依赖于单一维度的网络流量特征如数据包长度、数据包的标志位信息、数据包的时间信息登,仅依靠单维度的特征对加密流量的识别帮助有限,通过不同维度的特征融合能够更好地提升加密网络流量分类效果。
[0003] 现有的流量识别方法主要包含两大类:明文流量识别和加密流量识别。在明文流量识别中采取的主要技术是深度数据包检测和端口检测。随着加密技术的采用和跳变端口技术的采用,网络通信过程中的数据包被加密,深度数据包检测技术和端口检测技术逐渐失去了效用。现在的研究热点主要集中在加密流量识别中。
[0004] 在加密应用网络流量分类和识别方面,可检索到的关联最大的两项专利为:
[0005] (1)已有文献A提出一种基于马尔科夫链的加密网络流识别方法。该方法利用SSL/TLS加密后数据包的标志位信息构建不同加密应用的马尔科夫指纹,在分类未知应用的加密流量时计算该未知应用被分类成其它不同应用的概率,使用极大似然法来决断该未知应用的所属类别。在构建马尔可夫指纹时用到的标志位状态有限,不同加密应用的指纹可能会非常相似,不同加密应用的指纹部分重合的情况时有发生,这导致该种方法在加密应用识别上的准确度降低。
[0006] (2)已有文献B提出了一种基于数据包长度特征的加密流量识别方法。该方法利用每条加密流的数据包长度统计特征值,如最小值、最大值、中位数、平均数等,总计54个统计特征值构建不同加密应用的指纹,之后使用随机森林分类器进行加密流量的识别于分类。随着待分类流量的数量和种类增加,该种分类方法在分类准确率上的表现页大打折扣。
[0007] 综上所述,在现有的加密流量分类领域,加密流量分类方法依靠单维度的特征构建加密应用的指纹,单维度的特征随着应用数量增加,单维度特征构建的加密应用指纹难以提供足够的区分信息,会导致对加密应用的分类准确率降低。

具体实施方式

[0061] 下面结合附图和实施例,更具体地说明本发明“一种基于特征融合的加密流量特征提取方法”的过程,并阐述其优点。应当指出,本发明的实施并不局限于下面的实施例,对本发明所做的任何形式上的变通或改变均将落入本发明的保护范围。
[0062] 实施例1
[0063] 本实施例是基于本发明的步骤1到步骤3进行的完整的加密流量特征提取仿真,整体流程图如图1所示,Dataset Collection为数据采集阶段,可以采集淘宝、京东等使用加密协议传输数据的网站流量,然后进行特征后去,接着进行特征选择和特征融合,最后将融合后的特征用于机器学习分类器进行分类。通过抽取不同维度的特征,使用径向基核函数进行特征升维来获得最后参与分类的特征集合。
[0064] 采集淘宝、京东、网易云、亚马逊、支付宝、微信等采用加密协议传输的流量,以五元组的形式进行分流,具体为:
[0065] 首先是提取数据包关于数据包长度、数据包时间信息和数据包Burst行为的统计特征值,具体流程如图1所示。假设捕获到的某条数据流表示为F=(p1,…,pn),提取这条流的数据包长度统计特征Plen=[[plen1],…,[plen57]],数据包时间信息统计特征Ptime=[[ptime1],…,[ptime54]],和数据包Burst行为统计特征Burst=[[burst1],…,[burst72]]。Burst行为示意图如图2所示,一条流中的Burst包含两个方向Ingress Burst和Egress Burst,Burst Size为Burst中的数据包个数,Burst Length为Burst中数据包长度之和。
[0066] 使用随机森林中的基尼系数来计算这些特征的贡献度,部分特征的特征贡献度如表1所示。根据特征贡献度和排序后的特征位数计算随特征个数变化的CFC值,随特征个数变化的CFC值示意图如图3所示,选择图中的拐点作为融合特征的最优数量,在本次示例中,我们选择120作为融合特征的最优数量。
[0067] 表1部分特征特征贡献度
[0068]特征 贡献度 特征 贡献度
plen_18 0.030011 burst_11 0.016430
plen_38 0.027685 plen_35 0.015731
plen_55 0.025450 burst_17 0.015577
plen_47 0.018072 plen_33 0.015150
plen_34 0.017442 plen_40 0.014951
plen_42 0.016791 burst_16 0.014811
[0069] 接着将选择出来的特征按照步骤3中的方法进行特征升维和融合,将融合后的特征用于流量分类。
[0070] 实施例2
[0071] 本实施例是将本发明所述方法提取的流量特征用于机器学习分类器,与其它只用单维度特征分类器进行对比,以验证本发明的优势及有效性。将本发明所述的基于特征融合的加密流量特征提取方法与传统机器学习算法随机森林结合,作为本方法的分类器,记为FFP。
[0072] 要对比的方法包括只用数据包标志位作为特征的马尔可夫分类器(MARK)和只用数据包长度作为特征的随机森林分类器(APPS)。对比的指标包括分类器的准确率(Accuracy)和F1-score,F1-Score综合考虑了精确率(Precision)和召回率(Recall)对分类器的评估标准。对比结果如表2所示。
[0073] 表2与先进的流量分类模型分类效果对比
[0074]分类方法 MARK APPS FFP
准确率 0.5879 0.8080 0.9181
F1-Score 0.5665 0.7977 0.9175
[0075] 从表2可以看出,本发明与现有的流量分类方法相比,具有明显优势,分类的准确率和F1-Score都高于其他两种分类算法。本发明对使用加密协议加密后的流量可以提取良好的流量特征,助力于加密流量分类检测,能够提高分类准确率,可以投入实际应用中。
[0076] 虽然本文结合附图实例描述了本专利的实施方式,但是对于本领域技术人员来说,在不脱离本专利原理的前提下,还可以做出若干改进,这些也是为属于本专利的保护范围。

当前第1页 第1页 第2页 第3页
相关技术
提取方法相关技术
流量特征相关技术
沈蒙发明人的其他相关专利技术