知识就是力量

当前位置:首页 > 技巧


可自适应动态调整密度网格的网络流量聚类方法和装置与流程

2022-11-04

可自适应动态调整密度网格的网络流量聚类方法和装置与流程

1.本申请涉及计算机网络安全领域,尤其涉及一种能够自适应动态调整密度网格的网络流量聚类方法和装置。

背景技术:

2、目前,部分企业的内部网络规模随着企业的发展不断扩大。企业终端的种类、数量和应用范围越来越多样化。终端安全防护的形式越来越严苛。网络攻击层出不穷。然而,优质、高效、安全的企业网络和终端环境是企业良好发展的重要保障,但相关技术中的网络监控手段已无法满足实时监控、快速识别、部分企业及时监控内部终端网络行为。阻塞需要。与家庭用户相比,企业终端的数据等资产更有价值,而由终端、服务器等不同软硬件组成的内部网络带来了更加复杂的病毒来源、感染和传​​播途径。更严峻的终端用户网络行为安全挑战对保护、管理和应用提出了更严格的要求。

3、如何通过对企业内网流量的实时分析检测,准确地监控和预测内网用户终端的行为,是企业内部业务建设和管理面临的严峻问题。因此,寻找一种高效、准确的网络流量分析方法,以及一种能够根据网络状态和业务流量的变化自适应动态调整的方法,成为解决上述问题的关键。

4、针对上述问题,目前尚未提出有效的解决方案。

技术实施要素:

5、本申请实施例提供一种能够自适应动态调整密度网格的网络流量聚类方法及装置,以至少解决现有技术中聚类不准确的技术问题。

协议内容特征值和ip数据包获取时间;根据网格的密度阈值对第一时刻的特征向量进行聚类,得到第一聚类结果;根据第一次聚类结果调整网格间距和密度阈值;在密度阈值调整后的网格上,对第二时刻企业局域网的网络流量特征的特征向量进行聚类,得到第二次聚类结果。

7、根据本申请实施例的另一方面,还提供了一种能够自适应动态调整密度网格的网络流量聚类装置,包括: 获取单元,用于获取企业本地的网络流量特征。 area network in first 时刻的特征向量,其中网络流量的特征包括:源mac地址、目的mac地址、数据帧协议标识符、源ip地址、目的ip地址、ip包类型、ttl、tos、 ip包分片标识符、ip包分片偏移值、ip扩展字段、源tcp端口号、目的tcp端口号、tcp连接标识符、tcp接收窗口值、tcp确认字段、tcp序列

number字段、源udp端口、目的udp端口、数据长度、协议内容特征值、ip数据包获取时间;第一聚类单元,用于根据网格的密度阈值对第一时刻的特征向量进行聚类,得到第一聚类结果。调整单元,用于根据第一聚类结果调整网格间距和密度阈值;第二聚类单元,用于调整间距和密度阈值后的网格,对第二时刻企业局域网的网络流量特征的特征向量进行聚类,得到第二聚类结果。

8、根据本发明实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,在该程序运行时执行上述方法。

9、根据本发明实施例的另一方面,还提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并运行在所述处理器上的计算机程序,所述处理器执行上述操作。通过计算机程序的方法。.

10、在本申请的实施例中:

11.1) 提出了一种自适应动态调整密度网格的网络流量聚类方法,可用于网络终端行为剖析或网络流量异常行为监测。该方法首先在特征流量组成的训练样本上标记出ip地址、tcp/udp端口号、tcp会话标志、数据包长度等流量特征和流量类型,确定关键特征向量。然后将交通特征和交通类型标签输入聚类模型进行训练。通过每个特征域向量空间中的网格划分,以及在网格上训练流量形成的密度分布,形成特征流量检测模型(即预设模型)。然后,提取ip地址、tcp/udp端口号、tcp会话标志等特征。对于从网络中采集的实时原始交通数据,将提取的特征向量特征输入到检测模型中。对网格密度分布进行分类。并根据分类结果偏差,实时调整网格调整间隔和密度阈值,进一步提高检测精度。特征网格在上一次检查时间与当前检查时间的密度值的差异反映了数据的不确定性特征对密度阈值的影响,从而自适应调整密度阈值,有效避免网格-基于相关技术的密度聚合。由于类算法中对数据集全局使用统一的密度阈值,聚类结果不准确且有偏差。

12.2) 通过不断反映数据的不确定性特征对密度阈值的影响,通过特征网格在上一次检查时间与当前检查时间的密度值差异自适应调整密度阈值,有效避免了网络相关技术中的基于方法。在格密度聚类算法中,由于数据集全局使用统一的密度阈值,聚类结果不准确且有偏差。并且通过设置关键特征向量,保证新的终端向量不被压缩和消除,从而适应企业内部网络终端的行为概况或监控网络流量的异常行为。

13、进一步解决了相关技术中聚类不准确的技术问题。

图纸说明

14.此处描述的附图用于提供对申请的进一步理解,并构成申请的一部分。本申请的示意性实施例和说明用于解释本申请,并不构成对本申请的不当限制。在附图中:

15. 图。附图说明图1为本申请实施例提供的一种可自适应动态调整密度网格的可选网络流量聚类方法流程图;

16. 图。图2为本申请实施例提供的一种可选的能够自适应和动态调整密度网格的网络流量聚类方案的示意图。

详细方法

17、为使本领域技术人员更好地理解本申请的方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。 . 显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

18. 需要注意的是,本申请的说明书和权利要求书以及上述附图中的术语

ꢀ“

“第一”、“第二”等用于区分相似的对象,不一定用于描述特定的顺序或顺序。应当理解,这样使用的数据可以在适当的情况下互换,使得实施例可以以除了这里所图示或描述的那些以外的顺序来实施。此外,术语“包括”和“具有”及其任何变体意在涵盖非排他性的包含,例如,包括一系列步骤或单元过程、方法、系统、产品或设备不一定限于那些明确列出的步骤或单元,但可能包括未明确列出或此类过程、方法、产品或设备固有的其他步骤或单元。

19. 相关技术中的数据聚类方法只能对固定大小的数据集进行聚类分析,而相关技术中的聚类会在每次聚类完成后释放内存中存储的数据结构,数据将在下一次聚类中收集。类时间从数据集中重新读取数据进行聚类,不能对时间敏感的数据进行准确的实时聚类分析,尤其不适合大容量的网络流量分析和聚类。因此,流式聚类算法多用于实时海量数据的聚类分析。流式聚类算法有多种实现算法,其中基于网格密度的算法与其他流式数据聚类算法相比具有一定的优势,例如:网格密度算法可以适应数据流的演化特征,可以识别任意形状的簇;此外,对于层次聚类,虽然算法可以适应数据流的演化,但基于距离的聚类不如基于网格的聚类。基于密度的算法可以很好地识别出各种形状的簇;并且与基于密度的聚类算法相比,基于网格的基于密度的算法在处理数据时采用划分数据网格的方法,然后对新数据进行对齐。传入的数据是网格映射的,在更新网格的时候,并不是所有的网格密度都更新了,而是数据映射的网格更新了,在后面的操作中处理的是网格而不是数据,所以相比其他算法有优势在运营效率上。所以,

然而,基于密度网格的数据流聚类算法的速度和效率得到了很大的提高,但本质上是对密度网格方法的改进。因此,原有的基于密度网格的数据流聚类算法由于网络流量的强突发性和网络中终端设备的不断进出,存在一定的缺陷。例如: 1、网格单元的密度阈值参数难以设置,针对网络中的突发流量和新兴的新终端,难以适当设置该参数;2.集群的边界难以准确。如果对数据进行压缩存储,就会丢失数据在网格单元中的分布信息,容易导致聚类结果的偏差。交通流特征的不断变化导致个别终端被视为噪声点,这在一定程度上影响了聚类的效率。本申请声称提出一种自适应调整网络密度参数的方法,数据的不确定性特性对密度阈值的影响通过特征网格在前一次检查时的密度值的差异来体现在当前检查时间,进行自适应调整。密度阈值可以有效避免相关技术中基于网格的密度聚类算法中全局使用统一的密度阈值导致的聚类结果不准确和有偏差。通过设置关键特征向量,

20.本应用是一种网络流量聚类分析检测方法,主要针对企业内部网络面临的问题。

对企业网络内部的网络攻击、病毒传播、网络欺骗等网络攻击进行分析检测,以供用户终端使用和网络访问行为,快速有效监控网络攻击等异常行为,提高网络安全防御能力。

21、根据本申请实施例的一个方面,提供了一种能够自适应地动态调整密度网格的网络流量聚类方法的方法实施例。如图1所示,该方法可以包括以下步骤:

22、步骤s102,第一时刻获取企业局域网的网络流量特征的特征向量,网络流量的特征包括:源mac地址、目的mac地址、数据帧协议标识、源ip地址、目的ip地址、ip数据包类型、ttl、tos、ip包分片标识符、ip包分片偏移值、ip扩展字段、源tcp端口号、目的tcp端口号、tcp连接标识符、tcp接收窗口值、tcp确认字段、TCP序列号字段、源udp端口、目的udp端口、数据长度、协议内容特征值和ip包获取时间。

23、步骤s104,根据网格的密度阈值对第一时刻的特征向量进行聚类,得到第一聚类结果。

24、根据网格的密度阈值对第一时刻的特征向量进行聚类,得到第一聚类结果包括:对第一时刻的特征向量进行范围归一化处理,得到处理后的特征向量:根据grid 对处理后的特征向量进行聚类,得到第一个聚类结果。

25、对第一时刻的特征向量进行范围归一化处理包括按照下式对第一时刻的特征向量进行处理,得到处理后的特征向量: 其中,x

ij

表示处理前第i个特征向量中的第j个特征向量,表示处理前第i个特征向量的均值,max x

ij

表示处理前第i个特征向量中的最大值,min x

ij

表示处理前第i个特征向量中的最小值,x

ij

'

表示处理后的第 i 个类特征向量中的第 j 个特征向量。

26、根据网格的密度阈值对第一时刻特征向量进行聚类,得到第一聚类结果包括:利用检测公式对第一时刻特征向量进行聚类,得到用于表示的第一聚类结果分类结果。聚类结果。

27、步骤s106,根据第一聚类结果调整网格间距和密度阈值。

28、根据第一聚类结果调整网格的密度阈值包括: 使用预设模型根据第一聚类结果调整网格的密度阈值。

29、步骤s108,使用调整间距和密度阈值后的网格对企业局域网的网络流量在第二时刻(即第一时刻之后的下一时刻)的特征向量进行聚类, 以获得第二个时刻。聚类结果。

30.本申请提出了一种能够自适应地动态调整密度网格的网络流量聚类方法。特征网格在上一次检查时间与当前检查时间的密度值之间的差异反映了数据的不确定性特征。因此,自适应调整密度阈值,有效避免了现有技术中基于网格的密度聚类算法对数据集全局采用统一的密度阈值,导致聚类结果不准确和有偏差。通过设置关键特征向量,建立关键特征向量表,保证了当新的终端向量出现在关键特征向量空间时,如果没有出现在关键特征向量表中,则不会被认为是噪声压缩和消除。为了适应企业内部网络终端的行为剖析或监控网络流量的异常行为。可以解决相关技术中聚类不准确的技术问题。

31、作为一个可选实施例,下面结合图2对本申请的具体实施例进行详细说明:

32.1、数据输入模块

33、根据数据包对输入的网络流量进行特征提取。并确定关键特征向量,并建立关键

特征向量。具体提取特征包括:源mac地址、目的mac地址、数据帧协议标识符、源ip地址、目的ip地址、ip数据报类型、ttl、tos、ip分片标识符、ip分片偏移值、ip扩展字段、源tcp端口号、目的tcp端口号、tcp连接标识符、tcp接收窗口值、tcp确认字段、tcp序列号字段、源udp端口、目的udp端口、数据长度、协议内容特征值(arp、icmp、dns、 http等),数据包获取时间。

34.2、数据特征量化模块

35、将特征提取后的数据加入范围标准化过程,即从每个维度对应的值中减去数据的平均值,然后除以范围进行计算。零以减少数据计算中的误差。ip地址按照32位整数值进行量化,对于非数字文本类型按照文本分类枚举数进行量化。具体范围标准化处理公式如下:

[0036] [0037]

3.网格映射模块

[0038]

特征向量的网格映射采用时间窗法处理,即每隔间隙时间间隔将时间窗内的数据划分映射一次。当有新数据到来时,先存储在时间窗口中,等到下一个gap到来时再进行处理。具体处理流程如下:

[0039]

(1) 为每个特征向量建立一个密度空间。

[0040]

(2) 确定参数k(k≥流类型数),将密度空间划分为k个网格。

[0041]

(3)输入的特征值对应网格。

[0042]

(4) 根据公式计算间隙:

[0043] [0044]

n 是输入数据量,m 是特征数,c

l

是稀疏网格密度阈值,c

是密集网格密度阈值。

[0045]

(5)判断此时是否达到gap时间间隔。如果已经检测到关键特征向量空间的稀疏网格,如果在关键特征向量空间的稀疏网格中出现了新的噪声点,并且该噪声点没有出现在关键特征向量列表中,则稀疏网格为保留并将噪声添加到关键特征向量列表中。否则删除稀疏网格并调整网格密度。

[0046]

4.流量检测模块

[0047]

映射网格后,输入流量通过检测公式进行分类,分类结果反馈给管理器。具体检测公式为:

[0048] [0049]

a为输入交通特征所在的网格密度质心值,b为训练集交通特征所在的网格密度质心值,m为特征个数。

[0050]

5.调整阈值参数模块

[0051]

在完成一个gap区间的数据检测后,根据检测偏差调整稀疏网格密度阈值。调整公式如下:

[0052] [0053]

是与当前调查时间t最接近的上一次调查时间,即间隔时间,d

(t) 是网格单元g在当前时间t的密集网格阈值,d

zh

(克,吨

)为上一时刻网格g的网格密度值,k为统计网格单元数,β为衰减系数。

[0054]

6.检测模型生成模块

[0055]

使用训练集时,根据交通类型分类得到每个特征向量的网格密度分布,将分类后的网格密度分布保存在数据库中用于检测。

[0056]

本申请公开了一种自适应动态调整密度网格的网络流量聚类方法,可用于网络终端行为画像或网络流量异常行为监测。该方法首先对特征流量组成的训练样本进行流量特征和流量类型的标记,如ip地址、tcp/udp端口号、tcp会话标志、数据包长度等,确定关键特征向量。然后将交通特征和交通类型标签输入聚类模型进行训练。特征流量检测模型由每个特征域的向量空间中的网格划分和网格上训练流量形成的密度分布构成。然后,提取ip地址、tcp/udp端口号、tcp会话标志等特征,对从网络中采集的实时原始交通数据进行等处理,并将提取的特征向量特征输入到检测模型中。对网格密度分布进行分类。并根据分类结果偏差,实时调整网格调整间隔和密度阈值,进一步提高检测精度。本申请的技术效果是通过上一次检查时特征网格的密度值的差异,反映数据的不确定性特征对密度阈值的影响,自适应调整密度阈值在当前检查时间,有效避开了相关技术。在基于网格的密度聚类算法中,

[0057]

需要说明的是,为了描述的简单起见聚类集成方法,上述方法实施例均表示为一系列动作组合,但本领域技术人员应当知道,本申请不受所描述的动作顺序的限制。因为根据本申请,某些步骤可以以其他顺序或同时执行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

[0058]

通过以上实施例的描述,本领域技术人员可以清楚地了解到,上述实施例的方法可以通过软件加必要的通用硬件平台的方式来实现,当然也可以通过硬件来实现,但是在很多情况下前者执行效果更好。基于这样的理解,本申请的技术方案可以在本质上或以软件产品的形式体现或对现有技术有贡献的部分,并将计算机软件产品存储在存储介质(如rom/ ram、磁盘、CD-ROM),包括使终端设备(可以是手机、计算机、服务器或网络设备等)执行本发明各实施例中描述的方法的若干指令应用。

[0059]

根据本申请实施例的另一方面,还提供了一种能够自适应动态调整密度网格的网络流量聚类装置,用于实现上述能够自适应动态调整密度网格的网络流量聚类方法。该装置可以包括:

[0060]

获取单元用于第一时刻获取企业局域网的网络流量特征的特征向量,其中网络流量特征包括:源mac地址、目的mac地址、数据帧协议标识、源ip地址、目的ip地址,ip包类型,ttl,tos,ip包分片标识符,ip包分片偏移值,ip扩展字段,源tcp端口号,目的tcp端口号,tcp连接标识符,tcp接收窗口值,tcp确认字段, tcp序列号字段、源udp端口、目的udp端口、数据长度、协议内容特征值、ip包获取时间;

[0061]

第一聚类单元,用于根据网格的密度阈值对第一时刻的特征向量进行聚类,得到第一聚类结果;

[0062]

调整单元,用于根据第一聚类结果调整网格间距和密度阈值;

[0063]

第二聚类单元,用于利用调整间距和密度阈值后的网格对第二时刻企业局域网的网络流量特征的特征向量进行聚类,得到第二聚类结果。

[0064]

此处需要说明的是,上述各模块及对应步骤所实现的示例及应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,作为装置的一部分,上述模块可以运行在硬件环境中,可以通过软件实现,也可以通过硬件实现。

[0065]

可选的,本实施例中的具体示例可以参见前述实施例中的示例,本实施例在此不再赘述。

[0066]

可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory) )、移动硬盘、磁碟、光盘等各种可以存储程序代码的介质。

[0067]

上述本申请实施例序号仅用于说明,不代表实施例的优缺点。

[0068]

如果上述实施例中的集成单元以软件功能单元的形式实现,作为独立产品销售或使用,则可以存储在上述计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上可以体现为软件产品的形式,或者对现有技术有贡献的部分,或者全部或部分技术方案,计算机软件产品是存储在存储介质中,包括若干指令以使一个或多个计算机设备(可以是个人计算机、服务器或网络设备等)执行在本发明的各个实施例中描述的方法的全部或部分步骤。本申请。

[0069]

在本申请的上述实施例中,对各个实施例的描述各有侧重。某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

[0070]

在本申请提供的几个实施例中,应当理解,所公开的客户端可以通过其他方式实现。以上描述的装置实施例仅是示例性的,例如,单元的划分只是逻辑上的功能划分,在实际实现中还可以有其他的划分方式,例如可以将多个单元或组件组合或集成到另一个系统中。 ,或者某些功能可以忽略,或者不实现。另一方面,所示或讨论的相互耦合或直接耦合或通信连接可以是通过单元或模块的一些接口、间接耦合或通信连接,并且可以是电气或其他形式。

[0071]

被描述为单独组件的单元可以在物理上分离也可以不被物理分离,并且显示为单元的组件可以是也可以不是物理单元,即可以位于一个地方,或者可以分布到多个网络单元。可以根据实际需要选择其中的部分或者全部单元来实现本实施例方案的目的。

[0072]

另外,本申请各实施例中的各个功能单元可以集成为一个处理单元,也可以是各个单元在物理上单独存在,也可以两个或多个单元集成为一个单元。上述集成单元可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

[0073]

以上仅为本申请的较佳实施例而已。需要指出的是,对于本领域的技术人员来说聚类集成方法,在不脱离本申请的原理的情况下,还可以进行一些改进和修改。应视为本申请的保护范围。