(12)发明专利申请
(10)申请公布号 CN 112783852 A(43)申请公布日 2021.05.11
(21)申请号 202110043769.1(22)申请日 2021.01.13
(71)申请人 南京信息工程大学
地址 210044 江苏省南京市江北新区宁六
路219号(72)发明人 蒋丹阳 钱承山 孙宁 毛伟民
茹清晨 王彭辉 赵贤 宗文杰 (74)专利代理机构 南京苏高专利商标事务所
(普通合伙) 32204
代理人 张华蒙(51)Int.Cl.
G06F 16/182(2019.01)G06F 16/2453(2019.01)G06K 9/62(2006.01)G06N 3/04(2006.01)
权利要求书3页 说明书9页 附图1页
G06N 3/08(2006.01)H04L 29/06(2006.01)
CN 112783852 A()发明名称
基于大数据的网络安全分析系统(57)摘要
本发明公开了基于大数据的网络安全分析系统,属于网络安全技术领域,本发明能够针对不同类型的海量数据进行采集,满足业务对实时的需求,本发明还提供支持数据在线处理的Cloudar Impala。在YARN批处理的基础上增加实时查询的Cloudar Impala,可以直接从HDFS或者HBase中用SELECT、JOIN和统计函数查询数据,大大降低了延迟。比原来基于MapReduce的Hive SQL查询速度提升3~90倍。Apache Kylin做为大数据分析引擎,且查询速度优于Hive,降低了延迟,提高了系统工作效率。在神经网络训练模型的基础上运用Choquet模糊积分融合算法来集成神经网络训练模型能改善数据分析效果,增强整个系统的容错性。
CN 112783852 A
权 利 要 求 书
1/3页
1.基于大数据的网络安全分析系统,其特征在于:包括依次通过网络连接的数据采集模块,数据预处理模块,实时在线分析模块,数据存储模块、数据分析模块,模型融合模块;数据采集模块与数据预处理模块通过HTTP协议进行数据通信;
其中,数据采集模块采用Chukwa+Scribe、Spark、Gbase处理方式采集日志信息;采用Scribe分布式日志系统进行数据分布式待机;
数据预处理模块采用Informatica Power Center,对采集的原始数据进行数据清洗、数据集成、数据变换、数据规约最终得到处理结果;采用Cloudar Impala实现数据的实时在线分析;
数据存储模块存储由数据预处理模块处理的数据;数据分析模块采用联机分析处理方式;Apache Kylin为大数据分析引擎,它支持在超大数据集上进行秒级的OLAP查询;
数据分析模块实现对数据的统计分析和挖掘分析,采用分布式计算框架YARN进行数据划分、计算任务调度和分布式计算。
2.根据权利要求1所述的基于大数据的网络安全分析系统,其特征在于:还包括数据可视化模块,将数据以图形图像的形式表示出来。
3.根据权利要求1所述的基于大数据的网络安全分析系统,其特征在于:所述的数据分析模块的Resource Manager负责应用程序所需要的计算资源,ApplicationMaster负责作业的调度、跟踪和监控;采用神经网络对采集的数据进行分析。
4.根据权利要求1所述的基于大数据的网络安全分析系统,其特征在于:在所述的数据分析模块选用多层神经网络进行训练,算法则采用误差逆传播算法;通过迭代性的来处理训练集中的实例,对比经过神经网络后输入层预测值与真实值之间的误差;反方向来以最小化误差来更新每个连接的权重;
输入:D:数据集,l学习率,一个多层前向神经网络输出:一个训练好的神经网络;
初始化权重和偏向:随机初始化在‑1到1之间,或者‑0.5到0.5之间,每个单元有个偏向;
对于每一个训练实例X,执行以下步骤:由输入层向前传送,其中,Oi为每一层的元素值,以Input Layer层来说,Oi的值为x1,x2...xn;wij为权重,θ或者‑0.5到0.5之间;Ij为下一层单j为偏向:随机初始化在‑1到1之间,元的预测值;
非线性转化方程:式中Oj为下一层单元预测值的非线性转化,作为下一层的输入;
根据误差反向传送对于输出层:Tj为真实值,Errj为输出层误差Errj=Oj(1‑Oj)(Tj‑Oj)对于隐藏层:Errk为反传输前一层误差,wjk为反向传输前一层误差对应权重
2
CN 112783852 A
权 利 要 求 书
2/3页
权重更新:Δwij为权重更新量,l为学习率取值为0‑1Δwij=(l)ErrjOi
本次权重wijn等于上一次权重与权重更新量之和wijn=wij+Δwij偏向更新:Δθij为偏向更新量Δθj=(l)Errj本次偏向θjn等于上一次偏向与偏向更新量之和θθθjn=j+Δj终止条件:权重的更新低于某个阈值,预测的错误率低于某个阈值,达到预设一定的循
之后对这些模型进行集成,共同完环次数;对每个block块经过神经网络训练,训练出模型,
成学习任务。
5.根据权利要求4所述的基于大数据的网络安全分析系统,其特征在于:在所述的模型融合模块采用Choqut模糊积分这个融合算子来集成神经网络训练模型能改善数据分析效果,增强整个系统的容错性;对于给定训练集T,Ω={ωi,ω2,...,ωk}是类标集合;将训练集分成l份,D={D1,D2,...,Dl‑1}是从T训练出来的l‑1个分类器即模型的集合;对于任意的测试样例x,Di(x)=(μμμ其中,μi1(x),i2(x),...,ik(x));ij(x)∈[0,1]表示分类器Di,1≤i≤l‑1,将测试样例x分类到jth,1≤j≤k,类的隶属度,
6.根据权利要求5所述的基于大数据的网络安全分析系统,其特征在于:所述的模型融合模块中给定测试样例x,称下面的(l‑1)×k阶的矩阵DM为x的决策矩阵;
矩阵DM的ith行表示分类器Di将x分类为jth类的隶属度;矩阵DM的jth列表示x被不同分类器分类到jth类的隶属度;
给定分类器集合D={D1,D2,...Dl‑1},P(D)是D的幂集;D上的模糊测度g定义为满足如下两个条件的函数g:P(D)→[0,1];
(1)g(φ)=0,g(D)=1;
(2)如果
若
则g(A)≤g(B);
且A∩B=φ,下式成立,则称g为λ‑模糊测度;
g(A∪B)=g(A)+g(B)+λg(A)g(B)
其中,λ>‑1,且λ≠0,它的值由下式确定:
式中,gi表示在单个训练模型上的模糊测度,称为模糊密度;理论上已经证明:不管集成
3
CN 112783852 A
权 利 要 求 书
3/3页
几个模型,即不论l‑1等于几,满足条件的解只有一个;确定gi的方法通常有下列三种:
(1)gi=pi
(2)(3)
上式中,pi是训练模型Di在验证集的验证精度;模糊密度的三种取法,虽然值有较大的差异,但对最终结果影响不大;第三种取法的较多,δ取值越大,越突出单个训练模型的作用;δ取值越小,越突出集成训练模型的作用;
给定训练模型集合D={D1,D2...Dl‑1},g是D上的模糊测度,函数h:D→R+关于g的Choquet积分为:
其中,0≤h(D1)≤h(D2)≤...≤h(Dl‑1)≤1,h(D0)=0,g(A0)=
0.式中的排序也由大到小,但被积函数相应的变为(h(Di‑1)‑h(Di));即要保证积分值非负;用第l份数据作为测试样例,计算模糊积分,哪个模型对应例计算的模糊积分值最大,就将例分类到哪一个模型;最终由此模型训练该测试例,得到最终的分析结果。
7.根据权利要求1所述的基于大数据的网络安全分析系统,其特征在于:所述的数据存储模块采用HDFS分布式文件系统,为系统提供文件操作和分布式存储的底层支持;NameNode作为HDFS中的主服务器,管理着HDFS文件系统的所有元数据信息、Block块与数据节点的映射关系信息;在HDFS集群当中,DataNode主要负责数据的存储与管理,数据在HDFS的内部会被切分成若干个Block块,并且这些Block块会被存放在很多台数据节点DataNode上面。
4
CN 112783852 A
说 明 书
基于大数据的网络安全分析系统
1/9页
技术领域
[0001]本发明属于光通信技术领域,具体涉及基于大数据的网络安全分析系统。背景技术
[0002]目前,随着科技的进步,互联网已经成为了人们生活和工作的重要辅助工具,使我们的生活发生了翻天覆地的变化同时也带来了网络安全问题。[0003]在大数据时代下企业越来越重视合作业务,并逐渐扩大业务规模,与其他企业之间的业务交流更加依赖计算机网络系统,在此过程中,若没有采取相应的防御措施,很容易造成系统被病毒侵袭,从而造成数据的盗取甚至破坏。[0004]网络分析系统能够在各种网络安全问题中,对网络中所有传输的数据进行检测、分析、诊断,帮助用户排除网络事故,规避安全风险,提高网络性能,增大网络可用性价值。随着网络数据的增多,传统数据信息传递技术无法高效处理日益增多的不同类型的数据量。
发明内容
[0005]发明目的:针对提高目前网络中海量、无规律信息的处理效率,本发明的目的在于提供基于大数据的网络安全分析系统。[0006]技术方案:为实现上述目的,本发明采用如下技术方案:[0007]基于大数据的网络安全分析系统,数据包括依次通过网络连接的数据采集模块,预处理模块,实时在线分析模块,数据存储模块、数据分析模块,模型融合模块;数据采集模块与数据预处理模块通过HTTP协议进行数据通信;[0008]其中,数据采集模块采用Chukwa+Scribe、Spark、Gbase处理方式采集日志信息;采用Scribe分布式日志系统进行数据分布式待机;[0009]数据预处理模块采用Informatica Power Center,对采集的原始数据进行数据清洗、数据集成、数据变换、数据规约最终得到处理结果;采用Cloudar Impala实现数据的实时在线分析;
[0010]数据存储模块存储由数据预处理模块处理的数据;该模块采用HDFS分布式文件系统,为系统提供文件操作和分布式存储的底层支持;NameNode作为HDFS中的主服务器,管理着HDFS文件系统的所有元数据信息、Block块与数据节点的映射关系信息;在HDFS集群当中,DataNode主要负责数据的存储与管理,数据在HDFS的内部会被切分成若干个Block块,并且这些Block块会被存放在很多台数据节点DataNode上面;[0011]数据分析模块采用联机分析处理方式;Apache Kylin为大数据分析引擎,它支持在超大数据集上进行秒级的OLAP查询;
[0012]数据分析模块实现对数据的统计分析和挖掘分析,采用分布式计算框架YARN进行数据划分、计算任务调度和分布式计算,将规模较大的问题划分成规模较小的几个问题。[0013]进一步地,还包括数据可视化模块,将数据以图形图像的形式表示出来。
5
CN 112783852 A[0014]
说 明 书
2/9页
进一步地,所述的数据分析模块的Resource Manager负责应用程序所需要的计算
资源,ApplicationMaster负责作业的调度、跟踪和监控;采用神经网络对采集的数据进行分析;神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。[0015]进一步地,在所述的数据分析模块选用多层神经网络进行训练,算法则采用误差逆传播算法;通过迭代性的来处理训练集中的实例,对比经过神经网络后输入层预测值(predicted value)与真实值(target value)之间的误差;反方向(从输出层=>隐藏层=>输入层)来以最小化误差(error)来更新每个连接的权重(weight);[0016]输入:D:数据集,l学习率(learning rate),一个多层前向神经网络[0017]输出:一个训练好的神经网络(a trained neural network)
[0018]初始化权重(weights)和偏向(bias):随机初始化在‑1到1之间,或者‑0.5到0.5之间,每个单元有个偏向;
[0019]对于每一个训练实例X,执行以下步骤:[0020]由输入层向前传送,其中,Oi为每一层的元素值,以Input Layer层来说,Oi的值为x1,x2...xn;wij为权重(weights),θ或者‑0.5到j为偏向(bias):随机初始化在‑1到1之间,0.5之间;Ij为下一层单元的预测值;
[0021][0022][0023][0024][0025][0026][0027][0028]
非线性转化方程:式中Oj为下一层单元预测值的非线性转化,作为下一层的输入;
根据误差(error)反向传送
Tj为真实值,Errj为输出层误差对于输出层:
Errj=Oj(1‑Oj)(Tj‑Oj)对于隐藏层:Errk为反传输前一层误差,wjk为反向传输前一层误差对应权重
Δwij为权重更新量,l为学习率取值为0‑1权重更新:
[0030]Δw=(l)ErrOijji
[0031]本次权重w等于上一次权重与权重更新量之和ijn[0032]w=w+Δwijnijij[0033]偏向更新:Δθij为偏向更新量[0034]Δθj=(l)Errj[0035]本次偏向θjn等于上一次偏向与偏向更新量之和[0036]θ=θjnθj+Δj[0037]终止条件:权重的更新低于某个阈值,预测的错误率低于某个阈值,达到预设一定的循环次数;对每个block块经过神经网络训练,训练出模型,之后对这些模型进行集成,共同完成学习任务。[0038]进一步地,在所述的模型融合模块采用Choqut模糊积分这个融合算子来集成神经
6
[0029]
CN 112783852 A
说 明 书
3/9页
网络训练模型能改善数据分析效果,增强整个系统的容错性;对于给定训练集T,Ω={ωi,ω2,...,ωk}是类标集合;将训练集分成l份,D={D1,D2,...,Dl‑1}是从T训练出来的l‑1个分类器即模型的集合;对于任意的测试样例x,Di(x)=(μμμ其中,i1(x),i2(x),...,ik(x));
th
μ(x)∈[0,1]表示分类器D(1≤i≤l‑1)将测试样例x分类到j(1≤j≤k)类的隶属度,iji
[0039]
进一步地,所述的模型融合模块中给定测试样例x,称下面的(l‑1)×k阶的矩阵DM为x的决策矩阵;
[0040]
矩阵DM的ith行表示分类器Di将x分类为jth类的隶属度;矩阵DM的jth列表示x被不
同分类器分类到jth类的隶属度;
[0042]给定分类器集合D={D,D,...D},P(D)是D的幂集;D上的模糊测度g定义为满足12l‑1如下两个条件的函数g:P(D)→[0,1];[0043](1)g(φ)=0,g(D)=1;
[0041][0044][0045][0046][0047][0048]
(2)如果
若则g(A)≤g(B);
且A∩B=φ,下式成立,则称g为λ‑模糊测度;
g(A∪B)=g(A)+g(B)+λg(A)g(B)
其中,λ>‑1,且λ≠0,它的值由下式确定:
式中,gi表示在单个训练模型上的模糊测度,称为模糊密度;理论上已经证明:不管集成几个模型,即不论l‑1等于几,满足条件的解只有一个;确定gi的方法通常有下列三种:[0049](1)gi=pi
[0050]
(2)(3)
[0051][0052]
上式中,pi是训练模型Di在验证集的验证精度;模糊密度的三种取法,虽然值有较大的差异,但对最终结果影响不大;第三种取法的较多,δ取值越大,越突出单个训练模型的作用;δ取值越小,越突出集成训练模型的作用;
+
[0053]给定训练模型集合D={D,D...D},g是D上的模糊测度,函数h:D→R关于g的12l‑1Choquet积分为:
7
CN 112783852 A[00][0055]
说 明 书
4/9页
其中,0≤h(D1)≤h(D2)≤...≤h(Dl‑1)≤1,h(D0)=0,
g
(A0)=0.式中的排序也由大到小,但被积函数相应的变为(h(Di‑1)‑h(Di));即要保证积分值
非负;用第l份数据作为测试样例,计算模糊积分,哪个模型对应例计算的模糊积分值最大,就将例分类到哪一个模型;最终由此模型训练该测试例,得到最终的分析结果。[0056]发明原理:将大数据技术应用于网络安全分析系统构建中,能够有效提升系统数据采集与分析能力,大数据技术的应用使网络安全分析由结构化数据库转化为分布式数据库,系统结构得到优化整体性能得到提升,降低成本的同时有效改善了传统网络安全分析系统运行不稳定问题,能在海量数据中挖掘出有价值、有意义的信息,保证信息处理的准确性、真实性、及时性、有效性,以更好识别网络不完全因素,提高网络安全监控、防御、管理水平。
[0057]该系统在数据采集模块采用Chukwa、Spark、Gbase处理方式来更好的采集日志信息、流量数据以及格式固定的业务相关的数据信息。在YARN批处理的基础上增加实时在线查询的Cloudar Impala,大大降低了延迟。在数据分析层使用Apache Kylin大数据分析引擎,降低Hadoop环境中超过百亿数据查询时的延迟。在神经网络训练模型的基础上运用Choquet模糊积分融合算法来集成神经网络训练模型能改善数据分析效果,增强整个系统的容错性。该系统解决了现有技术不能有效处理多类型海量数据的问题,增加了数据处理类型,提高网络安全分析系统处理效率和准确性,且对硬件的要求低,大大降低了成本。[0058]有益效果:与现有技术相比,本发明的基于大数据的网络安全分析系统,能够针对不同类型的海量数据进行采集,满足业务对实时的需求,本发明还提供支持数据在线处理的Cloudar Impala。在YARN批处理的基础上增加实时查询的Cloudar Impala,可以直接从HDFS或者HBase中用SELECT、JOIN和统计函数查询数据,大大降低了延迟。比原来基于MapReduce的Hive SQL查询速度提升3~90倍。Apache Kylin做为大数据分析引擎,且查询速度优于Hive,降低了延迟,提高了系统工作效率。在神经网络训练模型的基础上运用Choquet模糊积分融合算法来集成神经网络训练模型能改善数据分析效果,增强整个系统的容错性。
附图说明
[0059]图1为基于大数据的网络安全分析系统架构图;[0060]图2为数据预处理模块示意图。
具体实施方式
[0061]以下结合具体实施方式对本发明做进一步的说明。[0062]基于大数据的网络安全分析系统,包括数据采集模块,数据预处理模块,实时在线分析模块,数据存储模块、数据分析模块,模型融合模块,数据可视化模块。[0063]数据采集模块与数据预处理模块连接;数据预处理模块与数据存储模块连接;[00]数据采集模块采用Chukwa+Scribe、Spark、Gbase处理方式来更好的采集日志信息包括搜索引擎爬虫数据、当前流量数据以及格式固定的业务相关的数据信息。采用Scribe
8
CN 112783852 A
说 明 书
5/9页
分布式日志系统进行数据分布式待机以提升数据采集效率与质量。[0065]数据预处理模块采用Informatica Power Center,对采集的原始数据进行数据清洗、数据集成、数据变换、数据规约最终得到处理结果。采用Cloudar Impala实现数据的实时在线分析。
[0066]数据存储模块存储由数据预处理模块处理的数据。该模块采用HDFS分布式文件系统,为系统提供文件操作和分布式存储的底层支持。NameNode作为HDFS中的主服务器,管理着HDFS文件系统的所有元数据信息、Block块与数据节点的映射关系信息。在HDFS集群当中,DataNode主要负责数据的存储与管理,数据在HDFS的内部会被切分成若干个Block块,并且这些Block块会被存放在很多台数据节点DataNode上面。HDFS是一个高度容错性的系统,适合部署在廉价的机器上,非常适合大规模数据集上的应用。[0067]数据分析模块采用联机分析处理方式。Apache Kylin为大数据分析引擎,它支持在超大数据集上进行秒级的OLAP查询。
[0068]数据分析模块实现对数据的统计分析和挖掘分析,采用分布式计算框架YARN进行数据划分、计算任务调度和分布式计算,将规模较大的问题划分成规模较小的几个问题。[0069]Resource Manager负责应用程序所需要的计算资源,ApplicationMaster负责作业的调度、跟踪和监控。采用神经网络对采集的数据进行分析。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。
[0070]为了提高神经网络的学习能力,本发明专利选用多层神经网络进行训练,算法则采用误差逆传播算法。通过迭代性的来处理训练集中的实例,对比经过神经网络后输入层预测值(predicted value)与真实值(target value)之间的误差。反方向(从输出层=>隐藏层=>输入层)来以最小化误差(error)来更新每个连接的权重(weight)。[0071]输入:D:数据集,l学习率(learning rate),一个多层前向神经网络[0072]输出:一个训练好的神经网络(a trained neural network)
[0073]初始化权重(weights)和偏向(bias):随机初始化在‑1到1之间,或者‑0.5到0.5之间,每个单元有个偏向。
[0074]对于每一个训练实例X,执行以下步骤:[0075]由输入层向前传送:
9
CN 112783852 A
说 明 书
6/9页
[0076]
[0077]
式中Oi为每一层的元素值,以Input Layer层来说,Oi的值为x1,x2...xn。wij为权重
‑1到1之间,或者‑0.5到0.5之间。Ij为下一层单(weights),θj为偏向(bias):随机初始化在
元的预测值。
[0078][0079][0080][0081][0082][0083][0084][0085]
非线性转化方程:式中Oj为下一层单元预测值的非线性转化,作为下一层的输入。
根据误差(error)反向传送
Tj为真实值,Errj为输出层误差对于输出层:
Errj=Oj(1‑Oj)(Tj‑Oj)对于隐藏层:Errk为反传输前一层误差,wjk为反向传输前一层误差对应权重
权重更新:Δwij为权重更新量,l为学习率取值为0‑1
[0087]Δw=(l)ErrOijji
[0088]本次权重w等于上一次权重与权重更新量之和ijn[00]w=w+Δwijnijij[0090]偏向更新:Δθij为偏向更新量[0091]Δθj=(l)Errj[0092]本次偏向θjn等于上一次偏向与偏向更新量之和[0093]θ=θjnθj+Δj[0094]终止条件:权重的更新低于某个阈值,预测的错误率低于某个阈值,达到预设一定的循环次数。对每个block块经过神经网络训练,训练出模型,之后对这些模型进行集成,共同完成学习任务。
[0095]模型融合模块采用Choqut模糊积分这个融合算子来集成神经网络训练模型能改
10
[0086]
CN 112783852 A
说 明 书
7/9页
善数据分析效果,增强整个系统的容错性。对于给定训练集T,Ω={ωi,ω2,...,ωk}是类标集合。将训练集分成l份,D={D1,D2,...,Dl‑1}是从T训练出来的l‑1个分类器即模型的集合。对于任意的测试样例x,Di(x)=(μμμ其中,μi1(x),i2(x),...,ik(x))。ij(x)∈[0,1]表示分类器Di(1≤i≤l‑1)将测试样例x分类到jth(1≤j≤k)类的隶属度,
[0096]
给定测试样例x,称下面的(l‑1)×k阶的矩阵DM为x的决策矩阵。
[0097]
矩阵DM的ith行表示分类器Di将x分类为jth类的隶属度;矩阵DM的jth列表示x被不同分类器分类到jth类的隶属度。
[0099]给定分类器集合D={D,D,...D},P(D)是D的幂集。D上的模糊测度g定义为满足12l‑1如下两个条件的函数g:P(D)→[0,1]。[0100](1)g(φ)=0,g(D)=1;
[0098][0101][0102][0103][0104][0105]
(2)如果
若则g(A)≤g(B).
且A∩B=φ,下式成立,则称g为λ‑模糊测度。
g(A∪B)=g(A)+g(B)+λg(A)g(B)
其中,λ>‑1,且λ≠0,它的值由下式确定:
式中,gi表示在单个训练模型上的模糊测度,称为模糊密度。理论上已经证明:不管集成几个模型,即不论l‑1等于几,满足条件的解只有一个。确定gi的方法通常有下列三种:[0106](1)gi=pi
[0107]
(2)(3)
[0108][0109]
上式中,pi是训练模型Di在验证集的验证精度。模糊密度的三种取法,虽然值有较大的差异,但对最终结果影响不大。第三种取法的较多,δ取值越大,越突出单个训练模型的作用;δ取值越小,越突出集成训练模型的作用。
+
[0110]给定训练模型集合D={D,D...D},g是D上的模糊测度,函数h:D→R关于g的12l‑1Choquet积分为:
[0111][0112]
其中,0≤h(D1)≤h(D2)≤...≤h(Dl‑1)≤1,h(D0)=0,
11
g(A0)
CN 112783852 A
说 明 书
8/9页
=0.式中的排序也可以由大到小,但被积函数相应的变为(h(Di‑1)‑h(Di))。即要保证积分值非负。用第l份数据作为测试样例,计算模糊积分,哪个模型对应例计算的模糊积分值最大,就将例分类到哪一个模型。最终由此模型训练该测试例,得到最终的分析结果。[0113]数据可视化模块将数据以图形图像的形式表示出来,帮助人们探索和理解复杂的数据。有助于使用者更快更好地从复杂数据中得到新的发现,是用户了解复杂数据、开展深入分析的重要方式。[0114]实施例
[0115]如图1所示,本发明专利提出一种基于大数据的网络安全分析系统,包括数据采集模块,数据预处理模块,实时在线分析模块,数据存储模块、数据分析模块,模型融合模块,数据可视化模块。
[0116]首先该系统对网络海量数据进行采集,设计的各处理环节中都可以采用并行处理。采集模块的Chukwa、Spark、Gbase等处理方式,分别采集日志信息、流量数据以及格式固定的业务相关的数据信息。
[0117]采集模块将采集的数据发送到数据预处理模块如图2所示,该模块的Informatica Power Center,对采集的原始数据进行数据清洗、数据集成、数据变换、数据规约,最终得到处理结果。
[0118]Cloudar数据预处理模块将处理后的数据发送 Impala对数据进行实时在线分析。到数据存储模块。该模块的DataNode负责数据的存储与管理,数据在HDFS的内部被切分成若干个Block块,并且这些Block块会被存放在很多台数据节点DataNode上面。HBase存储半结构化数据。数据分析层对采集的数据进行联机分析处理。Apache Kylin为大数据分析引擎,分布式计算框架YARN对数据进行划分、计算任务调度和分布式计算。Resource Manager提供应用程序所需要的计算资源,ApplicationMaster负责作业的调度、跟踪和监控。采用神经网络对每个Block块的数据进行训练,BP学习过程经过信号的正向传播与误差反向传播两个过程。
[0119]正向传播时,将样本从输入层传入,经过各隐层逐层处理后,传向输出层。若输出层的实际输出与期望输出不符,则转入误差的反向传播阶段。误差反向传播将输出误差以某种形式通过隐藏层向输入层逐层反传,并将误差分摊给各层的所有单元,从而获得各层的误差信号,此误差信号即作为修正单元权值的依据。这种信号正向传播与误差反向传播的各层权值调整过程周而复始的进行,权值不断调整,直到网络输出的误差减少到可接受的程度,或进行到预先设定的学习次数为止,至此网络学习训练结束。利用训练集最终得到训练好的神经网络模型。
[0120]在神经网络训练模型的基础上运用Choquet模糊积分融合算法来集成神经网络训练模型来增强整个系统的容错性。系统对已知网络病毒、恶意软件的数据分析,利用这些数据找出输入与输出之间的权值关系,然后利用这样的权值关系进行仿真,最后输出仿真结果。并将分析的结果发送到数据可视化模块。
[0121]可视化通过交互式视觉表现迅速和有效地简化与提炼数据流,用户交互筛选的大量数据,将复杂海量的数据分析结果很好的呈现给用户。当系统检测到受到此等范畴的攻击时,入侵检测系统就能快速识别该攻击,并作出反应。[0122]以上所述仅是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在
12
CN 112783852 A
说 明 书
9/9页
不脱离本发明技术原理的前提下,还可以作出若干改进和变型,这些改进和变型也应该视为本发明保护范围。
13
CN 112783852 A
说 明 书 附 图
1/1页
图1
图2
14
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- dcrkj.com 版权所有 赣ICP备2024042791号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务