admin 管理员组文章数量: 1086019
2024年4月14日发(作者:scala概念)
ISSN1009-3044
Computer
Knowledge
Knowledge
and
and
Technology
Technology
电脑知识
电脑知识
与技术
Computer
与技术
Vol.17,No.4
February
2021
E-mail:*************.cn
第17卷第4期(2021年2月)
http://
Tel:+86-551-6569
基于Spark平台的网络攻击检测系统
龚剑敏
1
,颜涛
2
,周亮
2*
(1.上海市卫生健康信息中心,上海200040;2.上海市第六人民医院东院,上海201306)
摘要:随着计算机技术和通信技术的飞速发展,网络安全形势也越来越严峻,如何在海量日志中发现安全攻击是个值得研
究的问题,传统的日志分析方法效率低,难以发现一些高级的网络安全威胁。针对该问题,提出了基于分布式存储和
Spark框架的网络日志分析系统架构,不仅有效利用了云环境中的计算存储资源,同时还大大提高了计算效率。
关键词:分布式计算;网络攻击;日志分析;拒绝服务攻击
中图分类号:TP393文献标识码:A
开放科学(资源服务)标识码(OSID):
NetworkAttackDetectionSystembasedonSparkPlatform
GONGJian-min
1
,YANTao
2
,ZHOULiang
2*
(aiHealthInformationCenter,Shanghai200040,China;aiSixthPeople'sHospitalEast,Shanghai201306,Chi⁃
na)
Abstract:Withtherapiddevelopmentofcomputertechnologyandcommunicationtechnology,thenetworksecuritysituationisbe⁃
ionalloganalysis
methodsareethisproblem,anetworkloganalysis
systembasedondistributedstorageandsparkframeworkisproposed,whichnotonlyeffectivelyutilizesthecomputingstoragere⁃
sourcesincloudenvironment,butalsogreatlyimprovesthecomputingefficiency.
Keywords:distributedcomputing;networkattack;loganalysis;denialofserviceattack
文章编号:1009-3044(2021)04-0044-02
随着计算机技术和通信技术的飞速发展,网络数据呈指数
级上升,服务器端接收到的用户访问日志文件的数据量越来越
多,网络安全威胁形势也越来越严峻,攻击手段越来越隐蔽,如
何在海量日志中发现安全攻击是个值得研究的问题。本文提
出了一种基于分布式存储和Spark框架的网络日志分析系统架
构,不仅有效利用了云环境中的计算存储资源,同时还大大提
高了计算效率。
比如Kafka,flume等。通过SparkStreaming计算得到的结果有
两种操作:一种是转化操作,继续进行新的计算;另一种是输出
操作,把数据写入外部系统中,存储到数据库或者应用到实时
系统显示界面中。SparkStreaming相较于其他处理引擎最大的
优势是可以同时进行批处理和流处理,还具有强大的容错性。
1.2Kafka分布式消息中间件
1相关技术概述
本文设计的检测系统是针对实时数据进行计算和分析,目
前对于大量实时数据进行流式计算的最实用的组件是Spark
Streaming,本系统采用Kafka用于收集服务器的访问日志,接
下来介绍Spark和Kafka。
1.1Spark框架
Spark是由加州伯克利大学提出的一种分布式数据处理框
架,可用于构建低延时的大型数据挖掘应用程序。Hadoop中
MapReduce会产生巨大的I/O开销,Spark采用内存计算克服了
[1]
这一弱点,提高了性能。SparkStreaming是一个Spark针对实
时数据进行计算和分析设计的模型。具有高吞吐率和高容错
率等特点。SparkStreaming可以处理多种不同类型的数据源,
Kafka是近年来使用较多的分布式消息队列中间件,是由
[2]
LinkedIn研发
。如今被广泛应用于分布式集群应用之中,当
作多种类型的数据管道和消息系统。Kafka的出现起到了两
个作用:一方面是降低了系统组网的复杂程度,另一方面减少
了编写程序的难度,每个子系统并非是彼此协调的接口,而是
像插口插在插座上,而Kafka起着极速数据总线的角色。
Kafka主要的特点如下:
(1)能够同时发布和订阅,供给高吞吐量。据统计,Kafka
以秒为单位能够产生大约25万信息(50Mb),每秒处理达到
55万信息(110MB)。
(2)持久化操作。将信息持久化到磁盘中因而可用于成批
的消耗,例如ETL。采取将数据持久化到磁盘的方式以及拷贝
(Replication)预防数据遗失,为数据安全提供了保障。
(3)分布式系统,便于向外扩展。所有的Producer、Broker
收稿日期:2020-10-27
基金项目:上海市第六人民医院院级科学研究基金(DY2018013,DY2019015)
作者简介:龚剑敏(1981—),工程师,硕士,主要研究方向:医疗信息化、网络安全;通信作者:周亮,工程师,博士,主要研究方向:无
线通信、网络安全。
44
网络通讯及安全
本栏目责任编辑:代影
第17卷第4期(2021年2月)
和Consumer都有多个,而且全都为分布式,便于扩展机器。
Server
(4)信息被操作的阶段是在Consumer端维护,而不
2系统的设计与实现
端维护。当失败的时候能够自动平衡。
是
(
LDoS)
低
flooding
是近年来提出的一类新型攻击
速率拒绝服务攻击(Low-rateDenial-of-Service,简称
[4]
)式的DoS攻击,主要是利用端系统或网络中常见的自
,其不同于传统洪泛
适应机制所存在的安全漏洞,通过低速率周期性攻击流,以更高
的攻击效率对受害者进行破坏且不易被发现,本文主要针对该
类型的攻击检测展开研究。如图所示,基于Spark的低速率拒
绝服务攻击检测系统模块主要分为:数据采集模块,数据处理
模块,特征提取模块,检测模块,预警模块和异常处理模块。
(1)数据采集模块。根据Kafka+Spark架构,提取服务器端
的实时数据流日志文件,并将初始数据集存储在Hadoop的分
布式文件存储系统中。
(2)数据处理模块,对初始数据集进行数据预处理,并将数
据集切片处理,将一个大的时间周期内的数据集切分成多个小
的时间周期,计算相应的吞度量、时延、高频信号的能量值、低
频信号的能量值、流量峰值、阻塞指数等特征值。
(3)检测模块,将提取的特征数据集放入提前训练好的随
机森林模型中,判断该事件段内服务器端是否受到了LDoS
攻击。
(4)预警模块,当检测模块发现某时间段内大量特征值检
测超过正常值范围,
LDoS
即模型认为该时间段服务器端收到了
内,服务器收到攻击。
攻击,就会触发报警机制,提醒管理人员,在该时间间隔
(5)异常处理模块,管理员可以根据发生的时间间隔内的
同一IP出现的频率过高或者是同一IP段内同一地区内的IP出
现过多时,采取屏蔽IP段或者屏蔽某一块地区访问权限。
图1基于Spark的低速率拒绝服务攻击检测系统
3系统仿真实验
实验设计如下:在一台物理服务器上搭建4台虚拟机,其
中一台作为主节点,一台作为备用节点,剩余两台作为Slave节
点。实验具体硬件配置如表1所示。另外在一台内存为16G,
硬盘空间为1T的物理机上安装相同的环境作为对照。
表1集群硬件配置
编号节点
CPU
内存硬盘
1MasterInterXeonSliver411016G1T
2StandbyMasterInterXeonSliver411016G1T
3WorkerInterXeonSliver411016G1T
4WorkerInterXeonSliver411016G1T
为了保证实验的公平性,本次实验是基于离线数据集批处
理过程,初始数据集大小设置为5组数据集,分别约为100M,
本栏目责任编辑:代影
ComputerKnowledgeandTechnology
电脑知识
与技术
300M
据流的攻击周期,
,500M,700M
攻击时长,
,1T,1.2T。每组的数据量不相同,
攻击速率以及正常数据流通信的
但攻击数
速率,滑动窗口大小都一致,且都不存在噪声数据。数据分布
相似,能够用来作对比实验。经过实验结果统计得到本文提出
的检测模型在单机和集群下的不同耗时如图2所示。由此可
见,数据集比较小的时候,单机模式和集群模式下的算法耗时
时长没有明显差异,但数据集越大时,集群模式下的算法耗时
优势越明显,而且,本次实验集群只有两台Worker,如果有多
台Worker同时运行,耗时将会更短。因此,对于一个日活跃用
户达到万级的特小型网站来说,
10
假设每个用户每天的点击量是
采用集群模式的低速率
次,那么每天服务器端将收到数十万条的日志数据,
DoS攻击检测系统,效率要远高于单机
因此,
模式下的攻击检测系统。
图2单机与集群计算耗时对比
4总结
本文主要介绍了Spark,Kafka的工作原理,以及基于分布
式的LDoS攻击检测系统的部署和实现流程,并且通过仿真实
现对比了单机系统和集群系统的工作效率。实验证明,本文提
出的基于Spark的网络日志分析系统能有效地提高日志分析的
效率。
参考文献:
[1]李晓燕
[2]
机产品与流通
,郭亚峰
Kafka2.6Documentation.
,2020(3):111.
.面向Hadoop的分布式日志分析系统[J].计算
/documenta⁃
[3]
tion/#gettingStarted
石乐义,刘佳,刘祎豪
[EB/OL].2020,11.
,等.网络安全态势感知研究综述[J].
[4]
算机工程与应用
李芳菊.基于
,2019,55(24):1-9.
计
[5]
设计
刘军
[J].
,冷芳玲
现代电子技术
Hadoop的网络行为大数据安全实体识别系统
,李世奇,等
,2019,42(17):75-79.
.基于HDFS的分布式文件系统[J].
[6]
北大学学报
王建仁,马鑫
(自然科学版
,段刚龙.改进的
),2019,40(6):795-800.
东
K-means聚类k值选择算法
[7]
计算机工程与应用
陆勰
,2019,55(8):27-33.
[J].
[8]
研究
,
刘景云
[J].
罗守山
信息网络安全
,张玉梅.基于
.搭建HDFS分布式文件系统
,2018(8):56-63.
Hadoop的海量安全日志聚类算法
[J].
[9]
2018(2):100-103.
网络安全和信息化,
周波.基于ApacheFlume的MR数据采集实现方案[J].
[10]
科学
计
刘芬
,2018,34(S1):216-221.
电信
[J].电子技术与软件工程
,廖荣涛,余铮.Hadoop
,2017(22):20.
下的在线网络日志分析系统设
【通联编辑:代影】
网络通讯及安全
45
版权声明:本文标题:基于Spark平台的网络攻击检测系统 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1713093557a619519.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论