admin 管理员组

文章数量: 1086019


2024年4月14日发(作者:scala概念)

ISSN1009-3044

Computer

Knowledge

Knowledge

and

and

Technology

Technology

电脑知识

电脑知识

与技术

Computer

与技术

Vol.17,No.4

February

2021

E-mail:*************.cn

第17卷第4期(2021年2月)

http://

Tel:+86-551-6569

基于Spark平台的网络攻击检测系统

龚剑敏

1

,颜涛

2

,周亮

2*

(1.上海市卫生健康信息中心,上海200040;2.上海市第六人民医院东院,上海201306)

摘要:随着计算机技术和通信技术的飞速发展,网络安全形势也越来越严峻,如何在海量日志中发现安全攻击是个值得研

究的问题,传统的日志分析方法效率低,难以发现一些高级的网络安全威胁。针对该问题,提出了基于分布式存储和

Spark框架的网络日志分析系统架构,不仅有效利用了云环境中的计算存储资源,同时还大大提高了计算效率。

关键词:分布式计算;网络攻击;日志分析;拒绝服务攻击

中图分类号:TP393文献标识码:A

开放科学(资源服务)标识码(OSID):

NetworkAttackDetectionSystembasedonSparkPlatform

GONGJian-min

1

,YANTao

2

,ZHOULiang

2*

(aiHealthInformationCenter,Shanghai200040,China;aiSixthPeople'sHospitalEast,Shanghai201306,Chi⁃

na)

Abstract:Withtherapiddevelopmentofcomputertechnologyandcommunicationtechnology,thenetworksecuritysituationisbe⁃

ionalloganalysis

methodsareethisproblem,anetworkloganalysis

systembasedondistributedstorageandsparkframeworkisproposed,whichnotonlyeffectivelyutilizesthecomputingstoragere⁃

sourcesincloudenvironment,butalsogreatlyimprovesthecomputingefficiency.

Keywords:distributedcomputing;networkattack;loganalysis;denialofserviceattack

文章编号:1009-3044(2021)04-0044-02

随着计算机技术和通信技术的飞速发展,网络数据呈指数

级上升,服务器端接收到的用户访问日志文件的数据量越来越

多,网络安全威胁形势也越来越严峻,攻击手段越来越隐蔽,如

何在海量日志中发现安全攻击是个值得研究的问题。本文提

出了一种基于分布式存储和Spark框架的网络日志分析系统架

构,不仅有效利用了云环境中的计算存储资源,同时还大大提

高了计算效率。

比如Kafka,flume等。通过SparkStreaming计算得到的结果有

两种操作:一种是转化操作,继续进行新的计算;另一种是输出

操作,把数据写入外部系统中,存储到数据库或者应用到实时

系统显示界面中。SparkStreaming相较于其他处理引擎最大的

优势是可以同时进行批处理和流处理,还具有强大的容错性。

1.2Kafka分布式消息中间件

1相关技术概述

本文设计的检测系统是针对实时数据进行计算和分析,目

前对于大量实时数据进行流式计算的最实用的组件是Spark

Streaming,本系统采用Kafka用于收集服务器的访问日志,接

下来介绍Spark和Kafka。

1.1Spark框架

Spark是由加州伯克利大学提出的一种分布式数据处理框

架,可用于构建低延时的大型数据挖掘应用程序。Hadoop中

MapReduce会产生巨大的I/O开销,Spark采用内存计算克服了

[1]

这一弱点,提高了性能。SparkStreaming是一个Spark针对实

时数据进行计算和分析设计的模型。具有高吞吐率和高容错

率等特点。SparkStreaming可以处理多种不同类型的数据源,

Kafka是近年来使用较多的分布式消息队列中间件,是由

[2]

LinkedIn研发

。如今被广泛应用于分布式集群应用之中,当

作多种类型的数据管道和消息系统。Kafka的出现起到了两

个作用:一方面是降低了系统组网的复杂程度,另一方面减少

了编写程序的难度,每个子系统并非是彼此协调的接口,而是

像插口插在插座上,而Kafka起着极速数据总线的角色。

Kafka主要的特点如下:

(1)能够同时发布和订阅,供给高吞吐量。据统计,Kafka

以秒为单位能够产生大约25万信息(50Mb),每秒处理达到

55万信息(110MB)。

(2)持久化操作。将信息持久化到磁盘中因而可用于成批

的消耗,例如ETL。采取将数据持久化到磁盘的方式以及拷贝

(Replication)预防数据遗失,为数据安全提供了保障。

(3)分布式系统,便于向外扩展。所有的Producer、Broker

收稿日期:2020-10-27

基金项目:上海市第六人民医院院级科学研究基金(DY2018013,DY2019015)

作者简介:龚剑敏(1981—),工程师,硕士,主要研究方向:医疗信息化、网络安全;通信作者:周亮,工程师,博士,主要研究方向:无

线通信、网络安全。

44

网络通讯及安全

本栏目责任编辑:代影

第17卷第4期(2021年2月)

和Consumer都有多个,而且全都为分布式,便于扩展机器。

Server

(4)信息被操作的阶段是在Consumer端维护,而不

2系统的设计与实现

端维护。当失败的时候能够自动平衡。

LDoS)

flooding

是近年来提出的一类新型攻击

速率拒绝服务攻击(Low-rateDenial-of-Service,简称

[4]

)式的DoS攻击,主要是利用端系统或网络中常见的自

,其不同于传统洪泛

适应机制所存在的安全漏洞,通过低速率周期性攻击流,以更高

的攻击效率对受害者进行破坏且不易被发现,本文主要针对该

类型的攻击检测展开研究。如图所示,基于Spark的低速率拒

绝服务攻击检测系统模块主要分为:数据采集模块,数据处理

模块,特征提取模块,检测模块,预警模块和异常处理模块。

(1)数据采集模块。根据Kafka+Spark架构,提取服务器端

的实时数据流日志文件,并将初始数据集存储在Hadoop的分

布式文件存储系统中。

(2)数据处理模块,对初始数据集进行数据预处理,并将数

据集切片处理,将一个大的时间周期内的数据集切分成多个小

的时间周期,计算相应的吞度量、时延、高频信号的能量值、低

频信号的能量值、流量峰值、阻塞指数等特征值。

(3)检测模块,将提取的特征数据集放入提前训练好的随

机森林模型中,判断该事件段内服务器端是否受到了LDoS

攻击。

(4)预警模块,当检测模块发现某时间段内大量特征值检

测超过正常值范围,

LDoS

即模型认为该时间段服务器端收到了

内,服务器收到攻击。

攻击,就会触发报警机制,提醒管理人员,在该时间间隔

(5)异常处理模块,管理员可以根据发生的时间间隔内的

同一IP出现的频率过高或者是同一IP段内同一地区内的IP出

现过多时,采取屏蔽IP段或者屏蔽某一块地区访问权限。

图1基于Spark的低速率拒绝服务攻击检测系统

3系统仿真实验

实验设计如下:在一台物理服务器上搭建4台虚拟机,其

中一台作为主节点,一台作为备用节点,剩余两台作为Slave节

点。实验具体硬件配置如表1所示。另外在一台内存为16G,

硬盘空间为1T的物理机上安装相同的环境作为对照。

表1集群硬件配置

编号节点

CPU

内存硬盘

1MasterInterXeonSliver411016G1T

2StandbyMasterInterXeonSliver411016G1T

3WorkerInterXeonSliver411016G1T

4WorkerInterXeonSliver411016G1T

为了保证实验的公平性,本次实验是基于离线数据集批处

理过程,初始数据集大小设置为5组数据集,分别约为100M,

本栏目责任编辑:代影

ComputerKnowledgeandTechnology

电脑知识

与技术

300M

据流的攻击周期,

,500M,700M

攻击时长,

,1T,1.2T。每组的数据量不相同,

攻击速率以及正常数据流通信的

但攻击数

速率,滑动窗口大小都一致,且都不存在噪声数据。数据分布

相似,能够用来作对比实验。经过实验结果统计得到本文提出

的检测模型在单机和集群下的不同耗时如图2所示。由此可

见,数据集比较小的时候,单机模式和集群模式下的算法耗时

时长没有明显差异,但数据集越大时,集群模式下的算法耗时

优势越明显,而且,本次实验集群只有两台Worker,如果有多

台Worker同时运行,耗时将会更短。因此,对于一个日活跃用

户达到万级的特小型网站来说,

10

假设每个用户每天的点击量是

采用集群模式的低速率

次,那么每天服务器端将收到数十万条的日志数据,

DoS攻击检测系统,效率要远高于单机

因此,

模式下的攻击检测系统。

图2单机与集群计算耗时对比

4总结

本文主要介绍了Spark,Kafka的工作原理,以及基于分布

式的LDoS攻击检测系统的部署和实现流程,并且通过仿真实

现对比了单机系统和集群系统的工作效率。实验证明,本文提

出的基于Spark的网络日志分析系统能有效地提高日志分析的

效率。

参考文献:

[1]李晓燕

[2]

机产品与流通

,郭亚峰

Kafka2.6Documentation.

,2020(3):111.

.面向Hadoop的分布式日志分析系统[J].计算

/documenta⁃

[3]

tion/#gettingStarted

石乐义,刘佳,刘祎豪

[EB/OL].2020,11.

,等.网络安全态势感知研究综述[J].

[4]

算机工程与应用

李芳菊.基于

,2019,55(24):1-9.

[5]

设计

刘军

[J].

,冷芳玲

现代电子技术

Hadoop的网络行为大数据安全实体识别系统

,李世奇,等

,2019,42(17):75-79.

.基于HDFS的分布式文件系统[J].

[6]

北大学学报

王建仁,马鑫

(自然科学版

,段刚龙.改进的

),2019,40(6):795-800.

K-means聚类k值选择算法

[7]

计算机工程与应用

陆勰

,2019,55(8):27-33.

[J].

[8]

研究

,

刘景云

[J].

罗守山

信息网络安全

,张玉梅.基于

.搭建HDFS分布式文件系统

,2018(8):56-63.

Hadoop的海量安全日志聚类算法

[J].

[9]

2018(2):100-103.

网络安全和信息化,

周波.基于ApacheFlume的MR数据采集实现方案[J].

[10]

科学

刘芬

,2018,34(S1):216-221.

电信

[J].电子技术与软件工程

,廖荣涛,余铮.Hadoop

,2017(22):20.

下的在线网络日志分析系统设

【通联编辑:代影】

网络通讯及安全

45


本文标签: 数据 系统 攻击 模块