當前,現代的電力系統的日常可靠運行,都*依賴于高度信息化的網絡通信與安全防護。如果電力網絡或者相關管理信息系統遭到破壞,就會導致電力系統不能正常運行,甚至導致癱瘓。近年來,入侵檢測系統、防火墻、防病毒軟件、網絡隔離、加解密軟硬件、訪問控制和VPN等網絡安全技術或產品在電力行業得到了廣泛應用,大大增強了電力企業抵御外部攻擊的能力。傳統的電力系統依靠不同的安全設備進行防御,這些設備根據網絡攻擊檢測情況,每天會產生大量的攻擊日志和流量信息。如文獻[4]中指出某電力系統面臨的實際安全問題:信息外網日均產生互聯網流量高達5.51T,日均攔截非法訪問3萬余次,查殺病毒100萬余個,阻斷網站攻擊18萬余次。
利用網絡安全流量與日志信息進行系統安全分析在國內外研究中越來越普遍和受到重視。如:文獻[5]設計并開發了一套基于日志分析的電力信通網絡安全預警系統,該預警系統可對信息通信系統中不同設備的日志進行采集和統一管理,實現對信息通信系統的威脅檢測和安全預警。文獻[6]指出在網絡安全建議使用大數據的新安全日志系統,通過分析主要IT基礎設施的網絡、系統、應用服務所產生的安全與數據事件之間的關系,增強安全智能。文獻[7]已經通過對多源、異構網絡安全檢測日志信息進行采集、利用多種方式進行分析,從而尋找合理可信的網絡安全風險整體態勢感知。
1電力系統安全流量與日志分析處理
當前,我國現有的電力系統安全防御普遍沒有做到立體防御,更多的是線式堆砌模型,就是針對不同的安全風險,購買了大量不同的安全檢測設備或軟件,每個設備互不相同,且都產生各次的檢測日志和數據流信息,設備間或軟件間無法直接溝通與協同控制。
1.1流量日志數據來源日志消息,是指在特定的操作系統下引發系統,設備、軟件生成的記錄。由于電力系統包含多種不同安全設備,不用的數據傳輸網絡,根據流量日志信息來源,可以將電力系統日志大致分為:網絡設備日志、安全檢測設備日志、主機(服務器)日志、應用系統(數據庫)和業務系統日志等。根據日志信息格式大致可以分為:Traf?clog,WELF和Syslog和二進制。其中,Traf?clog是設備保存的基于流量的日志,該日志彌補了Syslog中沒有流量信息的確定。WELF(WebTrendsEnhancedLogFormat)是WebTrends專有的格式,很多的防火墻都支持的日志格式。Syslog是在Unix平臺下提出的,其格式比較簡單,主要由時間戳、日志來源和日志描述三部分構成。
1.2流量日志數據預處理日志信息預處理重在消除“數據孤島”,建立電力系統安全日志整體協同融合能力,并形成安全監管、控制的全量數據資產。1.2.1數據清洗數據清洗是指對數據進行重新審查和校驗的過程,目的在于刪除重復信息、糾正存在的錯誤,并提供數據一致性。當前,電力系統的原始日志數據存在噪聲多、缺失數據嚴重、數據重復率高等缺點,且數據格式不統一,故需要根據需要進行原始數據清洗工作。1.2.2數據標準化電力系統安全日志數據格式眾多,不能簡單的采用一種數據格式進行標準化,因為單一的數據格式要么包含的屬性過多,導致數據可讀性差,難以處理;要么屬性過少,難以準確呈現網絡攻擊安全特征,降低檢測能力。因此,為了便于將多源、異構的安全設備日志標準化,首先建立安全日志的“元數據”信息,并且將元數據格式標準統一。
2大數據安全流量日志平臺構建
參照大數據在其他多源、異構系統的成功應用研究和大數據本身的技術優勢,本文提出的基于大數據的電力系統安全多源流量日志分析平臺分為多源異構數據層、大數據存儲層、大數據分析挖掘層、數據展示層。2.1原始數據層該層主要完成來自原始日志信息的采集。主要包括網絡流量設備日志(如交換機、路由器等)、網絡安全設備日志(如防火墻、入侵檢測設備等)、主機設備日志(Linux、Windows等)、漏洞信息(網絡掃描Nessus、X-Scan等)。2.2大數據存儲層該層主要完成對原始采集的日志信息進行大數據存儲,主要通過Flume、Sqoop、Kafka和Storm結合使用方法完成。其中,數據流的實時處理,通過Sqoop組件導入到HBase中存儲,利用Kafka的生產、消費者和代理模式,使用Flume作為日志收集系統,將收集到的數據輸送到Kafka中間件,以供Storm去實時消費計算。離線數據基于HDFS的海量分布式存儲體系,本平臺選用默認的64M數據塊的存儲單位,對采集的小文件進行歸并處理,滿足每個文件64M的規模大小。HBase是當前非常流行的海量分布式開源數據庫系統。HBase采用列式存儲。部分經過計算分析整理后的日志或數據流數據存儲到HBase中。對于結構化的元數據信息,本平臺選用MySQL數據庫進行存儲。關系型數據和非關系型數據之間的關聯導入導出操作,我們采用Sqoop進行數據轉換。2.3大數據分析挖掘層為了能夠對電力系統安全日志數據進行基于大數據的分析和處理,選取Spark+Hadoop結合的方法實現。Spark的核心組件包括RDD(ResilientDistributedDatasets)、Scheduler、Storage、Shuf?e四部分:RDD是Spark核心精髓的部分,Spark將所有數據都抽象成RDD。Scheduler是Spark的調度機制,分為DAGScheduler和TaskScheduler。Storage模塊主要管理緩存后的RDD、shuf?e和broadcast數據。為了實現電力系統安全日志的關聯、聚類和異常等分析,本平臺選取Mahout機器學習相關算法進行日志信息分類、聚類、關聯分析等操作。2.4數據展示層為了能夠直觀、快捷的將電力系統面臨的安全威脅展示出來,本平臺通過Web形式展示。展示內容主要包括:安全態勢感知內容、威脅情報與資源共享、攻擊擴散關聯路徑分析、智能檢索等。展示平臺主要采用HTML5,JavaScript,CSS,J2EE或者Nodejs,AngularJS,Highcharts等技術實現。
3實驗及分析
為了驗證基于大數據的電力系統安全流量與日志處理框架的有效性,本文收集了防火墻、交換機、堡壘機等設備產生的流量日志,如交換機Syslog流量日志原始數據如表1所示,接著基于大數據平臺,完成日志分析處理,流程圖如圖1所示。實驗選取Cloudera來搭建實驗環境,Cloudera包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeeper、Sqoop等,簡化了大數據平臺的安裝、使用難度。實驗環境包括:Vmware虛擬機、操作系統CentOS6.5x64、ClouderManager5.14.0、CDH5.14.0。實驗采取*分布式配置,包括1個master節點和2個slave節點。實驗選取不同大小的Syslog日志,比較SQL查詢與Hadoop平臺的處理效率。檢測結果如表2所示。在2.68M時,MySQL查詢效率高于Hive的查詢效率。隨著數據量增大,Hive的查詢效率要好于MySQL,數據規模越大,Hive查詢統計效率越明顯。這是因為,當數據量小時,MySQL的延時低,而Hive查詢是利用MapReduce算法,相對延時比較高;而當數據規模增大到10萬條以上,MySQL需要逐條計算,耗時長,且容易出錯;Hive采用并行計算,將大規模數據計算切分為多個小規模的分塊數據,每個分塊單獨計算,整體時間少。該實驗充分驗證了采用Hadoop大數據平臺并行處理相比傳統串行處理有非常明顯的效率和存儲優勢。
免責聲明
- 凡本網注明“來源:化工儀器網”的所有作品,均為浙江興旺寶明通網絡有限公司-化工儀器網合法擁有版權或有權使用的作品,未經本網授權不得轉載、摘編或利用其它方式使用上述作品。已經本網授權使用作品的,應在授權范圍內使用,并注明“來源:化工儀器網”。違反上述聲明者,本網將追究其相關法律責任。
- 本網轉載并注明自其他來源(非化工儀器網)的作品,目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,不承擔此類作品侵權行為的直接責任及連帶責任。其他媒體、網站或個人從本網轉載時,必須保留本網注明的作品第一來源,并自負版權等法律責任。
- 如涉及作品內容、版權等問題,請在作品發表之日起一周內與本網聯系,否則視為放棄相關權利。