「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

也許每個人出生的時候都以為這世界都是為他一個人而存在的,當他發現自己錯的時候,他便開始長大

少走了彎路,也就錯過了風景,無論如何,感謝經歷

關於Android安全的知識,可前往:https://blog。csdn。net/ananasorangey/category11955914。html

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

本篇文章轉載自公眾號[娜璋AI安全之家]

前一篇文章分享了NLP基礎入門知識,包括NLP發展歷程、技術演化路徑、學習路線推薦和課程安排等。

這篇文章將詳細介紹北航老師發表在RAID 2020上的論文《Cyber Threat Intelligence Modeling Based on Heterogeneous Graph Convolutional Network》,基於異構圖卷積網路的網路威脅情報建模。希望這篇文章對您有所幫助,這些大佬是真的值得我們去學習,獻上小弟的膝蓋~fighting!

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

原文標題:Cyber Threat Intelligence Modeling Based on Heterogeneous Graph Convolutional Network原文作者:Jun Zhao, Qiben Yan, Xudong Liu, Bo Li, Guangsheng Zuo原文連結:https://www。usenix。org/system/files/raid20-zhao。pdf論文來源:RAID 2020/CCF B

同時,本文參考了“安全學術圈”公眾號文章,推薦大家關注該公眾號,非常棒。此外,微信標題限制64個字元,標題省略簡寫。

https://mp。weixin。qq。com/s/TszbHM__hpYvdHsCoMmkUQ

《娜璋帶你讀論文》系列主要是督促自己閱讀優秀論文及聽取學術講座,並分享給大家,希望您喜歡。由於作者的英文水平和學術能力不高,需要不斷提升,所以還請大家批評指正,非常歡迎大家給我留言評論,學術路上期待與您前行,加油~

文章目錄:

摘要

Ⅰ.前言

Ⅱ.背景

1.動機

2.前期工作

Ⅲ.HINTI總體架構

Ⅳ.方法論

1.基於多粒度注意力的IOC提取

2.網路威脅情報建模

3.威脅情報計算

Ⅴ.資料集及實驗結果

Ⅵ.威脅智慧計算技術的應用

Ⅶ.結論和個人感受

1.結論

2.個人感受

Ⅷ.英文優美十句

前文推薦:

[AI安全論文] 01。人工智慧真的安全嗎?浙大團隊分享AI對抗樣本技術

[AI安全論文] 02。清華張超老師 GreyOne和Fuzzing漏洞挖掘各階段進展總結

[AI安全論文] 03。什麼是生成對抗網路?GAN的前世今生(Goodfellow)

[AI安全論文] 04。NLP知識總結及NLP論文撰寫之道——Pvop老師

[AI安全論文] 05。RAID-Cyber Threat Intelligence Modeling Based on GCN

摘 要

網路威脅情報(CTI,Cyber Threat Intelligence)已在業界被廣泛用於抵禦流行的網路攻擊,CTI通常被看作將威脅參與者形式化的妥協指標(IOC)。然而當前的網路威脅情報(CTI)存在三個主要侷限性:

IOC提取的準確性低

孤立的IOC幾乎無法描述威脅事件的全面情況

異構IOC之間的相互依存關係尚未得到開發,無法利用它們來挖掘深層次安全知識

本文提出了基於異構資訊網路(HIN, Heterogeneous Information Network)的網路威脅情報框架——

HINTI

,旨在建模異構IOCs之間的相互依賴關係,以量化其相關性,對CTI進行建模和分析。

本文的主要貢獻如下:

提出了基於多粒度注意力機制( multi-granular attention)的IOC識別方法,可以從非結構化威脅描述中自動提取網路威脅物件,並提高準確性

構建一個異構資訊網路(HIN)來建模IOCs之間的依賴關係

提出一個基於圖卷積網路(Graph Convolutional Networks)的威脅情報計算框架來發現知識

實現了網路威脅情報(CTI)原型系統

實驗結果表明,本文提出的IOC提取方法優於現有方法,HINTI可以建模和量化異構IOCs之間的潛在關係,為不斷變化的威脅環境提供了新的線索。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

IOC(Indicator of Compromise)是MANDIANT在長期的數字取證實踐中定義的可以反映主機或網路行為的技術指示器。

Ⅰ。前言

Introduction是論文的開頭,是極為重要的部分,介紹了為什麼要做這份工作,建議大家仔細閱讀,尤其是寫英文論文的讀者。因此,作者將該部分進行了詳細總結。

當今社會,我們正在目睹複雜的網路威脅攻擊(如0-day攻擊、高階持續威脅攻擊 APT)的快速增長。這些攻擊可以輕易繞過傳統防禦,如防火牆和入侵檢測系統(IDS),破壞關鍵基礎設施,並造成災難。為了應對這些新出現的威脅,安全專家提出了

網路威脅情報(CTI)

,幷包含

IOCs指標

與著名的安全資料庫(如

CVE

ExploitDB

)不同,當系統遇到可疑威脅時,CTI可以幫助組織主動釋出更全面和更有價值的威脅警告(例如,惡意IP、惡意DNS、惡意軟體和攻擊模式等)。

http://cve。mitre。org/

https://www。exploit-db。com/

近年來,CTI越來越多地被安全人員和行業用來分析威脅環境。原始的CTI提取和分析需要對攻擊事件描述進行大量的手動檢查,耗時耗力。最近提出了從非結構化安全文字中提取CTI的自動化方法,如

CleanMX

PhishTank

IOC Finder

Gartner peer insight

,並且都遵循OpenIOC標準,並利用正則表示式提取特定型別的IOC(如惡意IP、惡意軟體、檔案雜湊等)。

然而,這種提取方法面臨著三個主要的限制。

首先,IOC提取的精度低,不可避免地導致關鍵威脅物件遺漏。

其次,孤立的IOC沒有全面描述威脅事件的概況,這使得CTI使用者無法對即將到來的威脅獲得完整的瞭解。

最後,缺乏一個有效的計算框架來有效地衡量異構IOCs之間的互動關係。

為了應對這些限制(To combat these limitations):

本文提出了一種基於異構資訊網路的威脅情報框架HINTI,來對CTI進行建模和分析。值得注意的是,HINTI提出了一種基於多粒度注意力機制的IOC識別方法,以提高IOC提取的準確性。

然後,HINTI利用HIN來建模異構IOC之間的依賴關係,這可以描述一個更全面的威脅事件。此外,本文提出了一個新的CTI計算框架來量化IOC之間相互依賴的關係,這有助於發現新的安全資訊(security insights)。

綜上,本文的主要貢獻總結如下:

基於多粒度注意力機制的IOC識別

(Multi-granular Attention based IOC Recognition)

可以從多源威脅文字中自動提取網路威脅物件,學習不同尺度的特徵,提高準確率和召回率,共從非結構化的威脅描述中提取397730個IOCs。

異構威脅智慧建模(Heterogeneous Threat Intelligence Modeling)

使用異構資訊網路來建模不同型別的IOC,引入各種元路徑捕獲異構IOC之間的相互依賴關係,描述更全面的網路威脅事件概況。

威脅智慧計算框架(Threat Intelligence Computing Framework)

提出網路威脅智慧計算的概念,設計一個通用的計算框架。該框架利用基於權重學習的節點相似度來量化異構IOCs之間的依賴關係,然後利用基於注意力機制的異構圖卷積網路來嵌入IOCs及互動關係。

威脅情報原型系統(Threat Intelligence Prototype System)

實現了一個CTI原型系統,確定6類攻擊物件之間的1262258種關係,包括攻擊者、漏洞、惡意檔案、攻擊型別、裝置和平臺。

Ⅱ。背景

1。動機

本研究的主要目標是透過建模異構IOCs之間的依賴關係來解決現有CTI分析框架的侷限性。舉一個有趣的安全示例:

Last week, Lotus exploited CVE-2017-0143 vulnerability to affect a larger number of Vista SP2 and Win7 SP devices in Iran。 CVE-2017-0143 is a remote code execution vulnerability including a malicious file SMB。bat。

大多數現有的CTI框架可以提取特定的IOC,但卻忽略了它們之間的關係,如圖1所示。很明顯,這些IOC無法全面瞭解威脅形勢,更不用說量化它們的互動關係以進行深入的安全調查。

與現有的CTI框架不同,HINTI旨在實現一個CTI計算框架,它不僅可以有效提取IOC,而且還可以建模和量化它們之間的關係。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

在這裡,我們使用該示例來說明HINTI是如何一步一步工作(四個步驟)。

(i) 首先,透過B-I-O序列標註方法對安全相關帖子進行標註,用於構建IOC提取模型。

其中,B-X表示X型別的元素位於片段的開頭,I-X表示X型別的元素位於中間片段,O表示其他型別的非基本元素。在研究中,我們從5000個威脅描述文字中標註了3萬個這樣的訓練樣本,這些文字是用來構建我們IOC提取模型的原始材料。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

(ii) 然後將標記的訓練樣本輸入我們提出的神經網路,如圖6所示,以訓練提出的IOC提取模型。

(iii) HINTI利用句法依賴性解析器(e。g。,主-謂-賓,定語從句等)提取IOC之間的關聯關係,每個關係都表示為三元組(IOCi, 關係, IOCj)。在此例項中,HINTI提取三元組關係如下:

– (Lotus, exploit, CVE-2017-0143)

– (CVE-2017-0143, affect, VistaSP2)

注意,提取的關係三元組可以增量地合併到一個HIN中,以模擬IOCs之間的互動作用,從而描述一個更全面的威脅環境。圖3以圖形表示顯示了從示例中提取IOC描述之間的互動關係,g該圖表示攻擊者利用CVE-2017-0143漏洞入侵VistaSP2和Win7SP1裝置。CVE-2017-0143是一個涉及惡意檔案“SMB。bat”的遠端程式碼執行漏洞。

與圖1相比,很明顯,HINTI可以描繪一個比以往方法更直觀、更全面的威脅環境

。在本文中,我們主要考慮6種不同型別的IOC之間的9個關係(R1∼R9)(詳見第4。2節)。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

(iv) 最後,HINTI集成了基於異構圖卷積網路的CTI計算框架(見第4。3節),以有效量化IOC之間的關係並進行知識發現。

特別是,本文提出的CTI計算框架描述了IOC及其在低維嵌入空間(low-dimensional embedding space)中的關係,在此基礎上,CTI使用者可以使用任何分類(如SVM、樸素貝葉斯)或聚類演算法(K-Means、DBSCAN)來獲得新的威脅見解,例如預測哪些攻擊者可能入侵其系統,以及在沒有專家知識的情況下識別哪些漏洞屬於同一類別。

2。前期工作

Definition 1 Heterogeneous Information Network of Threat Intelligence (HINTI)

Definition 2 Network Schema

Definition 3 Meta-path

威脅智慧的異構資訊網路(HINTI)被定義為有向圖

G=(V, E, T)

,其中v表示物件,e表示連結,r表示關係型別。具有物件型別對映函式ϕ:V→M和鏈路型別對映函式Ψ:E→R。本文重點研究了6種常見型別,連線不同物件的連結代表了不同的語義關係。

attacker (A)

vulnerability (V)

device (D)

platform (P)

malicious file (F)

attack type (T)

接著採用模式描述元關係的網路架構,圖4展示了網路模式(知識圖譜中本體概念)和一個網路例項。比如“軟體裝置屬於系統平臺”為模式圖,“Office2012屬於Windows系統軟體”為例項。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

最後定義元路徑,指網路模式S=(N, R)的路徑序列,其定義了符合關係。表1顯示了HINTI中所考慮的元路徑。例如,“攻擊者(A)利用相同的漏洞(V)”的關係可以透過長度為2的元路徑表示:

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

稱為 AVAT(P4)來描述,這意味著兩個攻擊者利用相同的漏洞。同樣, AVDPDTVTAT(P17) 描繪了IOC之間的密切關係,即“兩個利用同一漏洞的攻擊者入侵同一型別的裝置,並最終摧毀同一型別的平臺”。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

Ⅲ。HINTI總體架構

HINTI作為一個網路威脅智慧提取和計算框架,能夠有效地從威脅描述中提取IOC,並描述異構IOC之間的關係,以揭開新的威脅見解。如圖5所示,HINTI由四個主要部件組成,包括:

收集與安全相關的資料並提取即IOC

使用Xpath提取安全資料(部落格、安全論壇、新聞、公告),利用基於多粒度注意力機制的IOC識別方法收集資訊。

將IOC之間的依存關係建模為異構資訊網路

該網路可以自然地描述異構IOC之間的相互依賴關係。比如圖4顯示的模型,它可以捕獲攻擊者、漏洞、惡意檔案、攻擊型別、平臺和裝置之間的互動式關係。

使用基於權重學習的相似性度量將節點嵌入到低維向量空間中

元對映是構造HIN中IOC語義關係的有效工具。本文設計了17種元路徑(見表1)來描述IOC之間的相互依賴關係,利用這些元路徑,提出了一種基於權重學習的相似計算方法來將節點嵌入到這些關係,作為威脅智慧計算的前提。

基於圖卷積網路和知識挖掘來計算威脅情報

透過圖卷積網路(GCN)來量化和測量IOC之間的相關性,本文提出的威脅情報計算框架可以在更全面的威脅環境中揭示更豐富的安全知識。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

Ⅳ。方法論

1。基於多粒度注意力的IOC提取

近年來,BiLSTM+CRF在命名實體識別領域取得良好的效能,但不能直接應用於IOC提取,因為威脅文字通常包含大量不同尺寸和規則結構的物件。因此,本文提出一種基於多粒度注意機制的IOC提取方法,它可以提取具有不同粒度的威脅物件。

此外,它引入了具有不同粒度的新詞嵌入功能,以捕獲具有不同大小的IOC的特徵,其模型如圖6所示,利用自注意力機制來學習功能的重要性,以提高IOC提取的準確性。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

由圖可知,它將句子分割成了char(字元級)、1-gram、2-gram、3-gram,從而從多粒度注意力機制訓練資料。LSTM計算公式如下:

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

接下來是多粒度注意力機制及LSTM+CRF的計算過程。同時,本文設計了一個客觀的目標函式來最大化機率p(Y|X),以實現針對不同IOC的最高標籤得分。

透過求解目標函式,我們為n-gram分量分配正確的標籤,根據這些標籤,我們可以識別不同長度的IOC。我們基於多粒度注意力機制的IOC提取方法能夠識別不同型別的IOC,其評估方法在第5部分提出。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

2。網路威脅情報建模

CTI建模是探索異構IOC之間複雜關係的一個重要步驟。本文透過引入HIN,以探索不同型別的IOC之間的互動關係。為了模擬IOCs之間複雜的依賴關係,我們在6種類型的IOC之間定義了以下9種關係:

R1:attacker-exploit-vulnerability

攻擊者利用漏洞

R2:attacker-invade-device

攻擊者入侵裝置

R3:attacker-cooperate-attacker

攻擊者之間合作

R4:vulnerability-affect-device

漏洞影響裝置

R5:vulnerability-belong-attack type

脆弱性屬於攻擊型別

R6:vulnerability-include-file

漏洞包括惡意檔案

R7:file-target-device

惡意檔案針對裝置

R8:vulnerability-evolve-vulnerability

脆弱性演化脆弱性

R9:device-belong-platform

裝置屬於平臺

基於上述9種關係,HINTI利用句法依賴解析器(the syntactic dependency parser)從威脅描述中自動提取IOC之間的9種關係,每種關係用三元組(IOCi,relation,IOCj)表示。

同時進一步定義表1所示的17種元路徑,以調查攻擊者、漏洞、惡意檔案、攻擊型別、裝置、平臺之間的相互依賴關係。透過檢查17種類型的元路徑,HINTI能夠傳達更豐富的事件上下文,並揭示異構IOC的深層資訊。

3。威脅情報計算

本節說明了威脅智慧計算的概念並設計了一個基於異構圖卷積網路的一般威脅智慧計算框架,它透過分析基於元路徑的語義相似性來量化和衡量IOCs之間的相關性。在此,我們首先提供了一個基於異構圖卷積網路的威脅智慧計算的正式定義:

給定威脅情報圖G =(V,E)和元路徑集M = {P1,P2,…,Pi}

i)基於元路徑Pi計算IOC之間的相似度,以生成相應的鄰接矩陣Ai

ii)透過將IOC的屬性資訊嵌入到向量空間中,構造節點Xi的特徵矩陣

iii)進行圖卷積GCN(Ai,Xi),透過遵循元路徑Pi量化IOC之間的相互依賴關係,將其嵌入到低維空間中

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

威脅智慧計算的目的是對IOC之間的語義關係進行建模,並基於元路徑度量其相似度,可用於高階安全知識發現,如威脅物件分類、威脅型別匹配、威脅進化分析等。直觀地說,由最重要的元路徑連線的物件往往具有更相似的。

在本文中,我們提出了一種基於權重學習的威脅智慧相似度測量方法,它利用自注意力機制來提高任意兩個IOC之間的相似度測量方法的效能。此方法的形式化定義如下,定一組對稱元路徑集合:

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

任意兩個IOC(hi和hj)之間的相似度S(hi,hj)定義為:

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

利用交叉熵損失來最佳化提出的威脅情報框架的效能:

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

使用這個框架,安全組織能夠挖掘隱藏在iOC之間相互依賴的關係中的更豐富的安全知識。

Ⅴ。資料集及實驗結果

本文開發了威脅資料收集器,自動收集網路威脅資料,包括73個國際安全部落格(例如,fireeye,cloudflare),駭客論壇帖子(例如,Blackhat,Hack5),安全公告(例如,Microsoft,Cisco),CVE詳細說明和ExploitDB。已經收集了超過245,786個描述威脅事件的與安全相關的資料。為了訓練和評估我們提出的IOC提取方法,利用B-I-O序列標記方法對5,000個文字中的30,000個樣本進行了標註(60%訓練集,20%驗證集,20%測試集)。

最終模型最佳執行的超引數如表2所示,學習率對比了0。001,0。005,0。01,0。05,0。1,0。5。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

本文提取的13種主要的IOC效能如表3所示。總的來說,我們的IOC提取方法在精確率、召回率、平均F1值都表現出了優異的效能。然而,我們觀察到在識別軟體和惡意軟體時的效能下降,這是因為大多數軟體和惡意軟體是由隨機字串命名,如md5。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

為了驗證多粒度嵌入特徵的有效性,我們評估了具有不同粒度(字元級、1-gram、2-gram、3-gram和多粒度特徵)的提取效能。實驗結果如圖7所示,從圖中可以觀察到提出的多粒度嵌入特徵優於其他特徵,因為它利用注意機制同時學習多粒度的IOC特徵的不同模式。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

表4是本文方法與其他命名實體識別方法的效能對比,本文方法的效果更好。

(1) 與Standford NER和NLTK NER方法相比,它們一般使用新聞語料庫訓練,本文使用自定義收集的安全語料訓練模型。

(2) 與基於規則的提取方法(如iACE和Stucco)不同,本文提出的基於深度學習的方法提供了一個性能更好的端到端系統來表示各種IOC。

(3) 與基於RNN的方法(如BiLSTM和BiLSTMCRF)相比,本文的方法引入了多粒度嵌入尺寸(字元級、1-gram、2-gram和3-gram),以同時學習不同大小和型別的IOC特徵,可以識別更復雜和不規則的IOC。

(4) 本文的方法利用注意機制來學習不同尺度特徵的權重,以有效地描述不同型別的特徵,進一步提高了IOC識別的準確性。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

Ⅵ。威脅智慧計算技術的應用

本文提出的基於異構圖卷積網路的威脅智慧計算框架可以用來挖掘異構IOC背後新的安全知識。在本節中,我們使用三個真實世界的應用程式來評估它的有效性和適用性:

CTI威脅分析和排名

攻擊偏好建模

漏洞相似性分析

不同型別IOC的排名如表5所示,具有不同元路徑的攻擊偏好實驗結果如圖8所示。具體而言,本文首先利用提出的威脅智慧計算框架將每個攻擊者嵌入到一個低維向量空間中,然後對嵌入式向量執行DBSCAN演算法,將具有相同偏好的攻擊者聚集到相應組中。

圖8顯示了不同型別元路徑下的前3個聚類結果,其中元路徑 AVDPDTVTAT(P17) 在緊湊和分離良好的叢集中效能最好,這表明它比其他元路徑在描述攻擊偏好方面具有更豐富的語義關係。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

為了驗證攻擊偏好建模的有效性,我們確定了5297個不同的攻擊者(每個唯一的IP地址被視為一個攻擊者)。在標記樣本和清洗資料後,進一步評估不同元路徑在模型上的效能。在攻擊建模場景中,我們只關注起始節點和結束節點都是攻擊者元路徑的情況,實驗結果詳見表6。顯然,不同的元路徑在描述網路入侵者的攻擊偏好方面表現出不同的能力。使用P17的效能要優於其他元路徑,這表明P17在描述網路罪犯攻擊偏好時具有更高價值的資訊,因為P17包含P1、P4、P5和P12∼P15的語義資訊。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

最後是漏洞相似性分析,基於不同元路徑的漏洞相似性分析如圖9所示。其中漏洞i可以簡化為二維空間(xi、yi),每個叢集表示特定型別的漏洞,聚類的準確率如表7所示。

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

「AI安全論文」 RAID-Cyber Threat Intelligence Modeling Based on GCN

討論

Data Availability

Model Extensibility

High-level Semantic Relations

Security Knowledge Reasoning

Ⅶ。結論和個人感受

1。結論

本文的工作探索了威脅智慧計算的一個新方向,旨在發現不同威脅向量之間關係的新知識。我們提出了一個網路威脅情報框架HINTI,透過利用異構圖卷積網路來建模和量化不同型別IOC之間的依賴關係。我們開發了一個多粒度注意力機制來學習不同特徵的重要性,並使用HIN來建模IOC之間的依賴關係。此外,本文提出了威脅智慧計算的概念,並設計了一個基於圖卷積網路的通用智慧計算框架。

實驗結果表明,基於多粒度注意力機制的IOC提取方法優於現有的先進方法,提出的威脅智慧計算框架可以有效挖掘隱藏在IOC之間相互依賴關係中的安全知識,使關鍵的威脅智慧應用,如威脅分析和排序、攻擊偏好建模和脆弱性相似性分析。

在未來,我們計劃開發一個基於HINTI的預測和推理模型,並探索預防性的應對措施,以保護網路基礎設施免受未來的威脅。我們還計劃增加更多型別的IOC和關係,以描述一個更全面的威脅環境。

此外,我們將利用元路徑和元圖來表徵IOC及其互動作用,以進一步提高嵌入效能,並在模型的準確性和計算複雜度之間取得平衡,還將研究基於HINTI的安全知識預測的可行性,以推斷漏洞和裝置之間潛在的潛在關係。

2。個人感受

我的整體感受如下,寫得不好或不足的地方還請各位老師和朋友海涵。

這篇文章和我對威脅情報自動化提取的想法及實驗非常相似(NER實現),但我的方法沒有本文系統,尤其是演算法創新和後面的應用實踐,包括引言部分和動機都非常值得我去學習。真誠地感謝北航老師們的分享,讓我學得很多,也進一步驗證我的想法是有價值的。雖然撞車,但我學到的更多,後續我將進一步去最佳化自己的實驗和idea,加油~

之前做過很多BiLSTM和CNN+Attention的實驗研究,原來多粒度注意力機制就是這樣的,字元級、n-gram相結合,和我2016年做的多檢視融合演算法有相似之處,當時實體對齊從text和inforbox兩個檢視最佳化。

NLP和安全結合來增強語義,圖神經網路及GAN與二進位制結合都是非常好的結合點,而且有很多內容可以去做,該篇論文在NLP領域是常見的命名實體識別(NER)問題,其模型仍然有很多最佳化的點,但是在CTI領域仍然比較新,且應用價值巨大。北航老師另一篇透過BERT來做威脅情報和入侵識別也有很多學習之處。

就我自己而言,雖然英文論文能夠獨立閱讀,但英文寫作和聽讀是致命的弱點,後續需要不斷加強。此外,英文論文看得太少太少,好在現在已經放棄技術部落格更新,轉而扎進論文的學習和實驗,好好珍惜這些奮鬥的日子!讀博不易,珍惜當下。

同時,學術或許是需要天賦的 o(╥﹏╥)o,這些大佬真值得我們學習。另一方面自己也會努力的,爭取靠後天努力來彌補這些鴻溝,更重要的是享受這種拼搏的過程。再次感謝老師們的分享,希望本文對您有所幫助,也歡迎大家討論,繼續加油!且行且珍惜。

明天是五一節,提前祝大家節日快樂。

Ⅷ。英文優美十句

為了後續撰寫更優質的論文,作者遇到優美的句子會進行摘抄和學習,大佬們飄過~

摘要

Cyber Threat Intelligence (CTI), as a collection of threat information, has been widely used in industry to defend against prevalent cyber attacks。

In this paper, we propose a novel CTI framework, HINTI, to model the interdependent relationships among heterogeneous IOCs to quantify their relevance。

前言

Nowadays, we are witnessing a rapid growth of sophisticated cyber attacks (e。g。, zero-day attack, advanced persistent threat)。 Such attacks can effortlessly bypass traditional defenses such as firewalls and intrusion detection systems (IDS), breach critical infrastructures, and cause devastating catastrophes。 To combat these emerging threats, security experts proposed Cyber Threat Intelligence (CTI) that consists of a collection of Indicators of Compromise (IOCs)。

Recent studies have proposed automated methods to extract CTI in the form of Indicator of Compromise (IOC) from unstructured security-related texts [4, 22]。 Most of existing IOC extraction methods, such as CleanMX, PhishTank, IOC Finder, and Gartner peer insight, follow the OpenIOC [10] standard and extract particular types of IOCs (e。g。, malicious IP, malware, file Hash, etc) by leveraging a set of regular expressions。

However, such extraction approaches face three major limitations。 First, the accuracy of IOC extraction is low, which inevitably leads to the omission of critical threat objects [22]。 Second, isolated IOC hardly depicts the comprehensive landscape of threat events, making it virtually impossible for CTI subscribers to gain a complete picture into the incoming threat。 Third, there is a lack of an effective computing framework to efficiently measure the interactive relationships among heterogeneous IOCs。

To combat these limitations, HINTI, a cyber threat intelligence framework based on heterogeneous information network (HIN), is proposed to model and analyze CTIs。

動機

Different from the existing CTI frameworks, HINTI aims to implement a computational CTI framework, which can not only extract IOCs efficiently but also model and quantify the relationships between them。 Here, we use the motivating example to illustrate how HINTI works step-by-step in practice as follows。

Compared with Figure 1, it is obvious that HINTI can depict a more intuitive and comprehensive threat landscape than the previous approaches。

Particularly, our proposed CTI computing framework characterizes IOCs and their relationships in a low-dimensional embedding space, based on which CTI subscribers can use any classification (e。g。, SVM, Naive Bayes) or clustering algorithms (K-Means, DBSCAN) to gain new threat insights, such as predicting which attackers are likely to intrude their systems, and identifying which vulnerabilities belong to the same category without the expert knowledge。 In this work, we mainly explore three real-world applications to verify the effectiveness and efficiency of the CTI computing framework: IOC significance ranking (see Section 6。1), attack preference modeling (see Section 6。2), and vulnerability similarity analysis (see Section 6。3)。

模型實現

Recently, Bidirectional Long Short Term Memory+Conditional Random Fields (BiLSTM+CRF) model [15] has demonstrated excellent performance in text chunking and Named-entity Recognition (NER)。 However, directly applying this model to IOC extraction is unlikely to succeed, since threat texts usually contain a large number of threat objects with different grams and irregular structures。 Consequently, we need an efficient method to learn the discriminative characteristics of IOCs with different sizes。 In this paper, we propose a multi-granular attention based IOC extraction method, which can extract threat objects with different granularity。

同時,最近又認識了很多朋友和博友,非常榮幸。有問問題的,有考研交流的,有一起讀博鼓勵的,也有想考博去大學教書的,還有技術交流以及交朋友的。雖未謀面,共同前行。

“娜璋AI安全之家”主要圍繞Python大資料分析、網路空間安全、人工智慧、Web滲透及攻防技術進行講解,同時分享CCF、SCI、南核北核論文的演算法實現。

娜璋之家會更加系統,並重構作者的所有文章,從零講解Python和安全,寫了近十年文章,真心想把自己所學所感所做分享出來,還請各位多多指教,真誠邀請您的關注!謝謝。

晚安女神和小珞珞,且看且珍惜。

(By: 璋 2021-04-30 12點夜於東西湖 )

彩蛋:

昨天寫的《致CSDN讀者的一些話:感恩這十年的陪伴,不負遇見,短暫消失》上首頁了,CSDN還是非常愛我的,哈哈。自己確實準備短暫停更技術部落格三年,準備好好讀讀論文、做做實驗。當然,我也很愛CSDN,在這裡寫文早已滲透到了血液,我還和濤哥約定要在這裡再寫二十年,五十年,一輩子。

感謝所有人的祝福,第一次向19萬人發私信,五百多人的祝福和鼓勵真的很感動,是真感動這或許就是分享的魅力,知識的甘甜吧。無以為報,只希望未來分享更好的文章,幫助更多初學者。握不住的沙子,就隨手揚了它,接下來沉下心去,繼續享受奮鬥的過程。短暫停更技術部落格只為更好的遇見,願我這隻笨鳥歸來仍是少年。且行且珍惜,愛你們喔,小珞太乖了。

你以為你有很多路可以選擇,其實你只有一條路可以走