錯過歐洲盃?知識圖譜帶你一覽賽事全程!

come on

#FormatImgID_1#點我瞭解更多文字處理相關技術

戳阿虎虎的影片號觀看本期影片版本

近日,持續一個月的2020歐洲盃賽事落下帷幕,足球作為“世界第一運動”自然少不了關注,喝著啤酒看著比賽最是愜意,在這個熱情似火的夏天,足球帶來了太多值得銘記的瞬間,有歡笑也有遺憾;但或許也有許多人因事務繁忙而錯過比賽直播,不過別急,阿虎虎這就用

知識圖譜

帶你回顧歐洲盃。

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

我們先簡單介紹一下知識圖譜。在維基百科的官方詞條中:知識圖譜是Google用於增強其搜尋引擎功能的知識庫。本質上,知識圖譜是

一種揭示實體之間關係的語義網路

,可以對現實世界的事物及其相互關係進行形式化地描述。

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

三元組

是知識圖譜的一種通用表示方式,基本形式主要包括兩種:

1.實體1+關係+實體2

實體是知識圖譜

中最基本元素,可理解為某個物件、個體。舉例:

“C羅效力於尤文圖斯隊”,

C羅和尤文圖斯隊

是兩個不同實體,效力就是兩者之間的關係

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

2.概念+屬性+屬性值

,概念可理解為集合、類別,如人物、國家等;屬性即特性、特徵,如年齡、性別、面積等;屬性值就是該屬性的值。舉例:“尤文圖斯市值9。22億歐”,尤文圖斯是足球俱樂部,市值是可用於描述俱樂部的一個屬性,在這裡屬性值為9。22億歐。

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

知識

圖譜正是由許許多多這樣的三元組構成,它們互相連線,最終形成類似於網狀的結構,進而表達更復雜的資訊。

基於此,阿虎虎製作了歐洲盃版的知識圖譜,透過下面兩張圖,便能一覽本次賽事。

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

上面其實是簡單版的知識圖譜,所涉及的實體和關係比較單一,但在實際應用中,各實體間的邏輯關係要遠比這複雜得多。

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

上文提到三元組主要包括兩種基本形式:

實體1+關係+實體2

概念+屬性+屬性值

第一種形式的構建所涉及到的自然語言處理技術主要是

1.實體命名識別2.關係抽取3.實體統一 4.指代消解

(點選

技術知識傳送門

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

檢視

詳解

第二種形式所涉及到的自然語言處理技術與第一種差不多,但應注意的是,第二種技術

“關係抽取”

需要換成

“屬性抽取”

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

屬性抽取(Attribute Extraction)

:屬性抽取的目標是從不同資訊源中採集特定實體的屬性資訊。概念比較抽象,下面透過一則新聞來了解一下屬性抽取。

北京時間7月12日凌晨,隨著2020歐洲盃決賽落下帷幕,本屆賽事射手王也已誕生——克里斯蒂亞諾·羅納爾多憑藉5粒進球奪得金靴!

雖然葡萄牙在16強戰階段就早早被淘汰,但已經36歲的C羅還是代表葡萄牙隊留下了4場比賽5粒進球(其中3粒點球)以及1記助攻的資料。

根據規則,進球數相同的情況下,先比助攻數,如若還相同則比較出場時間。因此,C羅得以以助攻數的優勢,力壓同樣打進5球的捷克鋒霸希克,摘得賽事金靴。

作為歐洲盃歷史射手王,C羅目前的紀錄定格在14球;不過這卻是C羅首次拿到當屆歐洲盃金靴,2016年他不敵格里茲曼斬獲銀靴。另外,這也是C羅首次奪得大賽金靴。

這則新聞需要用到的三元組兩種形式都有,但今天我們主要講

“屬性抽取”

,所以這裡只談第二種:

概念+屬性+屬性值

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

第二種形式的語句有“已經36歲的C羅”、“留下了4場比賽”、“紀錄定格在14球”、“2016年他斬獲銀靴”等,屬性抽取的難點在於除了

要識別實體的屬性名還要識別實體的屬性值

比如“已經36歲的C羅”這句,屬性名為“年齡”,屬性值為“36歲”

“屬性抽取”

可以大大豐富知識圖譜的資訊豐富度,從多層面詳細刻畫各個實體,比如人物實體的生日、性別、國籍等,都是它的屬性資訊,透過屬性抽取,透過多個數據源的獲取,我們就可以透過豐富的屬性資訊來較為完整地刻畫一個實體。

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

現在,一個基於上述文字的簡單知識圖譜就大概形成了,在知識圖譜的幫助下,上面一段比較雜亂的非結構化資料脈絡變得清晰起來,也更便於對其進行深加工。

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

(對新聞資訊處理後構建的知識圖譜)

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

除了上述的技術外,知識圖譜的構建還需要其他各種技術的支援,這裡就不一一展開了。在實際應用中,知識圖譜的業務型別也是非常豐富的,比如:

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

1.KBQA問答

(“knowledge base question answering”基於知識圖譜的問答),透過對問題進行語義理解及解析,透過知識庫進行查詢,如輸入“C羅的國籍是什麼?”,KBQA就會

基於知識圖譜的實體或關係

,輸出“葡萄牙”,而傳統的問答模式輸出的是網頁,而不是最終答案,這是根本性區別,因此KBQA更加智慧與高效,能夠較好地實現

所得即所想

,節約時間,提高效率。

KBQA

可以給企業帶來巨大收益,

對內可以減少無效勞動,提高員工工作效率

對外可以精準識別使用者意圖,最佳化使用者體驗,增加使用者粘性,從而為企業帶來長遠收益

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

2.搜尋+推薦

,結合行業知識圖譜等知識間的關聯推理資訊,實現相關內容自動推薦,拓展使用者搜尋邊界,

將資訊精準地推薦給目標使用者

。如電商可以給客戶推薦他們想要的產品,媒體給客戶推薦他們想要的資訊等。

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

3.邏輯決策輔助

,利用知識圖譜的知識,對知識進行分析處理,透過一定規則的邏輯推理,得出對於某種結論,為使用者決斷提供支援。如金融行業基於知識圖譜,可模擬經濟學的漣漪效應(如一個人支出的減少會造成其他人收入的減少,連帶也使得他們可支出的金額減少),對

期貨投資決策提供支援

。再如園區可基於產業鏈的上中下游關係,做出

招商引資決策

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

4.關聯挖

掘+根因分析

,透過知識圖譜挖掘事物之間的深層聯絡,找出根源並進行分析。如在智慧製造領域,基於知識圖譜可以快速定位到某個零部件的供應商或是說明書,在產品出現問題時,可以幫助售後快速並

精準定位到具體原因

,從而解決問題。

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

關於知識圖譜的應用,虎博科技已經達成了不少落地案例,比如

方正案例

(點選案例傳送門

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

檢視細節)。

錯過歐洲盃?知識圖譜帶你一覽賽事全程!

方正證券APP“小方“App引入虎博科技智慧搜尋引擎,對所有業務板塊資料進行整合,整合了7大服務頻道,以統一的搜尋框作為資訊入口,向用戶提供智慧化的一站式全場景資訊服務。藉助

語義理解、實體識別、知識圖譜

等技術,“小方”APP能夠準確理解使用者的資訊需求,並實現資料穿透,向用戶反饋與搜尋意圖緊密關聯的有效資訊,多維度提供搜尋結果,從而連線使用者、價值資訊和目標產品。

在此案例中,

知識圖譜起到的作用是關聯挖掘,對產品進行多屬性智慧關聯,連線使用者和產品,提升產品的轉化率

。可統計範圍內容,在引入虎博智慧搜尋引擎後,其

資訊服務效率提升至少50%

,不僅縮短了服務路徑,且有效節省運營人力成本,促進線上營收增長。

以上就是阿虎虎分享的全部內容啦!虎博科技專注

NLP+知識圖譜

,現已推出

智慧搜尋問答中臺、NLP演算法中臺、新一代企業知識庫、智慧輿情繫統

等產品和服務,想用上這麼好用的知識圖譜或瞭解更多相關內容,可以點選下方

【閱讀原文】

聯絡阿虎虎進行溝通交流。

錯過歐洲盃?知識圖譜帶你一覽賽事全程!