come on
#FormatImgID_1#點我瞭解更多文字處理相關技術
戳阿虎虎的影片號觀看本期影片版本
近日,持續一個月的2020歐洲盃賽事落下帷幕,足球作為“世界第一運動”自然少不了關注,喝著啤酒看著比賽最是愜意,在這個熱情似火的夏天,足球帶來了太多值得銘記的瞬間,有歡笑也有遺憾;但或許也有許多人因事務繁忙而錯過比賽直播,不過別急,阿虎虎這就用
知識圖譜
帶你回顧歐洲盃。
我們先簡單介紹一下知識圖譜。在維基百科的官方詞條中:知識圖譜是Google用於增強其搜尋引擎功能的知識庫。本質上,知識圖譜是
一種揭示實體之間關係的語義網路
,可以對現實世界的事物及其相互關係進行形式化地描述。
三元組
是知識圖譜的一種通用表示方式,基本形式主要包括兩種:
1.實體1+關係+實體2
實體是知識圖譜
中最基本元素,可理解為某個物件、個體。舉例:
“C羅效力於尤文圖斯隊”,
C羅和尤文圖斯隊
是兩個不同實體,效力就是兩者之間的關係
。
2.概念+屬性+屬性值
,概念可理解為集合、類別,如人物、國家等;屬性即特性、特徵,如年齡、性別、面積等;屬性值就是該屬性的值。舉例:“尤文圖斯市值9。22億歐”,尤文圖斯是足球俱樂部,市值是可用於描述俱樂部的一個屬性,在這裡屬性值為9。22億歐。
知識
圖譜正是由許許多多這樣的三元組構成,它們互相連線,最終形成類似於網狀的結構,進而表達更復雜的資訊。
基於此,阿虎虎製作了歐洲盃版的知識圖譜,透過下面兩張圖,便能一覽本次賽事。
上面其實是簡單版的知識圖譜,所涉及的實體和關係比較單一,但在實際應用中,各實體間的邏輯關係要遠比這複雜得多。
上文提到三元組主要包括兩種基本形式:
實體1+關係+實體2
和
概念+屬性+屬性值
。
第一種形式的構建所涉及到的自然語言處理技術主要是
1.實體命名識別2.關係抽取3.實體統一 4.指代消解
(點選
技術知識傳送門
檢視
詳解
)
第二種形式所涉及到的自然語言處理技術與第一種差不多,但應注意的是,第二種技術
“關係抽取”
需要換成
“屬性抽取”
。
屬性抽取(Attribute Extraction)
:屬性抽取的目標是從不同資訊源中採集特定實體的屬性資訊。概念比較抽象,下面透過一則新聞來了解一下屬性抽取。
北京時間7月12日凌晨,隨著2020歐洲盃決賽落下帷幕,本屆賽事射手王也已誕生——克里斯蒂亞諾·羅納爾多憑藉5粒進球奪得金靴!
雖然葡萄牙在16強戰階段就早早被淘汰,但已經36歲的C羅還是代表葡萄牙隊留下了4場比賽5粒進球(其中3粒點球)以及1記助攻的資料。
根據規則,進球數相同的情況下,先比助攻數,如若還相同則比較出場時間。因此,C羅得以以助攻數的優勢,力壓同樣打進5球的捷克鋒霸希克,摘得賽事金靴。
作為歐洲盃歷史射手王,C羅目前的紀錄定格在14球;不過這卻是C羅首次拿到當屆歐洲盃金靴,2016年他不敵格里茲曼斬獲銀靴。另外,這也是C羅首次奪得大賽金靴。
這則新聞需要用到的三元組兩種形式都有,但今天我們主要講
“屬性抽取”
,所以這裡只談第二種:
概念+屬性+屬性值
第二種形式的語句有“已經36歲的C羅”、“留下了4場比賽”、“紀錄定格在14球”、“2016年他斬獲銀靴”等,屬性抽取的難點在於除了
要識別實體的屬性名還要識別實體的屬性值
,
比如“已經36歲的C羅”這句,屬性名為“年齡”,屬性值為“36歲”
。
“屬性抽取”
可以大大豐富知識圖譜的資訊豐富度,從多層面詳細刻畫各個實體,比如人物實體的生日、性別、國籍等,都是它的屬性資訊,透過屬性抽取,透過多個數據源的獲取,我們就可以透過豐富的屬性資訊來較為完整地刻畫一個實體。
現在,一個基於上述文字的簡單知識圖譜就大概形成了,在知識圖譜的幫助下,上面一段比較雜亂的非結構化資料脈絡變得清晰起來,也更便於對其進行深加工。
(對新聞資訊處理後構建的知識圖譜)
除了上述的技術外,知識圖譜的構建還需要其他各種技術的支援,這裡就不一一展開了。在實際應用中,知識圖譜的業務型別也是非常豐富的,比如:
1.KBQA問答
(“knowledge base question answering”基於知識圖譜的問答),透過對問題進行語義理解及解析,透過知識庫進行查詢,如輸入“C羅的國籍是什麼?”,KBQA就會
基於知識圖譜的實體或關係
,輸出“葡萄牙”,而傳統的問答模式輸出的是網頁,而不是最終答案,這是根本性區別,因此KBQA更加智慧與高效,能夠較好地實現
所得即所想
,節約時間,提高效率。
KBQA
可以給企業帶來巨大收益,
對內可以減少無效勞動,提高員工工作效率
;
對外可以精準識別使用者意圖,最佳化使用者體驗,增加使用者粘性,從而為企業帶來長遠收益
。
2.搜尋+推薦
,結合行業知識圖譜等知識間的關聯推理資訊,實現相關內容自動推薦,拓展使用者搜尋邊界,
將資訊精準地推薦給目標使用者
。如電商可以給客戶推薦他們想要的產品,媒體給客戶推薦他們想要的資訊等。
3.邏輯決策輔助
,利用知識圖譜的知識,對知識進行分析處理,透過一定規則的邏輯推理,得出對於某種結論,為使用者決斷提供支援。如金融行業基於知識圖譜,可模擬經濟學的漣漪效應(如一個人支出的減少會造成其他人收入的減少,連帶也使得他們可支出的金額減少),對
期貨投資決策提供支援
。再如園區可基於產業鏈的上中下游關係,做出
招商引資決策
。
4.關聯挖
掘+根因分析
,透過知識圖譜挖掘事物之間的深層聯絡,找出根源並進行分析。如在智慧製造領域,基於知識圖譜可以快速定位到某個零部件的供應商或是說明書,在產品出現問題時,可以幫助售後快速並
精準定位到具體原因
,從而解決問題。
關於知識圖譜的應用,虎博科技已經達成了不少落地案例,比如
方正案例
(點選案例傳送門
檢視細節)。
方正證券APP“小方“App引入虎博科技智慧搜尋引擎,對所有業務板塊資料進行整合,整合了7大服務頻道,以統一的搜尋框作為資訊入口,向用戶提供智慧化的一站式全場景資訊服務。藉助
語義理解、實體識別、知識圖譜
等技術,“小方”APP能夠準確理解使用者的資訊需求,並實現資料穿透,向用戶反饋與搜尋意圖緊密關聯的有效資訊,多維度提供搜尋結果,從而連線使用者、價值資訊和目標產品。
在此案例中,
知識圖譜起到的作用是關聯挖掘,對產品進行多屬性智慧關聯,連線使用者和產品,提升產品的轉化率
。可統計範圍內容,在引入虎博智慧搜尋引擎後,其
資訊服務效率提升至少50%
,不僅縮短了服務路徑,且有效節省運營人力成本,促進線上營收增長。
以上就是阿虎虎分享的全部內容啦!虎博科技專注
NLP+知識圖譜
,現已推出
智慧搜尋問答中臺、NLP演算法中臺、新一代企業知識庫、智慧輿情繫統
等產品和服務,想用上這麼好用的知識圖譜或瞭解更多相關內容,可以點選下方
【閱讀原文】
聯絡阿虎虎進行溝通交流。