一、詞性標註(Part of speech)的含義
詞性
指以詞的特點作為劃分
詞類
的根據。詞類是一個語言學術語,是一種語言中詞的
語法
分類,是以語法特徵(包括
句法功能
和
形態變化
)為主要依據、兼顧詞彙意義對詞進行劃分的結果。
從組合和聚合關係來說,一個詞類是指:在一個語言中,眾多具有相同句法功能、能在同樣的組合位置中出現的詞,聚合在一起形成的範疇。
詞類是最普遍的語法的聚合
。詞類劃分具有層次性。
詞性標註就是在給定句子中
判定每個詞的語法範疇
,
確定其詞性
並
加以標註
的過程,這也是自然語言處理中一項非常重要的基礎性工作。
二、中文詞性標註的難點
1。 漢語是一種
缺乏詞形態變化
的語言,詞的類別不能像印歐語那樣,直接從詞的形態變化上來判別。
2。 常用詞
兼類
現象嚴重。《現代漢語八百詞》收取的常用詞中,兼類詞所佔的比例高達22。5%,而且發現越是常用的詞,不同的用法越多。由於兼類使用程度高,兼類現象涉及漢語中大部分詞類,因而造成在漢語文字中
詞類歧義排除
的任務量巨大。
3。 研究者
主觀原因
造成的困難。語言學界在
詞性劃分的目的
、
標準
等問題上還存在分歧。目前還沒有一個統一的被廣泛認可漢語詞類劃分標準,
詞類劃分的粒度和標記符號都不統一
。詞類劃分標準和標記符號集的差異,以及分詞規範的含混性,給中文資訊處理帶來了極大的困難。
三、詞性標註4種常見方法
1. 基於規則的詞性標註方法
基本思想是按
兼類詞
搭配關係
和
上下文語境
建造
詞類消歧規則
。
早期的詞類標註規則一般由人工構建。隨著
標註語料庫
規模的增大,可利用的資源也變得越來越多,這時候以人工提取規則的方法顯然變得不現實,於是,提出了基於機器學習的規則自動提出方法。
2. 基於統計模型的詞性標註方法
統計方法將詞性標註看作是一個
序列標註問題
。其基本思想是:給定帶有各自標註的詞的序列,我們可以確定下一個詞最可能的詞性。
現在已經有隱馬爾可夫模型(HMM)、條件隨機域(CRF)等統計模型,這些模型可以使用有標記資料的大型語料庫進行訓練,而有標記的資料則是指其中每一個詞都分配了正確的詞性標註的文字。
3. 基於統計方法與規則方法相結合的詞性標註方法
理性主義方法與經驗主義相結合的處理策略一直是自然語言處理領域的專家們不斷研究和探索的問題,對於詞性標註問題當然也不例外。
這類方法的主要特點在於對統計標註結果的篩選,只對那些被認為可疑的標註結果,才採用規則方法進行歧義消解,而不是對所有情況都既使用統計方法又使用規則方法。
4. 基於深度學習的詞性標註方法
可以當作
序列標註
的任務來做,目前深度學習解決序列標註任務常用方法包括LSTM+CRF、BiLSTM+CRF等。
四、詞性標註工具
Jieba
SnowNLP
THULAC
StanfordCoreNLP
HanLP
NLTK
SpaCy