贏獎金!第五屆“達觀杯”自然語言處理演算法競賽開始報名啦!

“達觀杯”系列演算法大賽是由國內領先的智慧文字處理企業——達觀資料——發起並主辦的全球性人工智慧演算法競賽,每年一屆,至今已舉辦五屆。

在CCF(中國計算機學會)自然語言處理專業委員會的特別支援下,第五屆“達觀杯”正式拉開帷幕。本屆“達觀杯”為自然語言處理演算法競賽,圍繞“基於大規模預訓練模型的風險事件標籤識別”的主題展開,積極推動國內NLP技術創新,努力拓展更多應用場景。

贏獎金!第五屆“達觀杯”自然語言處理演算法競賽開始報名啦!

賽題背景

在大資料和人工智慧技術加持下,不同行業各種新興的風險控制手段也正在高速發展。但這些風險資訊散落在網際網路的海量資訊中,如果可以及時識別出其中的風險事件並挖掘出潛在的風險特徵,就能夠大幅提升識別和揭示風險的能力。而風險事件以文字的形式存在,需要採用自然語言理解模型實現風險事件的高精度智慧識別,其本質是屬於一個文字分類任務。

NLP(自然語言處理)作為人工智慧領域皇冠上的“明珠”,其技術的科研創新一直精進不休。而文字分類在自然語言處理領域處於非常基礎且核心的地位,目前文字分類已經廣泛運用於金融、政務、銀行、證券、運營商等各個行業中的多個場景中,如金融領域和政務領域的風險事件標籤。

很多領域的子任務通常也轉化成分類任務,完整的分類任務處理包括了分類標籤體系、標註資料、演算法模型等不同環節。

賽題任務

本次大賽的任務是基於一定量的風險事件標註語料和大規模無標註的資訊文字,訓練模型對資訊文字包含何種風險標籤進行預測。

大賽提供的資料集:風險事件分類的訓練集規模是10000+,包含9個一級標籤和35個二級標籤;大規模無標註的文字規模是億級,可供選手選擇用來進行語言模型訓練。資料性質均為新聞資訊資料,並且進行了字元編碼(保留了句子劃分的標點符號),文中的字元會轉換成唯一的ID,ID之間使用空格進行分割。

希望選手結合當下的前沿自然語言處理和深度學習技術,提升模型的訓練效能和泛化能力,深入挖掘實現風險事件標籤的精準識別。

資料簡介

本賽事採用了網際網路上的新聞和資訊資料,目標在於識別新聞資訊文字中的風險事件標籤。

場景示例包括以下:

贏獎金!第五屆“達觀杯”自然語言處理演算法競賽開始報名啦!

贏獎金!第五屆“達觀杯”自然語言處理演算法競賽開始報名啦!

豐厚獎勵

贏獎金!第五屆“達觀杯”自然語言處理演算法競賽開始報名啦!

說明:獎金個人所得稅或其他形式稅收將由獲獎者承擔,由大賽承辦方代繳,獎金將統一在扣除所得稅後發放給參賽團隊隊長,參賽團隊自行負責其成員間的獎金分配與分發,主辦方及承辦方對此將不承擔任何責任。

其他獎勵

比賽頒獎典禮將在CCF自然語言處理與中文計算國際會議(NLPCC)會場內舉行,獲獎隊伍將得到中國計算機學會自然語言處理技術委員會的宣傳支援,主辦方將邀請最終成績前10名隊伍代表出席“NLPCC”大會。

比賽排名Top30的選手將獲得達觀資料全職和實習工作的面試直通機會,優先錄用。

“周榜單激勵”,開賽後賽中開啟持續5周“周榜單”活動。

周榜活動時間:8月12日-9月16日

周榜活動規則:

初賽A榜開始後第三週開啟“周榜單激勵”活動,每週一公佈截至上週日24點時周榜單TOP1團隊資訊,Top1團隊即為“周冠軍團隊”。

經稽核後,“周冠軍團隊”可獲得價值300元的精美禮品一份,本活動每個團隊最多領取2次獎品,超出則順延至下一名次團隊。獎品將在初賽結束後統一發放。

賽程安排

大賽採取線上比賽、線下頒獎的模式。選手於官方競賽平臺DataFountain報名、組隊、提交作品測評。

線上比賽結束,經作品稽核後,排行榜前十名的獲獎團隊或個人將有機會出席CCF自然語言處理與中文計算國際會議(NLPCC)交流成果並參與頒獎典禮。

贏獎金!第五屆“達觀杯”自然語言處理演算法競賽開始報名啦!

賽程安排如下:

2021年7月28日: 大賽啟動。

2021年7月28日-9月19日:初賽A榜階段(釋出賽題,選手可登入大賽官網報名參賽、提交作品,每日最多在競賽平臺提交2次作品)。

2021年9月21日(00:00-24:00):初賽B榜階段(選手可提交2次作品,但僅以最後一次作為有效成績,B榜於24點定時公佈排名)。

2021年9月22日-9月29日:程式碼復現、晉級資格稽核。

2021年9月30日:公佈決賽獲獎名單。

2021年10月13-17日:參加頒獎典禮(具體時間另行通知)。

注:如因不可抗力或其他因素影響而變更時間,組委會將在第一時間通知獲獎團隊。若獲獎團隊來自於海外,則建議進行遠端分享對接。

組織架構

特別支援:中國計算機學會自然語言處理專業委員會

主辦單位:達觀資料

官方賽事平臺:DataFountain

報名參賽

大賽面向社會各界開放,歡迎全國高校大學生、科技型企業和自然語言處理愛好者登入DataFountain官網報名參賽,共同參與和研究實際業務場景下的人工智慧技術問題。