作者:
上海市人民檢察院 陳漫卿
上文
(
觀點|類案檢索功能最佳化建議(一) —開發路徑辨析
)提到,雖然可以透過解構案例來增加檢索詞,提高自主檢索精準度,但是被動檢索(類案推送)功能仍然受限於語義分析技術水平,導致匹配案例不準確、不可用。
且不止類案推送功能,目前量刑建議、證據校驗等一系列司法熱點功能應用的實現度,都受到語義分析技術水平的限制。如何破局?
解決困難的路徑選擇
提高語義分析精準度,有兩條路徑:
一是
技術路徑
,不斷提供素材強化機器學習、模型訓練,等待技術水平突破。該路徑的
風險
在於時間、效果均不可控,按照目前司法機關和廠商的合作開發模式,在選擇初期很難辨別哪家廠商的方案、效果更優。
選擇困難症
左右滑動檢視更多
二是
機制路徑
,透過進一步增加“人工”來提高“智慧”。比如要求辦案人員對自己在辦案件涉及的法律適用、證據分析、量刑情節等提煉關鍵詞,這樣機器能很輕易的匹配到指導性案例中相同的關鍵詞,以此提高推送精準的。該路徑的
風險
在於增加了辦案人員工作量,如果不能給予其更多的“好處”,辦案人員沒有內驅力提煉關鍵詞,影響最終推送效果。
“人工”智慧
第一幕
左右滑動檢視更多
破局方案
以檢察機關辦案系統為例,我有一計“
案卡改革
”,可以在
實現類案檢索精準推送的基礎上,同時減輕填錄案卡工作總量,盤活檢察資料資源。
案卡改革
檢察機關的辦案系統(以下簡稱“檢察統一軟體”)是全國四級檢察統一辦案平臺,聚合了全國檢察案件卷宗、文書等全量資料。
檢察辦案系統
檢察統一軟體設定了“案卡”、“人卡”(以下統稱“案卡”),透過辦案人員的填錄,將案件關鍵資訊轉化為結構化資料,
使檢察機關匯聚了司法行業可用性最強、最全面、最細緻的辦案重點資料
(目前只有檢察機關是全國統一辦案平臺)
小知識
結構化資料和非結構化資料
結構化資料
也被成為定量資料,是能夠用資料或統一的結構加以表示的資訊,如檢察統一軟體內案卡欄位資料。當使用結構化查詢語言或SQL時,計算機程式很容易搜尋這些術語,因此對結構化資料的分析已經是一種成熟的技術。
非結構化資料
本質上是結構化資料之外的一切資料,如檢察統一軟體內的電子卷宗、文書,都屬於非結構化資料。相比結構化資料,非結構化資料更難搜尋。針對這類非結構化資料,首先要透過一些規則、演算法(如OCR、圖文識別技術等)實現對非結構化資料的結構化處理,再加以深度的應用(如語義分析技術)。非結構化資料的結構化處理過程中,會存在不同程度的資訊丟失,且在深度應用過程中,也無法達到100%的效果,這是當前普遍存在的技術瓶頸。整個過程中,無法完整還原非結構化資料的內容。
但案卡功能,長期以來也是最受辦案人員吐糟的功能,
因案卡欄位繁多、填錄不方便,目前對案卡資料的應用主要側重統計分析、績效考核等管理應用方面,對辦案人員而言,大量的填錄工作對其辦案“沒幫助”,沒有“獲得感”。最終影響案卡的填錄質量。
案卡改革路線圖
STEP 1
案卡分類
我認為可以透過對案卡重新“
分類
”,解決目前案卡
欄位繁雜、填錄不方便、容易錯漏、不便管理
的問題。
以
一審公訴案件
為例,目前檢察統一軟體對一審公訴案件審查環節(區別於案件受理環節)設定了審查起訴案件資訊、審判活動監督情況、線索移交情況3張案卡、10張子案卡,共計183個欄位;設定了犯罪嫌疑人、被害人2張人卡、8張子人卡,共計156個欄位。
一審公訴案件審查環節,共需填錄339個欄位
(如果被告人、被害人人數多,欄位數還會增加)。
以10張子案卡的分類為例:
案卡分類
從中可以看到,目前檢察統一軟體大致是以案件的不同環節(辦理-審結-出庭)對案卡進行分類,但是多年以來又不斷新增統計項,新增項並不能完全按照辦案環節分類(比如“毒品犯罪有關情況”這張子案卡)。
分類邏輯不清晰,使案卡變成案件資訊“大雜燴”,造成填錄不方便,
辦案人員要像“捉蝨子”一樣在繁雜的案卡中找到他的在辦案件可以填的內容。
大雜燴之王
我認為對案卡的分類、排序,可以換一種思路。案卡的實質是對案件關鍵資訊的標註,目的是為各種資料探勘、系統應用提供基礎。如果
從應用場景出發,案卡形成的結構化欄位,可以從其性質分類為“程式性欄位”、“實體性欄位”
。
應用場景分類
程式性欄位
:是案件經歷的各刑事訴訟流程資訊、犯罪嫌疑人/被告人/被害人基本情況資訊
實體性欄位
:是和案件定性、量刑有關的要素、案件的特殊情況、關注要素等。
欄位
分類舉例
同樣以一審公訴案件審查環節案卡為例,案卡人卡合計的339個欄位中,屬於程式性欄位的(如訴訟程式的起止時間、強制措施情況等)258個,佔76。1%;屬於實體性欄位(如案件性質、涉案金額等)的81個,佔23。9%。
一審公訴案件辦理環節案卡
綜上,第一步需要做的,是改變原有案卡分類邏輯,整合全部案卡欄位,
統一分類為“程式性案卡”和“實體性案卡”兩大類。
對子案卡的設定,也要遵循業務屬性核心。
STEP 2
減輕程式性欄位填錄
目前
程式性欄位填錄工作量最大,可以透過兩種途徑減輕填錄工作量
。
途徑一
拓展案卡回填功能
今年上海檢察機關參與了檢察統一軟體2。0版本的試點工作,其中在案件受理環節上線了“案卡回填”智慧輔助工具,透過對公安機關移送的《提請批准逮捕書》、《移送起訴意見書》兩份文書運用OCR識別及語義分析技術,系統自動抽取文書中的欄位回填至相應的案卡中,
目前實現了審查逮捕和一審公訴案件受理階段70%的案卡及90%的人卡的自動回填,回填準確率分別為85%和90%。
案卡回填功能示例
我進行了初步梳理,如果案卡回填功能能進一步擴充套件回填的文書——如在一審公訴辦理階段增加回填《出庭通知書》、《刑事判決書》,則使用案卡回填該功能,可以自動回填
69
個欄位
,佔程式性案卡總數的26。7%。
還有
31
個欄位
,和一審公訴辦理階段製作的文書(如《起訴書》、《補充偵查決定書》)相關,可在文書製作環節直接回填。
也就是說工作量主要集中在剩餘
158個
欄位
,而該類欄位
大部分為非必填項
,大多數為非常見、非必經流程的相關資訊。
程式性欄位分類
途徑二
配套相關工作機制
程式性欄位主要來源於程式性文書,直接照抄文書內容即可
,該類欄位主要服務於案件統計及流程管理類應用使用,對填錄準確性、時效性要求較高。如果可以建立相關工作機制,如每個部門設定1-2名輔助人員專門負責本部門所有案件程式性案卡的填錄,
不僅大大減輕辦案人員案卡填錄工作量,案卡的準確性、全面性填錄都有保障,更可以提高統計分析功能的準確性、案件流程管理功能的適用性
。
工作機制圖
綜上,第二步需要做的,
就是用“機器+人工”方法,透過案卡回填功能儘可能的實現程式性案卡欄位自動填錄,透過工作機制改革,將程式性案卡的填錄工作由輔助人員完成。
以此實現程式性案卡填錄工作量的大幅度降低,同時又高質量的保證了統計資料的完整性、準確性。
STEP 3
最佳化實體性欄位填錄
一審公訴案件審查環節的81個實體性欄位,涉及案件事實、定性等方面,該類欄位目前主要服務於階段性專項工作統計使用(如對涉黑惡案件、電信詐騙案件的統計)。
存在的問題
一方面是無用性填錄多,比如“毒品犯罪有關情況”這張子案卡,在非毒品類案件中也存在。另一方面該類統計主要服務於決策,對辦案人員沒有回饋,因此填錄的內驅力低,造成填錄不準確、資料不可用的問題。
因此,對實體性欄位,重點是
最佳化
最佳化一
實體性欄位的設計
建議將實體性欄位按照對相關業務有需求或相關應用有意義的欄位進行分類,如專項統計的欄位歸類到【政策】類別,如案件定性的欄位歸類到【定性】類別,刑罰、量刑情節等欄位歸類到【量刑】類別。比如現有案卡欄位“是否電信詐騙”可以歸類到【定性】類別,
在最大限度不增加案卡填錄量的同時,科學的規劃案卡欄位分類。
科學分類
同時,符合業務邏輯的分類,
有助於對案卡欄位進行管理,可以定期刪減不需要的欄位項(比如專項統計欄位),並建議增設“自定義”欄位,可以讓各省市根據實際需求,增加欄位項,以減輕人工統計的工作量
(讓突如其來的臨時統計工作能提前合理安排、能讓系統至少幫助自動計數)。
最佳化二
配套實用功能,增加填錄案卡獲得感
如果辦案人員的準確填錄實體性欄位,則可以獲取類案推送、量刑建議功能的精準推送,
填錄案卡可以實實在在獲得對辦案有幫助的應用反饋。以此可以提高辦案人員填錄內驅力,形成案卡填錄——功能應用的正向迴圈。
“人工”智慧
第二幕
左右滑動檢視更多
綜上,第三步需要做的,就是透過
對實體性案卡進行科學的分類、管理,
一方面方便辦案人員填錄,一方面可以定期做好欄位刪減、新增,同時
配套相關功能(類案推送、量刑建議),以增加填錄的獲得感,
實現案卡填錄——功能應用的正向迴圈。
我終於繞回主題了
本文論點
增加“人工”,提升類案推送功能精準度
i-CASE系統:解構案例--增加指導性案例檢索詞
案卡改革:填錄實體性欄位--增加在辦案件檢索詞
——大大降低機器匹配在辦案件和同類指導性案例的難度(檢索詞直接匹配,難度降低100%),實現類案精準推送
盤活資料資源
案卡改革還能盤活檢察資料資源。
檢察機關是唯一一家全國四級系統使用統一的辦案系統的政法機關,積累了寶貴的資料資源。
全國檢察資料
以類案推送功能為例,如果案卡實體性欄位設計的科學、符合業務規律,
四級檢察系統的案件就能形成
內部
的類案推送網
(可以設定相應的推送規則,比如已刑事訴訟終結的案件可開放檢視許可權)。
全國首例
再進一步,如果將案卡標註和電子卷宗閱卷、文書改革相結合(本人關於電子卷宗閱卷的觀點是部分案由適用,且一定要和文書改革結合!高度近視乾眼症患者懂電腦閱卷的痛
)
那麼
檢察統一軟體將持續獲取經過專業人員(檢察官)標註的、可供人工智慧學習訓練的、刑事司法領域的深度學習素材
。
資料資產
前文提到,按照目前司法機關和廠商的合作開發模式,在選擇初期很難辨別哪家廠商的方案、效果更優。
但如果我們擁有了大量經過檢察官標註的資料資源,在選擇廠商的時候,我們就
擁有了測試他們技術水平的“試金石”,
再也不用“抽盲盒”了。
這樣說太抽象,我們繼續舉個栗子。
凡爾賽系統
左右滑動檢視更多
結語
用增加“人工”的辦法來提升系統的“智慧”化水平,聽起來很“老土”,甚至是在資訊化時代“走老路、走彎路”,但是如果運用的“人工”方法是符合業務內涵及系統應用邏輯的(比如前文ICASE解構指導性案例的方法),如果合理的規劃“人工”的工作(比如本篇的案卡改革思路),這樣的方法就不是簡單的“增加”“人工”,而是
基於資訊化要求的對線下業務的科學改造
。
再進一步,這種“人工”也是可推廣的。如果更多的機關、機構加入解構案例,甚至指導性案例在釋出初始就完整的提取文中的關鍵資訊,司法案例知識圖譜將會愈發豐富、持續成長。同樣,對司法人員的在辦案件打標註(案卡)的方式,如果在公安、法院、司法部門也得到採用,類案檢索功能將有更廣闊的應用場景。這樣的一天,
應用資訊化推進同案不同判這一司法難題
的解決,將不再是
空想
。