企業資料治理-我們該走向何方?——摘自《企業資料治理那些事》

企業資料治理-我們該走向何方?——摘自《企業資料治理那些事》

國際資料管理協會(DAMA)的《資料管理知識體系指南》一書中對資料治理進行了嚴格、詳實地定義,目前基本成為資料治理行業的指導大綱。但是也只是指導型的內容,具體的操作方式還會需要我們繼續探索、研究。

目前國內市場存在的多家資料治理廠商(序言中有說明)大體分為兩個方向,一是面向企業,再就是面向政府、金融、電信等行業。這裡有個很大的誤區,就是很多人認為面向政府、金融的資料治理產品可以替代面向企業的資料治理產品,這個錯誤由於資料治理行業的火熱而被掩蓋了。相對而言面向政府、金融、電信的資料治理產品要求的技術含量要高一些,處理的資料量要大一些,但是處理資料問題的深度要淺一些,因為這幾個行業沒有複雜的物資資料(模型分層級且非常多)存在,所有資料(如客戶、人員等)的模型都是單一的,也就不存在深層次的資料質量問題。所以在企業資料治理中一旦遇到深層次的資料質量問題此類產品就束手無策了。

但是,從產品的功能結構上我們還真的不好鑑別其優劣,所有的產品似乎有包括什麼元資料原理、資料質量管理、主資料管理、資料生命週期管理、資料交換管理、資料清洗管理等,齊全的功能就造成了選擇的難度,也造就了資料治理行業的浮華。

企業資料治理,我們一直堅信除了要有廣度以外,還有更重要的是深度,必須解決深層次的問題才能算得上長久之計。這裡沒有評判任何產品的好壞,只是想說明我們要選擇適合自己企業的資料治理產品。

結合國內企業實際,我們認為企業資料治理應把內容簡化分為“資料環境治理、資料質量治理、資料安全治理、資料交換治理、資料運維管理”五部分。並且企業內的資料包括靜態資料和交易資料兩部分。所謂的資料治理也應該指靜態資料的治理,因為純交易資料(數字或數額)正常不會出現質量問題。

因此,資料治理的方向應該依據以上5部分且滿足以下7個關鍵點。

1。

構建“一三一”的資料治理整體架構確保資料治理的整體性

制定資料治理架構是資料治理的核心任務,好的資料治理架構可以確保資料治理的整體性,實現徹底、完善的資料治理,更好地達到資料治理的預期效果。

因此應該構建包括一個體系(資料標準體系)、三個環境(治理型環境、分析型環境、知識型環境)、一個架構(面向服務的整合架構)的資料治理整體架構,如圖所示。

企業資料治理-我們該走向何方?——摘自《企業資料治理那些事》

資料標準體系:

是企業資料治理架構中的核心底層部分,通常也指資料環境,包括資料分類及編碼標準、資料模型標準、資料質量管理標準、資料安全管理標準、資料交換標準,對應落地平臺建議具備管理資料標準體系的過程和結果的功能。不建議只管理資料標準體系的結果和稽核流程,不管理體系的構建過程;

治理型環境

:是指資料全生命週期管理的過程,是解決資料質量、安全等的核心功能部分,包括體系構建、靜態資料中心管理(資料建模管理、資料編碼管理、資料質量管理、資料日常管控)、資料交換管理、資料清洗管理、資料保養管理(資料評估監測)。對應平臺建議企業資料治理平臺,不建議主資料管理平臺

分析型環境:

是指基於資料倉庫的各種主題分析,是提供資料展現服務的核心功能部分,如運營分析、資產分析、財務分析、人力資源分析。對應平臺包括BI決策支援平臺、資料倉庫、ETL。

知識型環境:

是指企業整個資料治理的知識體系架構,非傳統的企業管理或者某專業知識管理,是提供資料治理能力的核心組成部分。資料治理知識可以實現知識驅動資料管理業務、驅動資料管理崗位、驅動資料應用的全面知識管理體系。對應平臺:資料規劃平臺。

面向服務的整合架構:

是指資料的採集、分發、整合以及業務重組等,是資料交換的核心功能部分,主要包括靜態資料交換管理、ETL、企業服務匯流排ESB、業務流程引擎BPM。對應平臺:資料交換平臺、ETL、ESB、BPM。

2。

透過全方位資料標準體系的重構徹底改善資料環境

從不同的維度可以把企業內的資料分為分析型資料(趨勢、計劃、指標資料等)、交易型資料、共享(主)資料、業務場景資料4大類,如圖所示。

企業資料治理-我們該走向何方?——摘自《企業資料治理那些事》

資料的質量問題很大程度取決於資料所處環境的狀況,因此需要從根本上打造一整套全方位的資料標準體系以確保資料質量的可控制性、可持續性。所謂的全方位就是指包括以上4大型別資料在內的標準體系,而非是隻有主資料的標準體系。

資料標準體系內容包括資料管理組織、制度、流程、考核機制,資料安全、質量管理體系,資料分類、編碼體系,資料交換規範體系等,如圖所示。

企業資料治理-我們該走向何方?——摘自《企業資料治理那些事》

3。

構建全視角管控的靜態資料中心全面解決資料質量問題

通常我們看一個物體從不同的角度會有不同的形狀、內容等,針對資料的描述我們也可以分為不同的視角資訊,一般我們會把資料的視角分為基本、組織和業務三個視角,基本視角資訊對指某條資料的基本特徵資訊的描述,組織視角資訊是指某條資料在不同的組織範圍內描述的不同資訊,業務視角資訊是指某條資料在不同的業務場景下描述的不同資訊。

當然我們也可以從共享的角度去描述一條資料的資訊,這就是我們常提到的主資料。

從全面解決資料質量問題的角度出發,構建360度全視角管控的靜態資料中心,解決全部視角資料的質量才是最徹底,才是最好的方向。

包括基本、組織和業務三個視角的資料描述,以物資資料舉例,全視角資料描述具體結構形式如表所示。

表1-2

企業資料治理-我們該走向何方?——摘自《企業資料治理那些事》

資料質量在資料治理中的分量不言而喻,但是目前解決資料質量的主流方法幾乎全是技術手段,主要有三種方法:

4。

透過技術+行為的手段深層次解決資料質量

第一種方法,針對資料產生的源端進行控制,指透過針對屬性欄位取值的格式、上下限、列舉值、從屬關係、關聯關係等的判斷進行資料質量的控制,當然不否定這樣的方法可以解決的大部分資料質量問題,我們做過詳細的調查這個大部分差不多是70%左右。剩餘的30%左右包括五花八門的錯別字,無意的類別放錯,還有部分是為了某些利益有意寫錯、放錯等,這個時候會有人說“我們有**詞庫,可以解決錯別字問題”,快拉倒吧!你詞庫中的都是曾經犯過的錯誤,你怎麼知道下一個錯別字寫成什麼樣?

第二種方法,針對資料全生命週期的末端(資料採集進入數倉階段)進行控制,並且這種方法已經隨著數倉、BI的發展存在了N年了,說到這裡大家可能都知道了,沒錯就是ETL過程對資料質量的控制,雖然這種方法解決問題的比例甚至都達不到40%,但是在新的方法出現之前幾乎“橫行”世間近20年,屬於標準的針對末端的資料質量的控制

第三種方法,也是針對資料全生命週期的末端(資料採集進入數倉階段)進行控制,但是方法就比較高階了,那就是利用大資料行為分析及AI(人工智慧)技術,比ETL解決問題更徹底一些,這就是本書在1。1。6章節中介紹的末端資料治理模式。隨著資料中臺的興起,大家對這種模式逐步有了深入的瞭解和應用。但是由於咱們中國漢字的博大精深,此模式針對資料質量的控制還是無法達到源端治理模式的效果,當然這也是一些戰略或財務管控型企業的無奈選擇(因為無法控制資料來源頭),詳見本書1。1。6章節相關介紹。

事實證明,純技術手段對資料質量的影響確實存在很大的缺陷,因此我們需要增加從行為入手去深層次解決資料質量。

所謂行為控制,是指對資料採集端的人的行為的控制,比如資料新增過程中的稽核也是行為約束的一種,雖然效果不太理想但也心裡安慰了很多“夢中”人。最好的行為控制首先應該在最源端,也就是針對資料維護操作的人我們要嚴加“防範”,確保每個人都能深入到屬性欄位級別最準確地錄入相關的屬性取值,要確保專業的事由專業的人來做。而不是很多人希望的統一由一個人代勞維護所有或者某部分資料的資訊,維護入口的統一不代表資料的統一和高質量,相反卻掩蓋了對資料的不專業導致的二次維護錯誤問題。

因此,需要在技術手段的基礎上開啟資料協同維護機制,明確並強化資料來源頭責任,強化過程行為約束,如圖所示。

企業資料治理-我們該走向何方?——摘自《企業資料治理那些事》

另外,大部分企業資訊化經歷了多年快速的發展,各業務系統中積累了大量的歷史資料,對現存的歷史資料的清洗同樣適用技術+行為的手段,透過對歷史資料的全面梳理和規範,深層次解決資料質量後準確釋出到各業務系統中,保證各業務系統中歷史資料的準確。

5。

構建日常資料質量監測體系持續確保資料質量

在前邊的章節中已經詳細介紹過資料質量的重蹈覆轍問題,當然導致資料質量重蹈覆轍的因素有多種,但如果我們能打造一套針對資料質量防微杜漸的監測機制,把問題扼殺在搖籃階段,也是可以很大程度的減緩此問題的發生的。

2018年3月15日,中華人民共和國國家質量監督檢驗檢疫總局、中國國家標準化管理委員會釋出了GB∕T 36073-2018資料管理能力成熟度評估模型,此模型對企業的資料管理能力進行了分級,根據不同等級提出不同的改進、發展建議,挺好的!但是這種評估成本較高,週期太長,甚至很多企業很多年才能評估一次,哪怕國家鼓勵或者強制。

高速發展的社會、企業,快速變化的資料質量需要我們具備快速響應的能力,這個能力不能只是方法層級的,需要有對應的工具才可以。360安全工具短短几年從那麼小發展到現在的規模,主要就是因為它的靈活以及快速反應非常適合當下人的心理。

為了資料質量的持續性良好,資料治理專案後我們需要具備一個基於大資料行為分析的資料質量監測平臺,而不是傳統意義的基於屬性欄位級的技術驗證。平臺需要具備實時探知資料質量的能力,並且把資料質量量化展現,同時提供問題資料處理的通道。資料質量監測的具體邏輯架構如圖所示。

企業資料治理-我們該走向何方?——摘自《企業資料治理那些事》

上圖可以看出,大資料行為的質量監測是對資料的一致性、完整性、合規性、冗餘性、有效性和及時性6方面質量標準的深層次的大資料行為分析,此方式結合複雜邏輯的演算法而非傳統的正則表示式等,最終透過圖和表的結合高效展現資料質量結果,提高資料質量的視覺化效果。

6。

構建基於場景的資料服務體系推進資料資產化管理

大資料時代的來臨使得資料的價值逐步顯性化,也被各企事業單位更加重視。資料資產管理當前也已經成為IT界的一門新興學科被廣泛研究。DAMA將資料資產管理(Data Asset Management,簡稱DAM)定義為規劃、控制和提供資料這種企業資產的一組業務職能,包括開發、執行和監督有關資料的計劃、政策、方案、專案、流程、方案和程式,從而控制、保護、交付和提高資料資產的價值。

資料作為一種“資產”,和傳統意義上所管理的資產並不相同,其可以歸納為5大特徵,即虛擬性、增值性、時效性、共享性、安全性,具體如圖所示。

企業資料治理-我們該走向何方?——摘自《企業資料治理那些事》

資料資產的5大特徵的核心是共享和價值,並且有時效性的共享服務價值會更高。目前企業內資料資產化管理還處在初級階段,長期以來對資料的私有化價值意識比較淡薄,企業資料資產化管理的路還很長,需要慢慢地從資料的共享服務開始讓大家享受到資料資產的紅利。

資料服務在企業內有多種形式,主要包括對人的資料服務、對業務的資料服務、對數倉的資料服務等。

1) 對人服務:統一查詢, 單一檢視,如圖所示。

企業資料治理-我們該走向何方?——摘自《企業資料治理那些事》

2) 對系統服務:雪花狀資料交換服務架構,如圖 所示。

企業資料治理-我們該走向何方?——摘自《企業資料治理那些事》

3) 對數倉服務:如圖所示。

企業資料治理-我們該走向何方?——摘自《企業資料治理那些事》

7。

構建基於過程的知識體系確保資料治理能力的有效轉移

關於知識,很多人都認為應該是知識密集型企業才會關心的,在資料治理行業只要簡單的知識轉移下,我們能用好工具就可以了,甚至很多人認為資料治理一定要長期靠外力,企業自身的能力有限根本不可能治理好資料。

這是一個很大的誤區,資料治理可以藉助外力,但一定不能長期借用外力。借用外力應該只是一個專案的過程,資料治理專案只是資料治理工作的起點,專案後未來長期的資料治理過程中如果繼續依靠外力,高昂的成本企業根本無法承受,其實也沒必要付出這個成本。

因此,企業具備資料治理的能力非常重要,那麼企業應該具備什麼樣的能力呢?根據多年的經驗總結,企業資料運維管理階段需要具備針對資料管理體系的拓展和完善能力,以便支撐未來企業發展後的資料擴充套件或管理變更的需求。

如何才能獲得這個能力呢?

同樣是經驗告訴我們,能力需要有足夠多的知識支撐才可以具備,並且是全方位的知識,尤其是過程知識。針對資料管理體系的拓展和完善工作最關鍵的就是弄清來龍去脈以便延續以往的思路,防止標準體系的走偏和分裂。

因此要做好此工作需要長期積累大量的過程知識,構建基於過程的知識收集和推送體系是關鍵中的關鍵。具體的過程知識體系結構如圖所示。

企業資料治理-我們該走向何方?——摘自《企業資料治理那些事》

(山東中翰軟體有限公司)