Kyligence聯合創始人CTO李揚:用智慧資料雲打造全鏈路數字化轉型

Kyligence聯合創始人CTO李揚:用智慧資料雲打造全鏈路數字化轉型

本文由 Kyligence聯合創始人兼CTO李揚 撰寫並投遞參與

由資料猿&上海大資料聯盟聯合推出的“行業盤點季之數智化轉型升級”大型主題策劃活動之《2021中國企業數智化轉型升級先鋒人物》榜單/獎項的評選。

隨著人工智慧、雲計算、大資料的發展,商業業態和服務模式不斷呈現多樣化。在技術的加持下,企業級服務朝著更加智慧、自動化方向發展,為企業管理、業務運營及發展帶去更多可能。Kyligence 自成立以來,一直專注在資料服務與管理方向,目前已經服務金融、零售、製造等全球頭部客戶。

在服務市場過程中,我們一直在思考,人類已經處於資料爆炸的時代,企業面對“海量資料”,如何篩選資料、如何管理眾多資料來源、如何管理優質資料成為難題。更進一步講,市場究竟需要怎樣的大資料服務,服務商又該如何滿足客戶多場景需求?

企業正在面臨一場“資料困境”

過去二十年裡,人類一直處在一個數據爆炸的時代。企業的傳統業務資料如訂單、倉儲的增量已經相對平緩,取而代之的是人類資料(例如社交媒體、照片、行為畫像等資料)和機器資料(日誌、IoT 裝置等)大量被採集和儲存,它們的量級遠遠超過傳統業務資料。

隨著海量資料高速增長、資料特徵越來越多樣、資料來源越來越繁雜以及技術間的整合和平臺間的整合帶來的難度,以及隨著人工智慧和雲計算的發展,讓資料管理的平臺發生了變化。

先讓我們來回顧下資料管理平臺的歷史。

大家知道資料倉庫(Data Warehouse)的早期概念資料集市(Data Marts)在 70 年代由 AC尼爾森提出。1988 年 Bill Inmon 發表了名為《業務資訊系統架構》的論文,從而正式介紹了資料倉庫的概念和建設方法論。隨後在 1996 年,Ralph Kimball 發表“資料倉庫工具箱”介紹了維度建模。在數倉理論發展至今的 30 年間,越來越多企業選用資料倉庫架構作為資料平臺建設的標準和核心,分層構建多維資料模型和業務模型層。下游透過 ETL 工具對接各類資料來源進行資料整合,上游資料應用進行資料消費提供分析決策。

不過,隨著網際網路等數字經濟的蓬勃發展,資料量呈現爆發式增長,非結構化資料、半結構化資料不斷湧現,資料更新也更加頻繁,資料倉庫難以支援這些場景的需求,即大資料著名 4V 問題:volume, variety, velocity, veracity。此外,還存在無法與數倉外的資料協同的問題,尤其是目前多雲、多資料來源等現實,使得“資料倉庫”重新形成了“資料孤島”,讓業務人員很難獲得全域性資料檢視。

接下來就是資料湖(Data lake),這一技術概念在 2015 年由 Pentaho 公司的創始人兼首席技術官詹姆斯·狄克遜(James Dixon)提出。資料湖以離線批處理為主,能夠靈活處理和分析結構化和非結構化資料,並快速得到結果,以緩解數倉的尷尬。但資料湖缺少資料管理能力,以及對資料質量的保障。對於資料管理團隊來說,儘管管理了很大的資料量,但真正哪些資料是最有價值的,卻始終不得而知。

正如 Gartner 在 2020 年的 Market Guide for Query Accelerators 報告中所描述的,資料倉庫期望有資料湖的可擴充套件性,而資料湖則希望有資料倉庫的企業級分析和管理能力。

再看湖倉一體,這個概念最早起源於 Databricks 提出的 Lakehouse:它是一種開放的架構,結合了資料湖和資料倉庫特點,直接在資料湖的低成本儲存上,實現與資料倉庫中類似的資料結構和資料管理功能。

不過,無論是傳統的資料倉庫,還是近幾年熱門的資料湖、湖倉一體等,雖然都解決了一部分問題,但也有不少弊端顯露。而且,

隨著時代大背景發生了一些變化,行業前提和假設與之前有了不同:

從專家到平民分析師:

被使用的資料才是資產,不被使用的資料則是負債。過去,使用資料和解釋資料是少數專家的權力。要充分發揮資料的價值,必須有越來越多的普通人來使用資料。這意味著“資料分析師”的人數將成百倍的增加,所以資料系統如何降低使用門檻,如何應對成百倍上升的工作負載,將成為極大的挑戰;

資料從匯聚到註定分散:

隨著世界各國嚴控資料安全,歐洲有 GDPR,中美有各自的資料安全法,對跨國企業來說,建立一個集中型的資料湖已經不可能。此外,出於行業資料管控的目的,亦或防止被儲存廠商鎖定,多雲、混合雲部署在國內也成為趨勢。因此,對於資料孤島的整合思路將由匯聚(Collect)漸漸轉向聯接(Connect)。

從“已知”到“未知”:

要想領跑數字化轉型,企業僅重複已知的資料應用場景已經不夠了,更需要的是一種資料創新的能力,探索未知的資料關聯,發現未知的業務規律,開創未知的資料應用場景。

那麼,下一代普通人也能用的資料倉庫,應該是什麼樣的呢?

我們稱之為智慧資料雲(Intelligent Data Cloud),它讓使用資料像使用水、使用電一樣方便,人人都能隨取隨用,自助使用。

Kyligence聯合創始人CTO李揚:用智慧資料雲打造全鏈路數字化轉型

從技術角度來看,智慧資料雲是之前資料倉庫、資料湖、湖倉一體等技術體系的繼承和延續,既有資料湖低成本的儲存可擴充套件性,也有資料倉庫的強化資料結構和資料管理能力。同時,在此之上,智慧資料雲提供更高一層的業務資料物件管理能力,並從業務對資料的讀寫需求出發,使用 AI 增強的方式自動化和簡化技術層面的人工資料操作和資料管理。向外,智慧資料雲提供普通人可用的資料服務;向內,智慧資料雲以業務為導向自動化資料的操作和管理。

智慧資料雲打破資料孤島,把collect 變成connect

下面讓我們從實際場景中看看企業面臨的現狀究竟都有哪些:

Kyligence聯合創始人CTO李揚:用智慧資料雲打造全鏈路數字化轉型

這是一家零售行業的企業架構:可以看到,每一個部門都有自己所需要用到的系統,但由於企業業務發展的歷史原因,企業內部資訊系統多為煙囪式建設,資料無法互通,相對封閉,無法從整體視角為客戶業務決策帶去更加全面的有效決策,從而影響業務發展效果。

例如在一個營銷資料的小閉環裡,從客群的選擇開始,企業通常會透過CRM系統篩選,然後指定營銷執行的方案,規劃到市場的營銷系統,然後執行營銷以後,回到收回結果,再次路徑銷售系統。那麼透過分析這一系列動作,形成一些洞察,又開始下一輪的客群圈選和促銷。在這樣的一個小迴圈裡面,它其實已經打通了幾個資料煙囪了,從CRM系統到營銷系統,到銷售分析的一個系統。

另外,往更細節的方向來看,大家想一想:如果我在生產部門,供應鏈部門,市場部門,可能都有使用者的個人隱私資訊,電話號碼,地址等等。那我就需要到每一條煙囪的系統裡面去逐個講對外的資料服務,詢問這樣的使用方式會不會有問題。所以,在這樣的場景下,橫向的資料口徑的對齊顯得尤為重要。

我認為考察企業數字化運營的水平,其實就是考察敏捷性。上述案例中,僅是一個營銷場景的小閉環就已經對企業資料管理進行了一種考驗。再來一個例子,如果你是一位KFC的門店經理,直接開啟一個Mysql資料庫,是完全看不懂的,因為需要專業的資料庫知識。透過使用Kyligence產品,門店經理可以看到業務模型,哪些是他關心的?哪些是標籤?指標是什麼?這個平臺打開了普通業務員使用資料的視窗。在這個視窗基礎上,業務員可以做很多創新,比如制定更佳的促銷方案、評估更合適的代言人等。

Kyligence聯合創始人CTO李揚:用智慧資料雲打造全鏈路數字化轉型

目前,企業已經進入了精細化運營階段,也就是說不僅有線上,線下的資料基礎。此外,在整個數字化的系統裡面,由於大資料技術的提升,我們也已經能夠精確地管理到每一個消費者。所以,技術的突破帶來了這個能力。

技術的發展會隨著時代不斷迭代和進化,資料服務也是如此。未來人類使用資料的習慣一定會被創新性技術和服務模式所改變。所以,我們要幫客戶 Connect 所有資料來源,用一個數據平臺搞定各種分析場景,平臺能夠自動識別最有價值的資料,希望用最簡單的方式去讓業務人員使用資料,去賦能數字化轉型。隨著越來越多的客戶將業務部署在雲平臺,我們的“智慧資料雲“也滿足了多雲環境的部署。目前,我們已經支援微軟雲 Azure、亞馬遜雲 AWS、華為雲等公有云平臺,並且正在積極部署私有云服務。

作者個人簡介

李揚,Kyligence 聯合創始人兼 CTO,Apache Kylin 聯合建立者及專案管理委員會成員,主創團隊架構師與技術負責人,專注於大資料分析、平行計算、資料索引、關係代數、近似演算法等技術。曾任 eBay 全球分析基礎架構部大資料資深架構師、IBM InfoSphere BigInsights 的技術負責人、摩根士丹

利副總裁。

原文標題:Kyligence聯合創始人CTO李揚:用智慧資料雲打造全鏈路數字化轉型

http://www。datayuan。cn/article/18192。htm