2017年,大資料迅速發展,開始深入到各行各業,電商、商業BI、人工智慧、大資料金融等行業均開始與大資料並肩發展。資料量的爆炸式增長,直接引發了大資料產業的興盛,同時給各行各業帶來了發展機遇,但也提出了諸多挑戰。7月29日,在北京舉行的CDAS 2017中國資料分析師行業峰會上,國脈資料研究院常務副院長孫澤紅以《資料基因助力資料資源管理》為主題作了精彩的演講。
國脈數據研究院副院長孫澤紅
以下為演講實錄:
大家好,非常感謝主辦方的邀請,能夠有機會跟各位分享資料基因和資料資產管理主題,剛才在門口學習了一下今天的演講主題,九位元演講者,有七位元都帶著大資料或者資料字眼,是一個很高的比例。那麼數據基因是什麼?是國脈基於12年政務諮詢研發的一個資料標準化管理的軟體,國脈是做政務資訊化出身的。那麼資料資產管理是什麼?簡單就是資料的資源化、資產化。怎麼管這個資料資產呢?除了制度以外還有幾個關鍵的維度。第一是資料資產管理的概念,來自於資料發展本身的緊迫性,第二是管理的方法論,很重要一點是資訊技術還有工具的應用。
今天的主題圍繞這兩個維度分享三個方面內容:
一資訊化發展新階段
首先資訊化進入一個以資料為核心的新的階段,這個基礎之上,資產管理如何體系化的建設,以及資料基因對資料標準化的作用。我們說在國家的資訊化體系建設當中,政府的資訊化是非常關鍵的,政府的資訊化經歷了辦公流程的自動化,業務處理系統的資訊化,還有政務處理的網路化三個階段。辦公流程階段,基本上是以部門為建設的單位,屬於一個各自為政的狀態,形成了很多的資訊孤島,導致了行政成本及管理成本非常高;90年代以後隨著12金工程的啟動,依託互聯網的升級,政務系統內部共用互聯互通開始發展,此時建設主體由原來的單個部門演變到各級政府的聯動,一條線的資料在一定程度上進行打通,資訊資源從之前的“資訊孤島”變成了“資訊煙囪”,所以說這個階段的資料整合是局部的,行政成本有所緩解。
目前資訊化是處在2.0的整合型向3.0平臺型演變的階段,全國一體化資訊化的資料平臺建設在2015年的《促進大資料發展行動綱要》當中也給出了一個時間表,一體化資料平臺是一體化政府建設的前提,平臺型發展的階段資訊化主要特點就是以開放開發、主體多元、隱私的安全一定程度能夠得到保障,行政成本相對比較低。
互聯網發展比較發達的國家,如新加坡和韓國在逐步探索智慧型資訊化共創共用,這個模式創新要素的驅動,整個社會的治理成本,還有行政成本是比較低的。
資料作為新的生產力和生產資源基本的成為新的競爭優勢,資訊化像小孩子的書包,量很大需要減負,政府的工作量通過計算能力得到很大提高,資訊連接時代,像支付一樣,人與人的關係,人與應用系統的關係通過智慧設備連到一起。
資料時代,資料的基因和傳遞性越來越強,和組織的競爭力處在合體的狀態。我們參照《互聯網進化論》一書繪製了互聯網虛擬的結構圖(見下圖),支撐人類的思考和行動,也形成社會治理基本的結構,大腦的表層、終端和外設;視覺系統,採用物聯網各種資訊,聽到看到可穿戴設備收集資訊儲存大腦當中,雲計算作為一個基本的設施和軟體,這兩個層面來支撐整個大資料和大腦的運行。
二資料資源管理體系建設
大資料給我們帶來機遇的同時也讓資料的治理面臨挑戰,主要表現三個方面,資料很龐雜,體量很大,資料需求非常多樣,簡單來理解就是以資料為核心的資訊體系是不是健康的,可以兩個維度來觀察。
第一,從資訊流動性看資訊體系,有一個對比,傳統的資訊體系是依靠流程,或者依靠業務來構建的,業務隨著流程結束而截止。前面說條塊的資料煙囪基本原理就是基於業務流程來實現,那麼以網路和系統重構的資訊體系,關注的是這個資料的流動性以及其價值,哪需要資料,或者需要哪類資料,資料就能自動流動在哪兒去,流動的過程當中資訊能夠得到最大程度的共用和開放。
第二,從資料流程動視角看平臺技術架構體系,國辦印發了《“互聯網+政務服務”技術體系建設指南》中的平臺技術架構圖,非常系統要素也很完善,路徑也比較清晰,我們可以探討的就是這個結構圖DNA在哪兒?如果我們能夠進入資料資源層面有一個基礎關鍵的管理,或者架構體系的話,就更好了。
在資料開放共用當中,資料資源管理中很重要的話題,主要從技術的角度來說明,從資源上看,資料資源應是資料庫資源,除此之外資料資源其實還包括各種報表、視圖、資料的介面和許可權等等,我國政務資料是通過實施分級分類的管理來提升資料的共用和開放的程度,資料資源管理需到底需要解決什麼問題?
三個方面:
首先是資訊孤島問題,需要打通資料。
第二是標準規範問題,標準規範應該說我國進行了很長的探索和實踐,在07年前後組織修訂了《電子政務標準化指南》,今年的5月,中央網信辦、國家質檢總局、國家標準委聯合發佈《“十三五”資訊化標準工作指南》,從國家層面來統籌推進這個資料的標準化工作,前面提到108號檔《“互聯網+政務服務”技術體系建設指南》以及5月份國務院印發的《政務資訊系統整合共用實施方案》,均從全域和根本上來解決當前長期困擾資訊化建設的一些問題。
第三是資源節約問題,最近浙江省和貴州省都啟動了全省的資料資源的普查,普查調查了一個非常重要的方面就是硬體系統的建設,浙江是通過一個系統來評價現有的管理系統,關閉一些不能適應現在資料化要求的系統,貴州採取全省上雲的方式,伺服器和硬體都是統一部署雲上,這樣資料資源整合就非常的便捷。
資訊資原始目錄推進思路
下面這張圖羅列一系列的問題都需要依靠資訊資原始目錄證明基礎的工作來解決。這是國脈在服務諮詢過程當中總結出來的一個思路,2014年、2015年國脈給浙江舟山市進行資料資源梳理,列印很厚一本報告,委辦局拿上來的調研表,體量也非常大,這些調研表來自具體的業務部門,第一步要結合實際,第二步要自下而上,就像蓋房子,先要把部門、主題目錄梳理好,再需要對標對目錄工具進行管理,服務配套跟上,基於下面幾點我們可以構建一個合理的目錄推薦機制。
資訊資原始目錄梳理工作方法
開展最基礎的部門目錄梳理時一般採用三種途徑,第一,業務職能途徑,從業務的架構,業務職能、資源、資料項目角度去梳理。第二,系統建設路徑,有些部門委辦局有自建的系統和資料庫,基於現有系統,從系統、功能、資料表、資料字典角度梳理。第三,結合業務和資料兩個途徑推進。
資料基因功能、架構
資料基因很重要的一個特點就是具有內升動力,資料基因是參與者也是融合者,當前資料資源管理很多問題,包括底層資料的一致性,資訊體系如何有效運行,這些關鍵的問題均可以通過資料基因的內升動力來驅動。
很多人可能會問到一個問題,就是為什麼叫資料基因,因為我們聽的比較多就是生物基因(DNA),生物學上基因結構是分為基因、基因序列和基因佐證三個層次,基因基因組可以隨生命體的進化遺傳和變異。資料基因記錄在資料基因組,資料基因序列這麼三個層次上,資料基因是基本的遺傳、變異單位,基因序列是資料基因的組織形式,而資料基因組是資料遺傳信息的完整表示。
從生物基因到資料基因,一方面表達資料的特性,另一方面也描述不同資料之間的關聯。隨著資料從“舊”資料向“新”資料的進化,資料基因組通過遺傳變異操作產生新資料的資料基因組。
通過資料基因系統的編目,可以實現五大模組的功能。
第一,連機狀態,可以對各種資料元進行建立資料的聯繫,樹立其中的資料表,還有資料項目,添加中繼資料的標注,按照標準資料項目標準化,自動提取樣例的資料形成虛擬的目錄。
第二,沒有經過量化的資源型的資料怎麼辦?我們提取相應的資料元來把這些檔資源上傳到虛擬目錄當中,這些檔主要作用就是查詢和下載。
第三,沒有連線的狀態下可以通過手工的錄入,上傳樣例資料形成虛擬目錄,三類虛擬目錄完成通過載入中繼資料模型進行編目,註冊到分類的目錄當中,進一步形成各種主題的主題目錄、共用目錄以及決策目錄等,所有註冊的資料資源,通過檢索關鍵字,可以搜索到全部的結果。
資料基因有一個獨立的模組是資料資產,有幾個很便捷的特點。
第一,與先前政府資料庫是可以打通的,其他系統的資料可以導入系統當中進一步進行系統的資料。
第二,資產化的分類很清楚,有資料的資產,包括軟硬體的資產。另外對業務的梳理,首先參考了國標和行業的標準,比如說公路里程的描述,是根據行業發佈的各種標準檔,按照中繼資料的屬性分類規範描述。
第三,政務服務事項的梳理,按照單一事項檔的要求進行梳理,比如港口事件開通的備案。
資產管理在整個資料登記的基礎上實現由小到大顆粒度關係的呈現,這是呈現的關係圖,這個關係圖可以實現什麼?通過系統建立之間的相互關係,理清楚系統與系統之間、系統與資料庫、表之間、資料與資料之間的關係,實現資料—資料表—資料庫—應用系統—伺服器—機房(雲)的關係展現,建立部門資料資產地圖。
這個系統如何部署需求機構當中,如何部署到城市和政府,總共分七步走:
第一,基礎資源的調研,紙質的材料;
第二,業務主題分析,結合諮詢的實踐進行概念模型的設計;
第三,資料流程分析,重點關注一些物理的模型,系統的分佈和架構;
第四,業務資料建模,模型匯出來各種表單;
第五,資料的分析;
第六,設計資料的資源;
第七,實施資料的管理及使用。
以上就是資料基因系統部署需求單位七個步驟。
資料資源管理的目標
通過資料基因的嵌入,我們可以實現包括系統、資料、業務、人等資源形成全面的整合,理想狀態下將呈現出六個方面的特徵。
第一,資料標準是非常統一的,就是共用沒有障礙;
第二,資料可以有序的流動,資料管理系統有效協同;
第三,資料之間的關係非常清晰,便於挖掘
第四,通過資料元分層分類進行管理,資料庫之間靈活架構,應用也很便捷;
第五,許可權明確、安全可靠;
第六,資料基因可作為資訊資原始目錄梳理方法指導以及輔助工具使用。
三資料基因與資料標準化
關於資料基因和資料標準化,先來講一個巴比塔的故事,人類想建一個高梯通往天堂,上帝不想讓人類通往天堂,讓不同的人說不同的語言,人類之間就沒法溝通了,這個計畫就失敗了,從資料的共用和資產化層面來說,資料本身是語言,資料標準不統一,溝通和交流必然受阻的,這是標準化基本的詮釋,標準化是前提條件,從資料元和中繼資料開始。
以保險資料平臺整合標準化做一個例子,資料產生以後,首先要經過資料標準來進行整合、加工、使用。可以看到,中繼資料表述的屬相包含13項,在不同的保險系統實現客戶資訊,需要標準化的過程,這個基礎上可以形成360度的基礎的標準化資料,這個資訊很多,部分敏感資訊包括個人基本資訊、財務資訊等,這些資訊可以實現業務的評估和業務的支持。
回到資料基因的應用上,我們說標準是資料資產化的一個基本的基礎,國脈對資料資產進行準確的定義,資料基因這個產品就是把國標和行業標準貫徹實施好。資料基因的強大,一個非常重要的特點就是範本的數量,目前該系統彙集了省、市級部門各70個、標準化資料元10000項、核心資料集2000個範本,通過這麼多範本,關聯導入可以進行多維度的關聯。
數據元標準化
資料元的標準化主要是通過從業務和系統中抽取過來的資料匹配和設置,前面講的路徑就是從業務和系統兩個維度進行資料的匹配和設置。根據匹配規則在資料元範本中英文名稱進行匹配,將完全匹配上的直接進行範本中資料元相關內容填充,明確資料中繼資料類型、長度、精度等描述。
資料基因發展歷程
資料基因發佈的時間也不長,2月15號正式發佈1.0版本,7月26號發佈3.0版本,資料基因1.0版本比較基礎的,主要基於資源的範本還有一些登記功能,2.0基礎上建立資料之間的關係,通過關係建立標準,普查做地圖,還可以做模型。3.0這個版本功能比較強大,可以實現各種的匹配,包括資料元的標注,事項的梳理還有資料治理,整個梳理過程當中形成理想的目錄和事實的目錄。
應用案例
1淮安市資訊資源梳理
這是第一個落地應用的資料基因案例。借助資訊資源範本,在一個月內快速梳理出淮安全市82個部門的資訊資源,通過資料基因系統,由各部門進行核實、確認,快速建立全市資訊資源體系。
2浙江省全口徑公共資料資源梳理
這也叫“公共資料資源梳理”,因為它還包括企事業單位,並非只包括政府單位,其範圍很大。依託17年電子政務專案預審的工作,開展全省專案獨立預審單位的資訊系統普查、“全省最多跑一次”事項普查(責任清單、權力清單)、資訊系統實有資料普查等,同時借助系統開展事項標準、資料標準等工作。
3貴州省資料資產登記
根據《貴州省政府資料資產管理登記暫行辦法》,開展貴州資料資產登記工作,對資訊系統、硬體資產、軟體資產、資料資產(圍繞管理、保存、存儲等角度)進行梳理,同時建立系統、硬體、軟體、資料之間的關係圖譜。除此之外,還有海南、四川、廣東、寧夏等。
最後,給大家介紹一下國脈的體系,目前資料層,平臺層和戰略層為主,以上就是我演講的內容,謝謝。
本文來源:數邦客