文章目錄
【大數據之路】數據管理篇 《一》元數據 1 元數據概述 1.1元數據定義
元數據()是關于數據的數據。數據打通了源數據、數據倉庫、數據應用,記錄了數據從產生到消費的全過程。元數據主要記錄數據倉庫中模型的定義、各層級間的映射關系、監控數據倉庫的數據狀態及ETL的任務運行狀態。在數據倉庫系統中,元數據可以幫助數據倉庫管理員和開發人員非常方便地找到他們所關心的數據,用于指導其進行數據管理和開發工作,提高工作效率。
將元數據按用途的不同分為兩類: 技術元數據( ) 和業務元數據 ( )。
技術元數據是存儲關于數據倉庫系統技術細節的數據 , 是用于開發和管理數據倉庫使用的數據。
業務元數據從業務角度描述了數據倉庫中的數據,它提供了介于使用者和實際系統之間的語義層,使得不懂計算機技術的業務人員也能夠 “讀懂"數據倉庫中的數據。阿里巴巴常見的業務元數據有:元數據。
1.2元數據價值
在數據管理方面為集團數據提供在計算、存儲、成本、質量、安全、模型等治理領域上的數據支持。例如在計算上可以利用元數據查找超長運行節點,對這些節點進行專項治理,保障基線產出時間。
在數據內容方面為集團數據進行數據域、數據主題、業務屬性等的提取和分析提供數據素材。例如可以利用元數據構建知識圖譜,給數據打標簽,清楚地知道現在有哪些數據。
1.3統一元數據體系建設
元數據的質量直接影響到數據管理的準確性。對元數據做分類,如計算元數據、存儲元數據、質量元數據等,減少數據重復建設,保障數據的唯一性。豐富表和字段使用說明,依據規范,建設元數據基礎寬表,打通從數據產生到消費整個鏈路,不斷豐富中間層數據。基于元數據中間層,對外提供標準統一的元數據服務出口存儲系統元數據圖譜化,保障元數據產出的質量。
2 元數據應用 2.1 Data
Data 實際承擔的是為元數據 “ 畫像 " 的任務。
Data 共有四類標簽,就像我們可以為用戶的網購行為打上不同的行為標簽一樣。
基礎標簽 : 針對數據的存儲情況、訪問情況、安全等級等進行打標。
數倉標簽 : 針對數據是增量還是全量、是否可再生、數據的生命周期來進行標簽化處理。
業務標簽 : 根據數據歸屬的主題域、產品線、業務類型為數據打上不同的標簽。
潛在標簽:這類標簽主要是為了說明數據潛在的應用場景,比如社交、 媒體、廣告、 電商 、 金融等。
利用Data ,不僅可以節約研發人員的時間成本,同時對阿里巴巴內部的非研發人員來說存儲系統元數據圖譜化,也可以更直觀地理解數據、利用數據,從而提升數據的研發效率。
2.2元數據門戶
“前臺"產品為數據地圖,定位消費市場,實現檢索數據、理解數據等“找數據"需求;
“后臺"產品為數據管理,定位于一站式數據管理,實現成本管理、安全管理、質量管理等。
2.3應用鏈路分析
通過應用鏈路分析,產出表級血緣、字段血緣和表的應用血緣。常見的應用鏈路分析應用主要有影響分析、重要性分析、下線分析、鏈路分析、尋根溯源、故障排查等。
2.4數據建模
傳統的數據倉庫建模一般采用經驗建模的方式,效率較低且不準確。基于現有底層數據已經有下游使用的情況,我們可以通過下游所使用的元數據指導數據參考建模。通過元數據驅動的數據倉庫模型建設,可以在一定程度上解決此問題,提高數據倉庫建模的數據化指導,提升建模效率。
所使用的元數據主要有:
表的基礎元數據,包括下游情況、查詢次數、關聯次數、聚合次數、產出時間等。
表的關聯關系元數據,包括關聯表、關聯類型、關聯字段、關聯次數等。
在星形模型設計過程中,可能類似于如下使用元數據。
基于下游使用中關聯次數大于某個閾值的表或查詢次數大于某個閾值的表等元數據信息,篩選用于數據模型建設的表。
基于表的字段元數據,如字段中的時間字段、字段在下游使用中的過濾次數等,選擇業務過程標識字段。
基于主從表的關聯關系、關聯次數,確定和主表關聯的從表。
基于主從表的字段使用情況,如字段的查詢次數、過濾次數、關聯次數、聚合次數等,確定哪些字段進入目標模型。
2.5驅動ETL開發
通過元數據,指導ETL工作,提高ETL的效率。
我們可以通過Data 得到數據的下游任務依賴情況、最近被讀寫的次數、數據是否可再生、每天消耗的存儲計算等,這些信息足以讓我們判斷數據是否可以下線;如果根據一些規則判斷可以下線,則會通過觸發一個數據下線的工作任務流,數據Owner可能只需要點擊提交按鈕,刪除數據、刪除元數據、下線調度任務、下線DQC 監控等一系列操作就會自動在后臺執行完成。