你所理解的元數(shù)據(jù)是什么樣子的呢?
1
概述
元數(shù)據(jù)通常定義為”關于數(shù)據(jù)的數(shù)據(jù)”,元數(shù)據(jù)貫穿了數(shù)據(jù)倉庫的整個生命周期,使用元數(shù)據(jù)驅動數(shù)據(jù)倉庫的開發(fā),使數(shù)據(jù)倉庫自動化,可視化。元數(shù)據(jù)打通了源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應用,記錄數(shù)據(jù)從產(chǎn)生到消費的全過程。
例如我們看一部電影,電影本身就是數(shù)據(jù),那么元數(shù)據(jù)就是用來描述這部電影的數(shù)據(jù)。如下圖所示:
元數(shù)據(jù)主要記錄數(shù)據(jù)倉庫中模型的定義、各層級間的映射關系、監(jiān)控數(shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及 ETL 的任務運行狀態(tài)。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫管理員和開發(fā)人員非常方便地找到他們所關心的數(shù)據(jù),用于指導其進行數(shù)據(jù)管理和開發(fā)工作,可以極大的提升工作的效率。
2
元數(shù)據(jù)定義
將元數(shù)據(jù)按用途的不同分為兩類:
1技術元數(shù)據(jù)
技術元數(shù)據(jù)是存儲關于數(shù)據(jù)倉庫系統(tǒng)技術細節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù)。常見的技術元數(shù)據(jù)有:
1.存儲元數(shù)據(jù):
如表、字段、分區(qū)等信息。記錄了表的中英文名及表狀態(tài)。分區(qū)信息、責任人信息、對應主題,文件大小、表類型,生命周期,權限信息
記錄列的字段中英文名、字段類型、字段備注、是否是分區(qū)字段,保密級別及權限信息等信息。
2.運行元數(shù)據(jù),
如大數(shù)據(jù)平臺上所有作業(yè)運行等信息:類似于 Hive Job 日志,包括作業(yè)類型、實例名稱、輸入輸出、 SQL 、運行參數(shù)、執(zhí)行時間存儲系統(tǒng)元數(shù)據(jù)圖譜化,執(zhí)行引擎等。
3.數(shù)據(jù)開發(fā)平臺中數(shù)據(jù)同步、計算任務、任務調(diào)度等信息
包括數(shù)據(jù)同步的輸入輸出表和字段,以及同步任務本身的節(jié)點信息:計算任務主要有輸入輸出、任務本身的節(jié)點信息 任務調(diào)度主要有任務的依賴類型、依賴關系等,以及不同類型調(diào)度任務的運行日志等。
4.數(shù)據(jù)質(zhì)量和運維相關元數(shù)據(jù),如任務監(jiān)控、運維報警、數(shù)據(jù)質(zhì)量、故障等信息,包括任務監(jiān)控運行日志、告警配置及運行日志、故障信息等。
2業(yè)務元數(shù)據(jù)
業(yè)務元數(shù)據(jù)從業(yè)務角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實際系統(tǒng)之間的語義層,使得不懂計算機技術的業(yè)務人員也能夠讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。
常見的業(yè)務元數(shù)據(jù)有維度及屬性(包括維度編碼存儲系統(tǒng)元數(shù)據(jù)圖譜化,字段類型,創(chuàng)建人,創(chuàng)建時間,狀態(tài)等)、業(yè)務過程、指標(包含指標名稱,指標編碼,業(yè)務口徑,指標類型,責任人,創(chuàng)建時間,狀態(tài),sql等),安全等級,計算邏輯等的規(guī)范化定義,用于更好地管理和使用數(shù)據(jù)。數(shù)據(jù)應用元數(shù)據(jù),如數(shù)據(jù)報表、數(shù)據(jù)產(chǎn)品等的配置和運行元數(shù)據(jù)。
3
元數(shù)據(jù)管理
對于元數(shù)據(jù)管理,目前來說有三種方式可供選擇。
手工錄入保存
對于規(guī)模比較小,并且業(yè)務不大的公司,可能會用這種方式,但是這種方式太古老,且容易出錯
2自研系統(tǒng)
自研元數(shù)據(jù)管理系統(tǒng)或者在數(shù)據(jù)平臺開發(fā)元數(shù)據(jù)管理模塊
很多公司會自研元數(shù)據(jù)管理系統(tǒng)或者相關模塊,直接讀取hive元數(shù)據(jù)或者數(shù)據(jù)平臺配置的任務及調(diào)度元數(shù)據(jù)進行展示,相比較Excel人工導入,會更智能一點,但是相對于Atlas,成本更高且效果不一定有Atlas好,很多時候也需要批量導入和手工錄入
元數(shù)據(jù)管理(常用)
Atlas 是一個可伸縮且功能豐富的元數(shù)據(jù)管理系統(tǒng),深度對接了 大數(shù)據(jù)組件。
簡單理解就是一個跟 關系緊密的,可以用來做各類數(shù)據(jù)的元數(shù)據(jù)管理的一個軟件系統(tǒng);
atlas本身從技術上來說,就是一個典型的系統(tǒng),其整體結構圖如下所示:
核心組件
核心特性
ATLAS的使用,包含兩個方面:
注入元數(shù)據(jù)信息到atlas中(本質(zhì)是:寫入元數(shù)據(jù)到atlas中)
使用atlas中的元數(shù)據(jù)信息來為我們服務(本質(zhì)是:從atlas中讀、改元數(shù)據(jù))
4
元數(shù)據(jù)價值
元數(shù)據(jù)有重要的應用價值,是數(shù)據(jù)管理、數(shù)據(jù)內(nèi)容、數(shù)據(jù)應用的基礎,在數(shù)據(jù)管理方面為集團數(shù)據(jù)提供在計算、存儲、成本、質(zhì)量、安全、模型等治理領域上的數(shù)據(jù)支持。例如在計算上可以利用元數(shù)據(jù)查找超長運行節(jié)點,對這些節(jié)點進行專項治理,保障基線產(chǎn)出時間。在數(shù)據(jù)內(nèi)容方面為集團數(shù)據(jù)進行數(shù)據(jù)域、數(shù)據(jù)主題、業(yè)務屬性等的提取和分析提供數(shù)據(jù)素材。例如可以利用元數(shù)據(jù)構建知識圖譜,給數(shù)據(jù)打標簽,清楚地知道現(xiàn)在有哪些數(shù)據(jù)。在數(shù)據(jù)應用方面打通產(chǎn)品及應用鏈路,保障產(chǎn)品數(shù)據(jù)準確、及時產(chǎn)出。例如打通DP和應用數(shù)據(jù),明確數(shù)據(jù)產(chǎn)等級,更有效地保障產(chǎn)品數(shù)據(jù)。
5
元數(shù)據(jù)應用
數(shù)據(jù)的真正價值在于數(shù)據(jù)驅動決策,通過數(shù)據(jù)指導運營。通過數(shù)據(jù)驅動的方法,我們能夠判斷趨勢 ,從而展開有效行動,幫助自己發(fā)現(xiàn)問題,推動創(chuàng)新或解決方案的產(chǎn)生。這就是數(shù)據(jù)化運營。同樣,對于元數(shù)據(jù),可以用于指導數(shù)據(jù)相關人員進行日常工作,實現(xiàn)數(shù)據(jù)化“運營”。比如對于數(shù)據(jù)使用者,可以通過元數(shù)據(jù)讓其快速找到所需要的數(shù)據(jù);對于ETL 工程師,可以通過元數(shù)據(jù)指導其進行模型設計、任務優(yōu)化和任務下線等各種日常ETL 工作;對于運維工程師,可以通過元數(shù)據(jù)指導其進行整個集群的存儲、計算和系統(tǒng)優(yōu)化等運維工作。
# 參考《大數(shù)據(jù)之路:阿里巴巴大數(shù)據(jù)實踐》