欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫

新聞資訊

    你所理解的元數(shù)據(jù)是什么樣子的呢?

    1

    概述

    元數(shù)據(jù)通常定義為”關于數(shù)據(jù)的數(shù)據(jù)”,元數(shù)據(jù)貫穿了數(shù)據(jù)倉庫的整個生命周期,使用元數(shù)據(jù)驅動數(shù)據(jù)倉庫的開發(fā),使數(shù)據(jù)倉庫自動化,可視化。元數(shù)據(jù)打通了源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應用,記錄數(shù)據(jù)從產(chǎn)生到消費的全過程。

    例如我們看一部電影,電影本身就是數(shù)據(jù),那么元數(shù)據(jù)就是用來描述這部電影的數(shù)據(jù)。如下圖所示:

    元數(shù)據(jù)主要記錄數(shù)據(jù)倉庫中模型的定義、各層級間的映射關系、監(jiān)控數(shù)據(jù)倉庫的數(shù)據(jù)狀態(tài)及 ETL 的任務運行狀態(tài)。在數(shù)據(jù)倉庫系統(tǒng)中,元數(shù)據(jù)可以幫助數(shù)據(jù)倉庫管理員和開發(fā)人員非常方便地找到他們所關心的數(shù)據(jù),用于指導其進行數(shù)據(jù)管理和開發(fā)工作,可以極大的提升工作的效率。

    2

    元數(shù)據(jù)定義

    將元數(shù)據(jù)按用途的不同分為兩類:

    1技術元數(shù)據(jù)

    技術元數(shù)據(jù)是存儲關于數(shù)據(jù)倉庫系統(tǒng)技術細節(jié)的數(shù)據(jù),是用于開發(fā)和管理數(shù)據(jù)倉庫使用的數(shù)據(jù)。常見的技術元數(shù)據(jù)有:

    1.存儲元數(shù)據(jù):

    如表、字段、分區(qū)等信息。記錄了表的中英文名及表狀態(tài)。分區(qū)信息、責任人信息、對應主題,文件大小、表類型,生命周期,權限信息

    記錄列的字段中英文名、字段類型、字段備注、是否是分區(qū)字段,保密級別及權限信息等信息。

    2.運行元數(shù)據(jù),

    大數(shù)據(jù)平臺上所有作業(yè)運行等信息:類似于 Hive Job 日志,包括作業(yè)類型、實例名稱、輸入輸出、 SQL 、運行參數(shù)、執(zhí)行時間存儲系統(tǒng)元數(shù)據(jù)圖譜化,執(zhí)行引擎等。

    3.數(shù)據(jù)開發(fā)平臺中數(shù)據(jù)同步、計算任務、任務調(diào)度等信息

    包括數(shù)據(jù)同步的輸入輸出表和字段,以及同步任務本身的節(jié)點信息:計算任務主要有輸入輸出、任務本身的節(jié)點信息 任務調(diào)度主要有任務的依賴類型、依賴關系等,以及不同類型調(diào)度任務的運行日志等。

    4.數(shù)據(jù)質(zhì)量和運維相關元數(shù)據(jù),如任務監(jiān)控、運維報警、數(shù)據(jù)質(zhì)量、故障等信息,包括任務監(jiān)控運行日志、告警配置及運行日志、故障信息等。

    2業(yè)務元數(shù)據(jù)

    業(yè)務元數(shù)據(jù)從業(yè)務角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù),它提供了介于使用者和實際系統(tǒng)之間的語義層,使得不懂計算機技術的業(yè)務人員也能夠讀懂”數(shù)據(jù)倉庫中的數(shù)據(jù)。

    常見的業(yè)務元數(shù)據(jù)有維度及屬性(包括維度編碼存儲系統(tǒng)元數(shù)據(jù)圖譜化,字段類型,創(chuàng)建人,創(chuàng)建時間,狀態(tài)等)、業(yè)務過程、指標(包含指標名稱,指標編碼,業(yè)務口徑,指標類型,責任人,創(chuàng)建時間,狀態(tài),sql等),安全等級,計算邏輯等的規(guī)范化定義,用于更好地管理和使用數(shù)據(jù)。數(shù)據(jù)應用元數(shù)據(jù),如數(shù)據(jù)報表、數(shù)據(jù)產(chǎn)品等的配置和運行元數(shù)據(jù)。

    3

    元數(shù)據(jù)管理

    對于元數(shù)據(jù)管理,目前來說有三種方式可供選擇。

    手工錄入保存

    對于規(guī)模比較小,并且業(yè)務不大的公司,可能會用這種方式,但是這種方式太古老,且容易出錯

    2自研系統(tǒng)

    自研元數(shù)據(jù)管理系統(tǒng)或者在數(shù)據(jù)平臺開發(fā)元數(shù)據(jù)管理模塊

    很多公司會自研元數(shù)據(jù)管理系統(tǒng)或者相關模塊,直接讀取hive元數(shù)據(jù)或者數(shù)據(jù)平臺配置的任務及調(diào)度元數(shù)據(jù)進行展示,相比較Excel人工導入,會更智能一點,但是相對于Atlas,成本更高且效果不一定有Atlas好,很多時候也需要批量導入和手工錄入

    元數(shù)據(jù)管理(常用)

    Atlas 是一個可伸縮且功能豐富的元數(shù)據(jù)管理系統(tǒng),深度對接了 大數(shù)據(jù)組件。

    簡單理解就是一個跟 關系緊密的,可以用來做各類數(shù)據(jù)的元數(shù)據(jù)管理的一個軟件系統(tǒng);

    atlas本身從技術上來說,就是一個典型的系統(tǒng),其整體結構圖如下所示:

    核心組件

    核心特性

    ATLAS的使用,包含兩個方面:

    注入元數(shù)據(jù)信息到atlas中(本質(zhì)是:寫入元數(shù)據(jù)到atlas中)

    使用atlas中的元數(shù)據(jù)信息來為我們服務(本質(zhì)是:從atlas中讀、改元數(shù)據(jù))

    4

    元數(shù)據(jù)價值

    元數(shù)據(jù)有重要的應用價值,是數(shù)據(jù)管理、數(shù)據(jù)內(nèi)容、數(shù)據(jù)應用的基礎,在數(shù)據(jù)管理方面為集團數(shù)據(jù)提供在計算、存儲、成本、質(zhì)量、安全、模型等治理領域上的數(shù)據(jù)支持。例如在計算上可以利用元數(shù)據(jù)查找超長運行節(jié)點,對這些節(jié)點進行專項治理,保障基線產(chǎn)出時間。在數(shù)據(jù)內(nèi)容方面為集團數(shù)據(jù)進行數(shù)據(jù)域、數(shù)據(jù)主題、業(yè)務屬性等的提取和分析提供數(shù)據(jù)素材。例如可以利用元數(shù)據(jù)構建知識圖譜,給數(shù)據(jù)打標簽,清楚地知道現(xiàn)在有哪些數(shù)據(jù)。在數(shù)據(jù)應用方面打通產(chǎn)品及應用鏈路,保障產(chǎn)品數(shù)據(jù)準確、及時產(chǎn)出。例如打通DP和應用數(shù)據(jù),明確數(shù)據(jù)產(chǎn)等級,更有效地保障產(chǎn)品數(shù)據(jù)。

    5

    元數(shù)據(jù)應用

    數(shù)據(jù)的真正價值在于數(shù)據(jù)驅動決策,通過數(shù)據(jù)指導運營。通過數(shù)據(jù)驅動的方法,我們能夠判斷趨勢 ,從而展開有效行動,幫助自己發(fā)現(xiàn)問題,推動創(chuàng)新或解決方案的產(chǎn)生。這就是數(shù)據(jù)化運營。同樣,對于元數(shù)據(jù),可以用于指導數(shù)據(jù)相關人員進行日常工作,實現(xiàn)數(shù)據(jù)化“運營”。比如對于數(shù)據(jù)使用者,可以通過元數(shù)據(jù)讓其快速找到所需要的數(shù)據(jù);對于ETL 工程師,可以通過元數(shù)據(jù)指導其進行模型設計、任務優(yōu)化和任務下線等各種日常ETL 工作;對于運維工程師,可以通過元數(shù)據(jù)指導其進行整個集群的存儲、計算和系統(tǒng)優(yōu)化等運維工作。

    # 參考《大數(shù)據(jù)之路:阿里巴巴大數(shù)據(jù)實踐》

網(wǎng)站首頁   |    關于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶案例   |    售后服務   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號:冀ICP備2024067069號-3 北京科技有限公司版權所有