欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫

新聞資訊

    為了能夠理解Atlas,我們先來(lái)看看元數(shù)據(jù)數(shù)據(jù)治理

    一.元數(shù)據(jù)

    元數(shù)據(jù)就是描述數(shù)據(jù)的數(shù)據(jù)。如果是用java編程來(lái)說(shuō):

    public class Customer {
    private String id;
    private String name;
    private String address;
    private String ID;
    public Customer(String id, String name, String address, String ID) {
    this.id = id;
    this.name = name;
    this.address = address;
    this.ID = ID;

    hadoop 元數(shù)據(jù)管理_部署hadoop federation的工具_(dá)元數(shù)據(jù)管理工具 hadoop

    }
    }

    這里的 就是元數(shù)據(jù)的集合,而類(lèi)的屬性就是元數(shù)據(jù),用來(lái)描述數(shù)據(jù)是什么的問(wèn)題。

    二.元數(shù)據(jù)和數(shù)據(jù)

    如果一條數(shù)據(jù)采用如下表示的時(shí)候:

    1001 張三 深圳南山區(qū)高新南四道20號(hào)

    這條數(shù)據(jù)并沒(méi)有任何含義,我們也不清楚該條數(shù)據(jù)所要表達(dá)的內(nèi)容,但當(dāng)我們換成如下的方式:

    編號(hào) 姓名 地址 身份證

    1001 張三 深圳南山區(qū)高新南四道20號(hào)

    使用編號(hào),姓名,地址,身份證來(lái)描述1001 張三 深圳南山區(qū)高新南四道20號(hào) 。這條數(shù)據(jù)就有了具體的含義,讓我們獲取到"編號(hào)1001的人的名字是張三,地址在深圳南山區(qū)高新南四道20號(hào),身份證號(hào)"這樣的信息。這里類(lèi)似與java代碼中的 = ('1001','張三','深圳南山區(qū)高新南四道20號(hào)',''); 是一個(gè)對(duì)象。簡(jiǎn)單的總結(jié)就是當(dāng)我們使用元數(shù)據(jù)+數(shù)據(jù)就形成了信息。

    三.數(shù)據(jù)治理

    數(shù)據(jù)不會(huì)無(wú)緣無(wú)故的產(chǎn)生,也不會(huì)自己表述其具有的含義,更不會(huì)自己管理自己,所以我們才會(huì)有數(shù)據(jù)治理。如果用數(shù)據(jù)庫(kù)的表設(shè)計(jì)來(lái)說(shuō)明的話,我們大概分為三個(gè)部分,分別如下:

    hadoop 元數(shù)據(jù)管理_部署hadoop federation的工具_(dá)元數(shù)據(jù)管理工具 hadoop

    1.概念設(shè)計(jì),主要用來(lái)描述業(yè)務(wù)對(duì)象或者業(yè)務(wù)關(guān)系

    2.邏輯模型,通常指ER圖來(lái)描述概念設(shè)計(jì)的模型

    3.物理模型,用來(lái)存儲(chǔ)ER圖實(shí)際的物理結(jié)構(gòu),包括存儲(chǔ)結(jié)構(gòu)和存儲(chǔ)方法。

    按照元數(shù)據(jù)的功能來(lái)劃分:1是業(yè)務(wù)元數(shù)據(jù);2和3屬于技術(shù)元數(shù)據(jù);還有一個(gè)是操作元數(shù)據(jù),主要就是描述數(shù)據(jù)是怎么產(chǎn)生,如DB的日志,數(shù)據(jù)使用的時(shí)候安全,審計(jì),血緣等信息。數(shù)據(jù)治理實(shí)際就是在管理業(yè)務(wù)元數(shù)據(jù),技術(shù)元數(shù)據(jù),操作元數(shù)據(jù)這三方面的內(nèi)容。那么Atlas的數(shù)據(jù)治理,有提供了那些核心功能了?

    1.Atlas認(rèn)為數(shù)據(jù)治理有如下類(lèi)型:

    可以看出其包括了數(shù)據(jù)裝載名稱(chēng),數(shù)據(jù)庫(kù)名稱(chēng)和權(quán)限擁有者,表名稱(chēng),視圖名稱(chēng),字段名稱(chēng),還有數(shù)據(jù)訪問(wèn)方式,維度,度量,ETL這些分類(lèi)特性等內(nèi)容。

    2.Atlas提供的核心功能如下圖:

    從上往下,我們看到的是搜索,血緣,交換,知識(shí)存儲(chǔ)數(shù)據(jù)管理工具 hadoop,審計(jì),數(shù)據(jù)生命周期,訪問(wèn)控制和策略。

    2.1搜索:這里是指搜索對(duì)應(yīng)的元數(shù)據(jù),如下圖所示:

    hadoop 元數(shù)據(jù)管理_部署hadoop federation的工具_(dá)元數(shù)據(jù)管理工具 hadoop

    能夠方便的讓我們了解有什么數(shù)據(jù)。

    2.2血緣:從數(shù)據(jù)產(chǎn)生,如ETL的過(guò)程,到數(shù)據(jù)的存儲(chǔ),再到數(shù)據(jù)的使用。能夠方便的讓我們定位數(shù)據(jù)問(wèn)題,是上游ETL,或者下游數(shù)據(jù)報(bào)表發(fā)生數(shù)據(jù)變化。

    2.3.交換:和已有的元數(shù)據(jù)做對(duì)接,比如已經(jīng)在SAS,BIEE中已經(jīng)建好的元數(shù)據(jù),可以直接導(dǎo)入到Atlas中,或者將Atlas中已有的元數(shù)據(jù)導(dǎo)出到其他。

    2.4.知識(shí)存儲(chǔ):數(shù)據(jù)存儲(chǔ)中,Atlas會(huì)根據(jù)自己的分類(lèi),策略規(guī)則,類(lèi)型約束,或者元模型自動(dòng)的進(jìn)行存儲(chǔ)。例如如下類(lèi)型的數(shù)據(jù):

    sales

    Atlas將sales分類(lèi)為度量。或者如下類(lèi)型的數(shù)據(jù):

    name

    Atlas將分類(lèi)為PII( ,個(gè)人驗(yàn)證信息),這里也是對(duì)外提供Rest Api服務(wù)的時(shí)候涉及的數(shù)據(jù)標(biāo)準(zhǔn)。另外自己感覺(jué)這里的知識(shí)存儲(chǔ)和DIKW中的K相似,都是讓我們知道這些數(shù)據(jù)如何去使用。

    2.5.審計(jì):審計(jì)是出于數(shù)據(jù)安全,隱私,或者法律政策。什么數(shù)據(jù)應(yīng)該存,或者怎么存都會(huì)有一定的要求或者標(biāo)準(zhǔn)。例如如下類(lèi)型的數(shù)據(jù):

    name ID

    很顯然,,ID屬于敏感信息,是受隱私保護(hù)的。只可惜在中國(guó)對(duì)數(shù)據(jù)安全大家都不重視,比如在淘寶購(gòu)買(mǎi)了商品,然后騙子獲取到了你未做敏感信息處理的訂單信息和身份信息,然后對(duì)你實(shí)施詐騙。

    2.6.數(shù)據(jù)生命周期:數(shù)據(jù)是有時(shí)效性的,最簡(jiǎn)單的例子就是如果你設(shè)計(jì)數(shù)據(jù)中心為3年的話,到第四年開(kāi)始,在第一年進(jìn)入數(shù)據(jù)中心的數(shù)據(jù)就可以轉(zhuǎn)做進(jìn)線存儲(chǔ)或者離線存儲(chǔ),即第一年的數(shù)據(jù)在這個(gè)數(shù)據(jù)中心的生命周期結(jié)束。更別說(shuō)數(shù)據(jù)庫(kù)查詢(xún)中的臨時(shí)表,臨時(shí)為了某個(gè)業(yè)務(wù)場(chǎng)景驗(yàn)證,做開(kāi)發(fā)和測(cè)試,完成后就直接刪了,這種數(shù)據(jù)生命周期更短。

    hadoop 元數(shù)據(jù)管理_元數(shù)據(jù)管理工具 hadoop_部署hadoop federation的工具

    2.7.標(biāo)簽策略:最簡(jiǎn)單的標(biāo)簽就是將元數(shù)據(jù)的分類(lèi),如元數(shù)據(jù)屬于,ETL。或者接6所說(shuō)的,數(shù)據(jù)是有時(shí)效性的。例如市場(chǎng)部門(mén)往往關(guān)注今天有多少訂單產(chǎn)生,然后偶爾關(guān)注這個(gè)月產(chǎn)生了多少訂單,越往前的數(shù)據(jù),使用頻率和訪問(wèn)頻率越底。這里就可以對(duì)數(shù)據(jù)使用熱度標(biāo)簽。

    2.8.安全:也就是Atlas中的基于標(biāo)簽的訪問(wèn)控制,最簡(jiǎn)單的標(biāo)簽就是允許和不允許。數(shù)據(jù)應(yīng)該只被該訪問(wèn)的人訪問(wèn)元數(shù)據(jù)管理工具 hadoop,如果一個(gè)用戶(hù)是報(bào)表用戶(hù),那他就只能訪問(wèn)那些的數(shù)據(jù),而不會(huì)是其他數(shù)據(jù),更別說(shuō)不具有數(shù)據(jù)訪問(wèn)權(quán)限的用戶(hù)。

    上面只是簡(jiǎn)單的介紹了Atlas是什么和具有的功能,我們來(lái)看個(gè)簡(jiǎn)單的例子,業(yè)務(wù)人員想要了解“2015年12月1日廣東的空調(diào)銷(xiāo)售額是多少”,可以解析為如下內(nèi)容:

    a.時(shí)間:2015年12月1日(時(shí)間維度)

    b.地區(qū):廣東(地理維度)

    c.產(chǎn)品:空調(diào) (產(chǎn)品維度)

    d.指標(biāo):銷(xiāo)售額

    最終的數(shù)據(jù)類(lèi)型呈現(xiàn)如下表示:

    time sales

    2015年12月1日 廣東 空調(diào) xxx,xxx.xx元

    那我們應(yīng)該如何去實(shí)現(xiàn)?大概過(guò)程如下:1.查詢(xún)2015年12月1日所有的訂單 --> 2.過(guò)濾出其中客戶(hù)地址是廣東的訂單 --> 3.對(duì)這些訂單的銷(xiāo)售額進(jìn)行求和。可是要完成這個(gè)報(bào)告接著發(fā)現(xiàn)有這些問(wèn)題:訂單數(shù)據(jù)從那里來(lái),怎么獲取,獲取后存儲(chǔ)到那里?實(shí)現(xiàn)過(guò)程大概如下:1.發(fā)現(xiàn)我們需要客戶(hù)表,產(chǎn)品表,訂單表的數(shù)據(jù) --> 2.發(fā)現(xiàn)這3張表保存在銷(xiāo)售數(shù)據(jù)庫(kù) --> 3.采用ETL,將數(shù)據(jù)加載到報(bào)表數(shù)據(jù)庫(kù) --> 4.產(chǎn)生數(shù)據(jù)報(bào)告,結(jié)論。在這個(gè)過(guò)程中會(huì)涉及如下圖所示的元數(shù)據(jù):

    元數(shù)據(jù)管理工具 hadoop_hadoop 元數(shù)據(jù)管理_部署hadoop federation的工具

    說(shuō)明:這里對(duì)中的時(shí)間字段做了規(guī)范化設(shè)計(jì),所以產(chǎn)生了時(shí)間維度表。

    1.是表或者視圖名稱(chēng);

    2.是字段名稱(chēng);

    3.是分類(lèi)特性;

    4.是裝載名稱(chēng);

    5.是數(shù)據(jù)庫(kù)名稱(chēng)和元數(shù)據(jù)存儲(chǔ)。

    Atlas采用Text File或者ORC File的方式,簡(jiǎn)單表述如下圖所示:

    可以看出,Atlas只是對(duì)元數(shù)據(jù)層進(jìn)行操作,并不會(huì)直接操作到數(shù)據(jù)層。比如上面中的客戶(hù)表,可能有手機(jī)號(hào),身份證號(hào)等字段,但是在"2015年12月1日廣東的空調(diào)銷(xiāo)售額是多少"這個(gè)業(yè)務(wù)中沒(méi)有任何作用,所以不會(huì)管理這兩個(gè)字段,或者初始設(shè)計(jì)的時(shí)候管理了這兩個(gè)字段,然后發(fā)現(xiàn)沒(méi)有使用到的時(shí)候可以進(jìn)行del操作。注意,這里的del不涉及到數(shù)據(jù)層,不同于連接的mysql,直接操作的數(shù)據(jù)層,把表的列給刪除,只是刪除了元數(shù)據(jù)層。

    從上面的例子就可以看出數(shù)據(jù)治理的好處:

    1.數(shù)據(jù)整合:如果沒(méi)有元數(shù)據(jù),你不可能把客戶(hù)表,訂單表的數(shù)據(jù)整合在一起,從而發(fā)現(xiàn)更多的數(shù)據(jù)價(jià)值;

    2.數(shù)據(jù)追朔:報(bào)表數(shù)據(jù)庫(kù)中的客戶(hù)表的數(shù)據(jù)來(lái)源是否是銷(xiāo)售數(shù)據(jù)庫(kù)的客戶(hù)表數(shù)據(jù);

    其他還有數(shù)據(jù)質(zhì)量,有助于數(shù)據(jù)理解,數(shù)據(jù)重用等。

網(wǎng)站首頁(yè)   |    關(guān)于我們   |    公司新聞   |    產(chǎn)品方案   |    用戶(hù)案例   |    售后服務(wù)   |    合作伙伴   |    人才招聘   |   

友情鏈接: 餐飲加盟

地址:北京市海淀區(qū)    電話:010-     郵箱:@126.com

備案號(hào):冀ICP備2024067069號(hào)-3 北京科技有限公司版權(quán)所有