是一款開源的元數據服務,用于數據生態系統元數據的收集、匯總及可視化。它維護著數據集的消費和生產,為作業運行時和數據集訪問頻率提供全局可見性,提供集中的數據集生命周期管理等。發布并開源了。
是一款開源的元數據服務,用于數據生態系統元數據的收集、匯總及可視化。它維護著數據集的消費和生產,為作業運行時和數據集訪問頻率提供全局可見性,提供集中的數據集生命周期管理等。發布并開源了。
的特征:
數據血緣(Data )
數據治理(Data )
數據健康檢查(Data )
數據發現+探索(Data + )
作業(Jobs)
數據集()
重視數據集數據
強化作業和數據集的所有權
為什么選擇?
支持跨全數據集的高度靈活的數據血緣查詢,同時可靠且高效地關聯作業及其生成和使用數據集之間的(上下游)依賴關系。
的設計
是一個模塊化系統,作為一個可高度伸縮和擴展的去平臺化的解決方案,實現元數據管理。它由以下系統組成:
為了方便采用并使不同的數據處理應用程序能夠將元數據收集作為其設計的核心需求,提供了實現元數據API的特定語言客戶端。作為初始版本的一部分,它支持Java和。
元數據API是一個抽象的概念存儲系統元數據圖譜化,用于記錄數據集生產和使用的信息。是一個低延遲、高可用的無狀態層,負責封裝持久化的元數據、集合血緣信息。API允許客戶端收集,且/或從元數據存儲庫獲取數據集信息。
元數據需要被收集、組織和存儲,以便通過元數據UI進行豐富的探索性查詢。元數據存儲庫是由元數據API壓縮且清洗后的抽象的數據集信息目錄。
的數據模型
的數據模型強調數據集的不變性和及時處理性。數據集由作業運行生成存儲系統元數據圖譜化,價值重要。作業運行與版本代碼鏈接,并生成一個或多個不可變的版本輸出。數據集的更改通過輕量級API的調用被記錄在作業執行的不同點,包括運行本身的成功或失敗。
下圖顯示了在多次運行中為給定作業收集和編目的元數據,以及應用于其輸入數據集的時間序列變化。