徽章架构(Medallion Architecture)是一个新术语,但像销售人员使用的许多术语一样,这只是一个流行语。换句话说,我们已经知道这一点,如果我们已经实施了湖仓一体,我们已经在使用它了。
正在使用Databricks并实施他们的Lakehouse的人,可能知道这个徽章架构(Medallion Architecture)是什么。让我尝试为阅读本书的读者简要解释一下。
徽章架构坐落在Delta Lake表中,它处理多层数据,即青铜→白银→黄金层表。
1.原始层:这一层通常不在徽章架构下,因为它完全是原始的,而青铜、白银和黄金都在Delta Lake表中。因此,原始层托管源数据,这些数据不能直接推送到青铜层。大多数组织都喜欢将所有源系统数据落地在原始层(我也喜欢这样做)。
2.青铜层:那些与Databricks / Delta Lake有连接器的源系统可以将数据落地到青铜层,否则青铜层源通常是最原始的层。一些数据标准化转换会在这里发生。
(1) 如果日期格式来自不同的来源系统,可以在此层中进行标准化。
(2) 可以为NULL值赋予一些值。
(3) 数据类型和列大小可以固定。
(4) 在这一层可以执行CDC以提取增量数据。
请注意,在这个层次上,数据模型与源系统保持不变。
3.白银层:这是企业数据仓库中数据转换的地方,虽然在Bill Inmon的3-NF数据仓库模型中不是必需的。
4.黄金层:这就是数据集市或语义层发挥作用的地方,重点关注业务KPI,如客户分析、产品质量分析、库存分析、客户细分、产品推荐、营销/销售分析等。
请注意,我们过去一直使用以上的方法,比如我们使用或仍然拥有层次结构,即着陆层→暂存层→数据仓库/数据集市层→语义/聚合层→立方体。唯一的区别是Databricks将所有内容都放在数据湖中,消除了关系型数据库。