Lambda架构

批流分开 数据架构
数据架构 浏览量:153 发布时间:2024-11-26

Lambda架构

Lambda架构是自从大数据出现以来的一个著名术语。它基于Lambda演算,是任何决策支持系统的基本框架。

 

Lambda演算(也写作λ-演算)是数理逻辑中的一种形式系统,用于基于函数抽象和应用的计算,使用变量绑定和替换。它是一种通用的计算模型,可以用来模拟任何图灵机。[维基百科]

“Lambda架构是将数据从生成的地方流向最终用户的过程,同时支持批处理和实时处理。”

处理数据有两种方法,即批处理和实时处理。

Ø 批处理层是指在特定时间范围内进行数据处理,可以是每天、半天、每小时,甚至低至10分钟或1分钟。这意味着数据的处理或提取不是基于其生成的时间,而是基于可用的数据或系统资源来处理它或由中介方手动更新等。

Ø 实时处理层是指在数据生成的同时进行处理或提取数据的层级,也称为事件驱动处理。

Lambda架构并不是新的。它已经使用了几十年,但是在过去,我们只依赖于来自OLTP系统的结构化数据,加上缺乏工具和技术,我们只能批处理地处理或移动数据从源到目标数据存储。大多数组织使用的最常见的批处理时间是每日批处理,其中数据每24小时移动一次,这在许多地方仍然是如此,例如在晚上8点至早上8点之间进行转移。所以,报告基于D-1(1天前的数据)。实时数据也被使用,但由于工具和技术非常昂贵,使用非常有限。

自从大数据诞生以来,由于开源工具、Hadoop、对象存储、NoSQL数据库以及工具、技术和存储变得如此便宜,Lambda架构真正成为人们关注的焦点。

在当前时代,每个组织都已经开始采用Lambda架构作为一种规范。目前,面临监管挑战的组织大多在本地环境中使用Hadoop。在云端,AWS、Azure和Google是主要的参与者。Oracle、IBM和许多其他云服务提供商也在竞争中。

组织无法采用云计算的主要原因之一是数据主权(在单独的主题中解释)。由于此要求,云服务提供商的数据中心必须位于客户所在的国家或至少在同一地区。AWS、Azure和Google是快速增长的云服务提供商,因为它们几乎已经在每个地区拥有数据中心,现在它们正在努力进入主要国家。

每个组织都在Lambda架构上映射了自己的工具,让我借此机会分享AWS、Azure和Google Clouds的标准架构。


扫码联系
电话联系