Kappa架构主要处理实时流数据,而Lambda架构则同时处理实时流数据和历史批量数据。
由于实时数据需求的高涨,Kappa架构已经出现,但并不适用于所有数据大小,就像Lambda架构一样。
我们已经详细讨论了Lambda架构是什么,因此不会详细介绍流处理和批处理的工作原理。让我们了解Kappa与Lambda架构的不同之处。
Kappa架构仅使用队列工具(如KAFKA)进行流处理,用于流和批处理数据集。它不提供单独的工具或技术来处理批量数据。它说,使用与KAFKA相同的工具处理实时流和批量数据,但最大的区别在于,它将数据存储在单独的数据存储中,这可能不适合存储TB或PB级别的数据集。它提供了批处理相关的下游应用程序,可以直接连接到其存储。
因此,如果你的组织有TB或潜在的PB数据,则选择Lambda架构并将数据存储在Hadoop或对象存储中进行分析和分析(Analysis and Analytics),但如果你有小型或中型数据且不需要历史数据维护,则可以使用Kappa架构。
请注意,接收数据的大小有限制,例如数据不能超过1到2 MB,因此当数据被推送到类似KAFKA的工具时,应该分成小块。