数据溯源和数据谱系。从逻辑上讲,它们都在不同的粒度级别上执行相同的操作。
数据谱系是关于了解数据生命周期,但是涉及到数据库、表、列、业务规则/ETL规则等方面。例如,数据来自哪个数据库、表、列,经过转换过程中使用了哪些业务规则,最终进入了哪个数据库、表、列。
数据溯源是更高级别的,它涉及到数据生命周期,包括输入、实体、系统和过程。例如,数据以哪种格式输入,来自哪个源系统,与哪个实体相关,使用了什么样的处理过程,如实时处理、批处理或事件处理等,是否进行了任何分析建模,是否进行了任何数据增强、数据清洗、数据质量规则、元数据管理、主数据和参考数据管理等。发生在数据生命周期中。
数据谱系主要由IT人员使用,而数据溯源则由业务用户或管理人员使用。