Skip to main content

数据集组合

本文将为您介绍数据流的数据集组合的功能说明与具体操作。

1. 行拼接

image-20230925103131922

1.1 功能说明

同类型的业务数据,可能来自不同的下属公司、门店,即便在同一组织,也存在不同数据源的数据集。例如超市有多种支付方式:现金、银联、移动支付等,导致决策者、IT部门在末端获取的数据集来源众多。行拼接则可以把同业务不同来源的数据拼接在一起。

在实际应用中,首先通过列编辑中的“选择列”操作符,对一批数据进行规范化处理,并以此作为规范化的数据集为保留版。其他同业务数据通过“行拼接”操作符,整合成更加规范全面的数据集。

举例:

image-20230925105013907

image-20230925105211097

如上图所示为两个来源不同的数据集,但是字段完全相同。

image-20230925104856643

如图在进行行拼接时,可以选择保留列的情况,如保留所有列、仅保留公共列或者保存任意数据集的所有列。

image-20230925105321692

得到拼接结果后,可以在左上区域内,点击某一数据集下的数字查看对应数据集保留了哪些字段。

1.2 节点数设置

在数据流的创建中,提供针对数据流的“行拼接”的节点数量配置功能。规范数据流的创建,能够避免因操作不当引起的系统运行异常问题。

具体操作:管理员设置-运维管理-参数配置,数据流参数配置-最大支持“行拼接”节点数。(可配置范围:1-50。新客:默认10,已使用客户:默认无限制)。当创建时如果超出限制,则会进行提示。

image-20230925105432214

2. 关联数据

image-20230925103654588

功能说明:“关联数据”可以通俗理解为“列拼接”,不同的是,关联数据需要找到双方数据集中相同的关联列进行拼接;并且拼接的形式也比较多样,最终呈现的数据集也可以自定义列,具体如下:

关联方式特性描述
内连接仅对关联列中交集进行连接
左连接默认输出左表所有行,并将右表中关联匹配的列进行连接
全连接对关联列中并集进行连接

image-20230925104016188

举例:

image-20230925103850439

如图两个数据集分别为项目信息“去重”后的数据集和项目月进度,对于项目信息而言项目编号为唯一主键。

image-20230925104351953

我们想要对项目信息中的项目按照项目月进度中的信息进行补全,因此选择以“项目编号”为关联字段进行内连接。