数据集组合
本文将为您介绍数据流的数据集组合的功能说明与具体操作。
1. 行拼接
1.1 功能说明
同类型的业务数据,可能来自不同的下属公司、门店,即便在同一组织,也存在不同数据源的数据集。例如超市有多种支付方式:现金、银联、移动支付等,导致决策者、IT部门在末端获取的数据集来源众多。行拼接则可以把同业务不同来源的数据拼接在一起。
在实际应用中,首先通过列编辑中的“选择列”操作符,对一批数据进行规范化处理,并以此作为规范化的数据集为保留版。其他同业务数据通过“行拼接”操作符,整合成更加规范全面的数据集。
举例:
如上图所示为两个来源不同的数据集,但是字段完全相同。
如图在进行行拼接时,可以选择保留列的情况,如保留所有列、仅保留公共列或者保存任意数据集的所有列。
得到拼接结果后,可以在左上区域内,点击某一数据集下的数字查看对应数据集保留了哪些字段。
1.2 节点数设置
在数据流的创建中,提供针对数据流的“行拼接”的节点数量配置功能。规范数据流的创建,能够避免因操作不当引起的系统运行异常问题。
具体操作:管理员设置-运维管理-参数配置,数据流参数配置-最大支持“行拼接”节点数。(可配置范围:1-50。新客:默认10,已使用客户:默认无限制)。当创建时如果超出限制,则会进行提示。
2. 关联数据
功能说明:“关联数据”可以通俗理解为“列拼接”,不同的是,关联数据需要找到双方数据集中相同的关联列进行拼接;并且拼接的形式也比较多样,最终呈现的数据集也可以自定义列,具体如下:
关联方式 | 特性描述 |
---|---|
内连接 | 仅对关联列中交集进行连接 |
左连接 | 默认输出左表所有行,并将右表中关联匹配的列进行连接 |
全连接 | 对关联列中并集进行连接 |
举例:
如图两个数据集分别为项目信息“去重”后的数据集和项目月进度,对于项目信息而言项目编号为唯一主键。
我们想要对项目信息中的项目按照项目月进度中的信息进行补全,因此选择以“项目编号”为关联字段进行内连接。