数据编辑
本文将为您介绍数据流的数据编辑的功能说明与具体操作。
1. 筛选数据行
功能说明:在实际业务场景中,源数据存在大量的脏数据,或者分析数据只需要部分数据时,可以通过“筛选数据行”操作符来实现。
具体操作:点击“添加”按钮可以进行条件设置,而且当筛选条件为多条时可以设置触发条件为“满足所有规则”或“满足任意规则”。筛选条件逻辑可包括“等于”、“不等于”、“包含”等等,并且可以对Null值进行删除处理。
过滤规则不仅可以设定为针对固定值的逻辑条件筛选,还可以在列和列之间设置逻辑条件筛选。
2. 数据去重
功能说明:对数据进行去重,可以对单列或多列进行去重转换,如图,添加需要去重的列即可。
配置说明:通常使用输入数据集的主键作为去重列(主键:表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录,例如:会员编号、商品编号、销售单据编号等)。
去重前预览:
如图可以看到,去重前数据集存在重复数据。
点击添加勾选目标字段进行去重,通常使用输入数据集的主键作为去重列,这里按照商品名称——门店名称——日期来确定唯一一条数据。
去重后预览:
3. 值替换
功能说明:该操作符可以对数据集的某一具体值进行替换。
替换前预览:
具体操作:
选择需要做值替换的列(确定列)。
设置替换结果写入方式(覆盖原始列的值、新建列)。
设置不满足替换规则的值(使用原有的值、使用一个默认值)。
替换后预览:
4. Null值替换
功能说明:该操作符可以对数据集的Null值进行批量处理。
配置说明:含Null值的文本默认替换为空、含Null值的数值默认替换为0,也可以自定义替换的内容。
替换前预览:
具体操作:
替换后结果:
备注:同样的功能,通过“值替换”操作符也可以实现,但替换数值多个就需要多个操作符。