Skip to main content

列操作

本文将为您介绍数据流的列操作,具体包含:添加计算列、合并列、分组聚合、选择列、行转列与列转行。

1. 添加计算列

image-20230925093310170

功能说明:对现有数据集中存在的列维度进行扩展或合并计算,可以增加分析需要的新指标等。

配置说明:点击进入“添加计算字段”临时页面,若需要函数,可按照相关示例编写公式、填写字段名称、选择字段类型。

image-20230925093449545

新建字段类型及对应输出数据集字段类型:

  • 数值,double
  • 文本,string
  • 日期,date
  • 日期时间,timestamp
  • 布尔型,string

智能列操作3.png

函数按类型分为“聚合统计”、“非聚合统计”、“日期和时间”等等,您还可以通过将鼠标光标移动到对应函数名上查看相应函数的用法,如下图所示。

智能列操作4.png

举例:在门店分析的某数据集中,已有销售金额、数量和含税价,即可通过公式来添加计算列:毛利 = 销售金额-(销售数量*含税价)。

智能列操作5.png

2. 合并列

image-20230925093727867

功能说明:可对现有数据集中的多列进行合并。

配置说明:分隔符可以选择无、分号、逗号、制表符、空格、自定义等,合并前的原始列可以选择删除或保留。一般用于特定文本信息之间的合并,整体功能灵活友好。

具体步骤:

(1)选择需要合并的列,从上至下选择,后续会在新建列中从左至右转换。

(2)设置新建列的名称。

(3)选择分隔符,其中“其他”可以自定义文本信息。

(4)可以选择是否“删除原始列”。

image-20230925093914259

3. 分组聚合

image-20230925094116177

功能说明:通过对某维度或某几类维度的数值处理,将多行数据按照维度,聚合至一行。当选择多个维度时,按照颗粒度最小的维度,进行聚合。

image-20230925094837049

数值中的聚合方式:求和、最小值、最大值、平均值、计数、去重计数、无处理

4. 选择列

image-20230925095031545

功能说明:当出现一些规范化程度较低的数据,存在字段冗余、不规范的情况,可以通过此功能对数据集的各字段进行重命名、选择部分有效字段,得到更清晰有效的数据集。

image-20230925095133544

如图,选择需要的列,从上至下选择,后续会在数据集中从左至右呈现,选择区域的右上角会显示已选字段和所有字段的数量。

5. 行转列

image-20230925095220830

功能说明:在众多的业务数据集中,存在部分数据集用于统计颗粒度较小的唯一特性或种类。

image-20230925095354915

例如电商行业的商品、单品,零售行业各类商品、餐饮行业各类菜品的SPU、SKU,环境数据中的国家、地区等。当我们所掌握的数据集维度较为复杂,或者用户需要对经营、制造的商品、产品进行横向的分析时,需要对存储这些数据集的维表进行行转列的转换,使得例如商品、菜品、国家、地域等数据行变为数据维度,使得比较复杂、冗余、未经规范处理的数据集能够获得维度转化,形成新指标的数据集。

转换前预览:

image-20230925095520289

具体步骤:

image-20230925095911852

(1)选择需要做行转列操作的列:选定将成为数据集列项维度的数据所在的列的列项,结合示例图来说,当用户需要采用数据集的行中的“鞋类“、”配件“、“服装”这些维度时,就选择这些数据所在的列的列名:“类别”。

(2) 在新建列中填充的数据列:用户选择需要的数据列项(如,销售额),来描述“鞋类“、”配件“、“服装”这些维度。

(3) 聚合类型:选择对这些数据列项的“聚合类型”,图中的例子是对销售额进行求和,我们还可以选择其它聚合方式(求和、最小值、最大值、平均值、计数、无处理),这些聚合方式相应说明:

(4)选择主键列:主键列决定了输出的数据集将依据哪个主键。选择多个主键列时,会形成主键集,并依据该主键集输出数据集。

(5) “添加列”的左文本框:填写原数据转为列后的名称(一般根据“在新建列中填充的数据列”中的要素进行相应含义的命名)。

(6)“添加列”的右文本框:按照用户自身的需求,补充填写选择的行转列的列中的各个数据的原值。

转换后预览:

image-20230925095934265

6. 列转行

image-20230925100053241

功能说明:列转行是行转列的逆操作。通过列转行,可以把多个指标归总到一个列中去进行分析和展示。

举例:我们要将以下表格数据转成“姓名-科目-成绩”三列组成的新表,就可以使用列转行操作符。

转换前预览:

image-20230925100111151

具体步骤:

image-20230925100501951

(1)设置标签列的名称:列转行后,会将转换前列标签放至该列。例如我们要将“语文"、“数学”、“英语”、“生物”四个科目放至一个新的标签列可以设置标签列的名称为“科目"。

(2)设置数值列的名称:列转行后,会将各列的值放至在该列。例如我们可以将此列命名为“成绩”。

(3)添加需要做列转行操作的列:您可以选择多个需要转成行的列,并重命名它们在标签列里面显示的名称。

转换后预览:

image-20230925100139417