数据流
V-Data 数据流,可达到专业级的数据处理效果,旨在让用户在数据分析、数据可视化制作前,能够对数据集进行易操作、低门槛、智能化的高效数据处理,使数据经过清洗、转换、装载后得到对终端业务人员更有效的数据集。
案例介绍
项目建设情况统计 :公司领导及部门负责人可按项目、按期次查询项目动态信息,支持穿透查看项目详细信息、各月项目进度\投资明细表。
一、创建数据集
数据集名称 | 接入模式 | 数据源 |
---|---|---|
项目信息 | 直连模式 | 项目信息 |
项目月进度 | 直连模式 | 项目月进度 |
项目月投资 | 直连模式 | 项目月投资 |
创建数据集的同时新增数据源:
准备好所有需要的数据集:
完成后可编辑数据集(基本信息、字段设置、预览数据):
二、新增数据源
根据上表创建JSON API
数据源:
项目月进度添加Web API参数:
项目月投资添加Web API参数:
准备好所有需要的数据源:
三、创建数据流
3.1 新建数据流
进入“数据流”界面,点击右上角的 “+创建” 按钮 新建 “数据流”。
新建“数据流”界面,点击左上角的 “数据流标题“ 可进行 数据流名称、描述、存储目录的编辑及设置:
3.2 数据流操作
左侧添加界面的“添加操作”分为7类:数据集、列编辑、数据编辑、数据集组合、高级计算、数据安全、数据质量。将左侧的操作项拖拽至空白面板区,即可快捷进行具体操作。至少需要一个“输入数据集”和一个“输出数据集”才能构成一个完整的数据流。
3.2.1 输入数据集
功能说明:将数据集添加到当前数据流的编辑区域中。
配置说明:数据流中需要1个及以上的“输入数据集”操作符。
单击输入数据集中间区域进行编辑:
选择数据集:
平铺搜索
此时,根目录下的所有数据集变为同级,输入搜索内容,可直接找到对应数据集。
窗口右侧也会展示选中数据集所在的文件夹路径等数据集详细信息。(注意:在该页面数据集信息仅展示不可编辑,若要编辑请进入数据中心进行操作)
目录搜索
此时,当前目录下所有文件夹、数据集均变为同级,输入搜索内容可搜索出对应文件夹和数据集。
3.2.2 数据去重
功能说明:对数据进行去重,可以对单列或多列进行去重转换,如图,添加需要去重的列即可。
配置说明:通常使用输入数据集的主键作为去重列(主键:表中的一个或多个字段,它的值用于唯一地标识表中的某一条记录,例如:会员编号、商品编号、销售单据编号等)。
配置案例:
项目信息数据集种返回了复的数据:
增加“去重”连接节点:
单击去重节点进行配置,添加待去重的列,并单击保存按钮进行保存:
3.2.3 关联数据
功能说明:“关联数据”可以通俗理解为“列拼接”,不同的是,关联数据需要找到双方数据集中相同的关联列进行拼接;并且拼接的形式也比较多样,最终呈现的数据集也可以自定义列,具体如下:
关联方式 | 特性描述 |
---|---|
内连接 | 仅对关联列中交集进行连接 |
左连接 | 默认输出左表所有行,并将右表中关联匹配的列进行连接 |
全连接 | 对关联列中并集进行连接 |
配置案例:
新增项目月进度的“输入数据集”:
根据案例需求,把项目信息表与项目月进度表的数据进行关联,并单击保存按钮进行保存:
配置数据集的关联列,并选择关联拼接后返回的字段,并单击保存按钮进行保存:
默认为内连接,当前案例需要设置为左连接:
同理,新增项目月投资的“输入数据集” 继续进行关联数据,并单击保存按钮进行保存:
默认为内连接,当前案例需要设置为左连接:
根据业务需求,这里增加一个去重节点,通过 id 和 priod期次两个字段去重:
3.2.4 选择列
功能说明:当出现一些规范化程度较低的数据,存在字段冗余、不规范的情况,可以通过此功能对数据集的各字段进行重命名、选择部分有效字段,得到更清晰有效的数据集。
配置案例:
选择项目需求对应的有效字段返回:
注意:关联会出现重复id,一般报表中不显示id,则这里不反回该字段。
3.2.5 合并列
功能说明:可对现有数据集中的多列进行合并。
配置说明:分隔符可以选择 无、分号、逗号、制表符、空格 等,合并前的原始列可以选择删除或保留。一般用于特定文本信息之间的合并,整体功能灵活友好。
具体步骤:
(1)选择需要合并的列,从上至下选择,后续会在新建列中从左至右转换。
(2)设置新建列的名称。
(3)可以选择是否“删除原始列”。
(4)选择分隔符。
配置案例:
这里把 项目名称和项目编号合并为项目标题列,并删除原始列:
3.2.6 输出数据集
功能说明:将处理后的数据作为数据集输出。
配置说明:数据流中至少需要1个“输入数据集”,才能配置“输出数据集”。
配置案例:新增输出数据集,并设置输出数据集名称 和 保存路径,单击保存按钮进行保存:
3.3 管理与维护
3.3.1 自动布局
当添加内容较多时,可通过自动布局按钮,对数据流内操作节点的布局进行自动调整。
3.3.2 运行数据集
创建完成后可以点击运行按钮,运行数据流并查看运行状态:
3.3.3 查看运行记录
运行记录列表:
点击 “查看” 操作列,可以查看运行详情明细,包括数据流每个节点的名称、状态(成功/失败)、类型、重试次数、开始时间、结束时间 和 运行时长等信息。
3.3.4 运行后输出数据集
查看当前数据流的所有数据集:
查看数据流输出的数据集:
编辑数据集(基本信息、字段设置、预览数据):