Skip to main content

数据集

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。

1. 创建数据集

数据集模块,通过右上方的【+创建】按钮,我们按功能/用途/类型来创建数据集的【文件夹】【批式数据集】

img

1.1 创建文件夹

为了更好的保存数据集,使它整齐规范更容易管理。

img

1.2 移动、重命名、删除文件夹

img

1.3 创建【批式数据集】

大数据处理系统可分为批式(batch)大数据流式(streaming)大数据两类。

其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据

数据集的接入方式分为抽取模式和和直连模式,详细描述:

缓存模式
描述数据以缓存和刷新计划的方式进行同步接入,常用于数据实时性要求不高的分析场景。
优点能够处理的数据量巨大,长时间跨度的历史数据都可以存储、计算处理、分析应用。
缺点缓存模式的缺点也很明显,因为抽取时间有间隔,产生的业务数据不能立即分析,需要等到下次抽取完成之后才能使用。
应用场景案例例如业务经营的数据分析场景,更在意的是能够更加准确地反映业务表现情况,即使T+1天后才可以看到数据也可以接受。
尤其是财务结算,一般是月度结算或者季度财报,准确性是第一位的,可以选择缓存数据模式。
直连模式
描述数据以直接访问数据源的方式接入,每次访问都会实时从数据源获取最新数据,适用于数据时效性高的场景。
优点数据的时效性强,可以做到秒级或者毫秒级时延,所见即所得。
缺点性能主要依赖数据源服务本身的处理能力。
应用场景案例例如双十一交易信息分析,用户的每一笔下单交易都要能够实时的显示出来,此类场景就需要选择直连模式。

1.3.1 抽取模式

数据以缓存和刷新计划的方式进行同步接入,常用于数据实时性要求不高的分析场景。

img

1.3.2 直连模式

数据以直接访问数据源的方式接入,每次访问都会实时从数据源获取最新数据,适用于数据时效性高的场景。

img

1.3.3 新增数据源

详情参考:数据源介绍文档。

img

2. 编辑数据集

鼠标悬停到需要编辑的数据集右侧,直到出现... 后,选中【编辑】对数据集进行编辑。

img

对数据集进行编辑,可以设置数据集的【基本信息】、【字段设置】和【预览数据】。

2.1 基本信息

基本信息页签,可以修改数据集的 【名称】、【是否开启定时。】

img

2.2 字段设置

字段设置页签,可以修改字段的【显示名称】 和 【在可视化中显示】。

img

3. 删除数据集

img

4. 移动数据集

移动数据集到其他数据集文件夹。

img

5. 使用数据集

学习使用数据集:数据应用。