数据集
数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
1. 创建数据集
在数据集模块,通过右上方的【+创建】按钮,我们按功能/用途/类型来创建数据集的【文件夹】 和 【批式数据集】。
1.1 创建文件夹
为了更好的保存数据集,使它整齐规范更容易管理。
1.2 移动、重命名、删除文件夹
1.3 创建【批式数据集】
大数据处理系统可分为批式(batch)大数据和流式(streaming)大数据两类。
其中,批式大数据又被称为历史大数据,流式大数据又被称为实时大数据。
数据集的接入方式分为抽取模式和和直连模式,详细描述:
缓存模式 | |
---|---|
描述 | 数据以缓存和刷新计划的方式进行同步接入,常用于数据实时性要求不高的分析场景。 |
优点 | 能够处理的数据量巨大,长时间跨度的历史数据都可以存储、计算处理、分析应用。 |
缺点 | 缓存模式的缺点也很明显,因为抽取时间有间隔,产生的业务数据不能立即分析,需要等到下次抽取完成之后才能使用。 |
应用场景案例 | 例如业务经营的数据分析场景,更在意的是能够更加准确地反映业务表现情况,即使T+1天后才可以看到数据也可以接受。 尤其是财务结算,一般是月度结算或者季度财报,准确性是第一位的,可以选择缓存数据模式。 |
直连模式 | |
---|---|
描述 | 数据以直接访问数据源的方式接入,每次访问都会实时从数据源获取最新数据,适用于数据时效性高的场景。 |
优点 | 数据的时效性强,可以做到秒级或者毫秒级时延,所见即所得。 |
缺点 | 性能主要依赖数据源服务本身的处理能力。 |
应用场景案例 | 例如双十一交易信息分析,用户的每一笔下单交易都要能够实时的显示出来,此类场景就需要选择直连模式。 |
1.3.1 抽取模式
数据以缓存和刷新计划的方式进行同步接入,常用于数据实时性要求不高的分析场景。
1.3.2 直连模式
数据以直接访问数据源的方式接入,每次访问都会实时从数据源获取最新数据,适用于数据时效性高的场景。
1.3.3 新增数据源
详情参考:数据源介绍文档。
2. 编辑数据集
鼠标悬停到需要编辑的数据集右侧,直到出现...
后,选中【编辑】对数据集进行编辑。
对数据集进行编辑,可以设置数据集的【基本信息】、【字段设置】和【预览数据】。
2.1 基本信息
基本信息页签,可以修改数据集的 【名称】、【是否开启定时。】
2.2 字段设置
字段设置页签,可以修改字段的【显示名称】 和 【在可视化中显示】。
3. 删除数据集
4. 移动数据集
移动数据集到其他数据集文件夹。
5. 使用数据集
学习使用数据集:数据应用。