etl是什么文件 etl是什么( 三 )
ETL和SQL的区别与联系如果ETL和SQL来说,肯定是SQL效率高的多 。但是双方各有优势,先说ETL,ETL主要面向的是建立数据仓库来使用的 。ETL更偏向数据清洗,多数据源数据整合,获取增量,转换加载到数据仓库所使用的工具 。比如我有两个数据源,一个是数据库的表,另外一个是excel数据,而我需要合并这两个数据,通常这种东西在SQL语句中比较难实现 。但是ETL却有很多现成的组件和驱动,几个组件就搞定了 。还有比如跨服务器,并且服务器之间不能建立连接的数据源,比如我们公司系统分为一期和二期,存放的数据库是不同的,数据结构也不相同,数据库之间也不能建立连接,这种情况下,ETL就显得尤为重要和突出 。通过固定的抽取,转换,加载到数据仓库中,即可很容易实现 。
那么SQL呢?SQL事实上只是固定的脚本语言,但是执行效率高,速度快 。不过灵活性不高,很难跨服务器整合数据 。所以SQL更适合在固定数据库中执行大范围的查询和数据更改,由于脚本语言可以随便编写,所以在固定数据库中能够实现的功能就相当强大,不像ETL中功能只能受组件限制,组件有什么功能,才能实现什么功能 。
所以具体我们在什么时候使用ETL和SQL就很明显了,当我们需要多数据源整合建立数据仓库,并进行数据分析的时候,我们使用ETL 。如果是固定单一数据库的数据层次处理,我们就使用SQL 。当然,ETL也是离不开SQL的 。
ETL算法和工具简介:1.常用的ETL工具主要有三大主流工具,分别是Ascential公司的Datastage、Informatica公司的Powercenter、NCR Teradata公司的ETL Automation.还有其他开源工具,如PDI(Kettle)等 。
2.ETL是DW系统的基础DW系统以事实发生数据为基础,自产数据较少 。
一个企业往往包含多个业务系统,均可能成为DW数据源 。
业务系统数据质量良莠不齐,必须学会去伪存真 。
业务系统数据纷繁复杂,要整合进数据模型 。
源数据之间关系也纷繁复杂,源数据在加工进DW系统时,有些必须遵照一定的先后次序关系;
3.源数据的分类流水事件表:此类源表用于记录交易等动作的发生,在源系统中会新增、大部分不会修改和删除,少量表存在删除情况 。如定期存款登记簿;
常规状态表:此类源表用于记录数据信息的状态 。在源系统中会新增、修改,也存在删除的情况 。如客户信息表;
代码参数表:此类源表用于记录源系统中使用到的数据代码和参数;
4.数据文件的类型数据文件大多数以1天为固定的周期从源系统加载到数据仓库 。数据文件包含增量,全量以及待删除的增量 。
【etl是什么文件 etl是什么】增量数据文件:数据文件的内容为数据表的增量信息,包含表内新增及修改的记录 。
全量数据文件:数据文件的内容为数据表的全量信息,包含表内的所有数据 。
带删除的增量:数据文件的内容为数据表的增量信息,包含表内新增、修改及删除的记录,通常删除的记录以字段DEL_IND='D'标识该记录 。
5.ETL标准算法可划分为:历史拉链算法、追加算法(事件表)、Upsert算法(主表)及全删全加算法(参数表);
6.ETL标准算法选择历史拉链:根据业务分析要求,对数据变化都要记录,需要基于日期的连续历史轨迹;
追加(事件表):根据业务分析要求,对数据变化都要记录,不需要基于日期的连续历史轨迹;
Upsert(主表):根据业务分析要求,对数据变化不需要都要记录,当前数据对历史数据有影响;
全删全加算法(参数表):根据业务分析要求,对数据变化不需要都要记录,当前数据对历史数据无影响;
7.历史拉链法所谓拉链,就是记录历史,记录一个事务从开始,一直到当前状态的所有变化信息(参数新增开始结束日期);
8.追加算法一般用于事件表,事件之间相对独立,不存在对历史信息进行更新;
9.Upsert算法是update和insert组合体,一般用于对历史信息变化不需要进行跟踪保留、只需其最新状态且数据量有一定规模的表,如客户资料表;
10.全删全加算法一般用于数据量不大的参数表,把历史数据全部删除,然后重新全量加载;
11.处理复杂度历史拉链,Upsert,Append,全删全加;加载性能:全删全加,Append,Upsert,历史拉链;
12.近源模型层主要算法APPEND算法,常规拉链算法,全量带删除拉链算法;
13.整合模型层算法APPEND算法,MERGE算法,常规拉链算法,基于增量数据的删除拉链算法,基于全量数据的删除拉链算法,经济型常规拉链算法,经济型基于增量数据的删除拉链算法,经济型基于全量数据的删除拉链算法,PK_NOT_IN_APPEND算法,源日期字段自拉链算法;
推荐阅读
- 12mis含义是什么
- 10h是什么意思
- 核数是什么意思
- 12个月花歌谣是什么
- 14点30分是什么时辰
- x和xs外观区别是什么
- 12349服务平台是什么
- nimh是什么电池
- iphone11pro max用的是什么基带
- 暮然回首上一句是什么
