12

发布时间:2024-12-11 16:00

陈旸

Hop

Job Entry

输出

中间转换

输入

Sqoop

DataX

Scriptella

Apatar

Talend

Kettle

Microsoft SQL Server Integration Services

Oracle Data Integrator

IBM InfoSphere DataStage

Informatica PowerCenter

Transform

Load

Extract

Load

Transform

Extract

需要掌握ETL开发工具和主流数据库技术

重要工作职位

用于Hadoop和关系型数据库之间的数据传递

跨平台、跨数据库、不同系统之间的数据同步及交互

案例1:文本文件转化到MySQL数据库

创建Job

创建Transformation

Job

Transformation

可视化操作

开源软件

商业软件

ELT

ETL

80%的大数据项目工作与数据集成有关

将多个数据源合并存放在一个数据存储中

ETL工程师

Apache开源软件:Sqoop

阿里开源软件:DataX

Kettle工具的使用

Kettle工具

ETL工具

数据集成的两种架构

数据集成概念

数据集成

该思维导图由 AI 生成,仅供参考

我们采集的数据经常会有冗余重复的情况。举个简单的例子,假设你是一个网络综艺节目的制片人,一共有 12 期节目,你一共打算邀请 30 位明星作为节目的嘉宾。你知道这些明星影响力都很大,具体在微博上的粉丝数都有标记。于是你想统计下,这些明星一共能直接影响到微博上的多少粉丝,能产生多大的影响力。

然后你突然发现,这些明星的粉丝数总和超过了 20 亿。那么他们一共会影响到中国 20 亿人口么?显然不是的,我们都知道中国人口一共是 14 亿,这 30 位明星的影响力总和不会覆盖中国所有人口。

那么如何统计这 30 位明星真实的影响力总和呢?这里就需要用到数据集成的概念了。

数据集成就是将多个数据源合并存放在一个数据存储中(如数据仓库),从而方便后续的数据挖掘工作。

据统计,大数据项目中 80% 的工作都和数据集成有关,这里的数据集成有更广泛的意义,包括了数据清洗、数据抽取、数据集成和数据变换等操作。这是因为数据挖掘前,我们需要的数据往往分布在不同的数据源中,需要考虑字段表达是否一样,以及属性是否冗余。

数据集成的两种架构:ELT 和 ETL

数据集成是数据工程师要做的工作之一。一般来说,数据工程师的工作包括了数据的 ETL 和数据挖掘算法的实现。算法实现可以理解,就是通过数据挖掘算法,从数据仓库中找到“金子“。

本文介绍了数据集成的重要性以及ETL和ELT两种常见的架构方式。文章详细介绍了Kettle工具的使用方法,包括Transformation和Job的创建过程,并给出了将文本文件内容转化到MySQL数据库的案例。此外,还介绍了阿里开源软件DataX和Apache开源软件Sqoop。总结指出ETL工程师需要掌握至少一种ETL开发工具,熟悉主流数据库技术,并鼓励读者分享对数据集成的理解和ETL工具的选择和使用经历。文章内容丰富,涵盖了数据集成的基本概念和工具操作,适合数据工程师和对数据集成感兴趣的读者阅读学习。

仅可试看部分内容,如需阅读全部内容,请付费购买文章所属专栏
《数据分析实战 45 讲》,新⼈⾸单¥59

立即购买

© 版权归极客邦科技所有,未经许可不得传播售卖。 页面已增加防盗追踪,如有侵权极客邦将依法追究其法律责任。

17 丨决策树(上):要不要去打篮球?决策树来告诉你

网址:12 http://c.mxgxt.com/news/view/156345

相关内容

12年前与12年后…
定档12月12日,燃情梦想 12月12日,央八黄金档,敬请期待~ 电视剧
12年前的时光,12年后的今天…
明星12月行程表
12月上线新片(上)
重庆场再见我的“前担哥”(12/14重庆 12/21北京)
12星座最佳情侣配对表 12星座姻缘配对
明星们12月行程图
12星座友情配对
千玺爱表演的12岁 千玺的12岁真的是丰富多彩啊TFBOYS 时代峰峻 ​​​~!.

随便看看