阿里云DataWorks学习之平台实践

阿里云DataWorks学习之平台实践,第1张

阿里云DataWorks学习之平台实践

在上一章中,我们介绍了DataWorks的基本组成结构,其实和我在滴滴实习时候的数梦如出一辙,但是很多其他同学可能没有接触过这一类的产品,这篇博客我将在DataWorks上通过创建项目、同步数据、编写SQL程序、配置调度任务、运维监控等环节,实现完整的数据处理流程。 对往期内容感兴趣的同学可以查看下面的内容:

hadoop专题: hadoop系列文章.spark专题: spark系列文章.阿里云系列: 阿里云MaxComputer SQL学习之DDL.阿里云系列: 阿里云MaxComputer SQL学习之DML.阿里云系列: 阿里云MaxComputer SQL学习之内置函数.

本文主要是通过实验来看看DataWorks是如何处理数据的,各种功能的说明都将以实验步骤的形式展现给大家。模拟Mysql数据库为生产系统,实现从生产系统抽取数据到MaxCompute中,进行数据自动化分析处理。

目录

1. 环境准备2. 数据同步

2.1 创建数据库2.2 上传数据到数据库2.3 ODPS中添加RDS数据源2.4 同步RDS数据到ODPS 3. 数据开发

3.1 创建开发的表3.2 新建业务流程 4. 任务运维

4.1 打开运维中心4.2 运维中心功能4.3 智能监控模块 5. 数据管理6. 总结7. 参考资料

1. 环境准备

启动DataWorks环境:

进入数据开发:

2. 数据同步 2.1 创建数据库
    选择RDS(分布式Mysql):

    找到创建的实例:

    创建数据库:(名字随便)

    创建数据库账号:(用户名和名字符合要求,一定要记住呀!)


创建成功:

    登录数据库:

2.2 上传数据到数据库
    上一节我们创建了数据库,但里面没有表和数据,所以我们在数据库里创建数据表:

    上传本地数据:

    任务调度选择执行变更


执行成功

    查看数据库中的数据:

2.3 ODPS中添加RDS数据源

这一部分是在大数据环境中配置外部数据源。

    在DataWorks中点击数据集成:

    新增数据源

    选择我们的mysql

    连接数据源:


连接成功:

2.4 同步RDS数据到ODPS

数据源配置好了,然后需要将数据导入到DataWorks中。

    DataWork中新建业务流程

    业务流程命名:

    点击离线同步

    双击节点,进行数据同步设置。

设置数据来源,选择MySQL库,rds_lab数据源,t_dml_data表。设置数据去向,选择ODPS库,odps_first数据源,点击一键生成目标表。

字段映射:

设置通道控制信息:

设置调度资源配置

设置完保存,记得一定要保存。

同步数据,设置完成后,“提交”业务流程。

提交成功后点击运行:

执行成功:

    可以预览数据表:

3. 数据开发

本小节目的是创建目标表t_dml_result,用于存储数据分析后产生的结果。

3.1 创建开发的表
    进入数据开发页面,点击“临时查询”,右键新建节点ODPS SQL;

    输入节点名字,提交:

    我们创建一张分区表

    创建成功后,在公共表中可以找到:

3.2 新建业务流程
    进入数据开发页面,展开左侧菜单,点击“数据开发”,选择“新建业务流程”;

    新建虚拟节点:打开业务流程,在“通用”中点击“虚拟节点”,输入节点名后点击“提交”。

节点命名

    在“MaxCompute”中,点击“ODPS SQL”,输入节点名称后点击“提交”。

    双击数据节点,编辑SQL语句, 点击“保存”。

    设置依赖关系

    节点间通过拖拽连线形成上下游依赖关系。

    提交业务流程

提交成功

    右击节点查看属性

4. 任务运维 4.1 打开运维中心
    DataWorks的右上角‘运维中心’

4.2 运维中心功能
    运维中心包括运维大屏、实时任务运维、周期任务运维、手动任务运维、智能监控五大模块。


任务列表分周期任务和手动任务。

周期任务:调度系统按照调度配置自动定时执行的任务。

手动任务:新建任务时,调度类型选择手动任务后,提交到调度系统的任务。

    选择左侧菜单栏中的“周期任务运维“->“周期任务”,查看已提交的周期任务。选中任务,点击鼠标右键,可执行相应 *** 作。

4.3 智能监控模块

智能监控模块在如下位置:

    智能监控监控规则

5. 数据管理
    这部分主要是在数据地图中实现

    然后查找你需要的表

    数据地图模块可进行组织内全局数据视图的查看、分权管理、元数据信息详情、数据生命周期管理、数据表/资源/函数权限管理审批等 *** 作。

6. 总结

在这一部分中,主要实现的是数据源的接入、简单的数据开发、调度任务的发布、数据地图的查看这一系列流程,博主在滴滴实习时,和这套流程一模一样,当做是又开发了一个项目吧,哈哈哈!区别在于,以前加入项目,创建表啥的都需要主管审批,但做这次的实验,权限控制需要自己来设置,也算是体验了一把拥有高级权限的感觉,大家可以看着我的过程慢慢理解!

7. 参考资料

《阿里云全球培训中心》
《阿里云DataWorks使用手册》

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zaji/5716264.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-12-17
下一篇2022-12-17

发表评论

登录后才能评论

评论列表(0条)

    保存