
分享大数据学习路线:
第一阶段为JAVASE+MYSQL+JDBC
主要学习一些Java语言的概念,如字符、bai流程控制、面向对象、进程线程、枚举反射等,学习MySQL数据库的安装卸载及相关 *** 作,学习JDBC的实现原理以及Linux基础知识,是大数据刚入门阶段。
第二阶段为分布式理论简介主要讲解CAP理论、数据分布方式、一致性、2PC和3PC、大数据集成架构。涉及的知识点有Consistency一致性、Availability可用性、Partition
tolerance分区容忍性、数据量分布、2PC流程、3PC流程、哈希方式、一致性哈希等。
第三阶段为数据存储与计算(离线场景)主要讲解协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集flume、数据采集logstash、数据同步Sqoop(05T)、数据同步datax(05T)、数据同步mysql-binlog(1T)、计算模型MR与DAG(1T)、hive(5T)、Impala(1T)、任务调度Azkaban、任务调度airflow等。
第四部分为数仓建设主要讲解数仓仓库的历史背景、离线数仓项目-伴我汽车(5T)架构技术解析、多维数据模型处理kylin(35T)部署安装、离线数仓项目-伴我汽车升级后加入kylin进行多维分析等;
第五阶段为分布式计算引擎主要讲解计算引擎、scala语言、spark、数据存储hbase、redis、kudu,并通过某p2p平台项目实现spark多数据源读写。
第六阶段为数据存储与计算(实时场景)主要讲解数据通道Kafka、实时数仓druid、流式数据处理flink、SparkStreaming,并通过讲解某交通大数让你可以将知识点融会贯通。
第七阶段为数据搜索主要讲解elasticsearch,包括全文搜索技术、ES安装 *** 作、index、创建索引、增删改查、索引、映射、过滤等。
第八阶段为数据治理主要讲解数据标准、数据分类、数据建模、图存储与查询、元数据、血缘与数据质量、Hive Hook、Spark Listener等。
第九阶段为BI系统主要讲解Superset、Graphna两大技术,包括基本简介、安装、数据源创建、表 *** 作以及数据探索分析。
第十阶段为数据挖掘主要讲解机器学习中的数学体系、Spark Mlib机器学习算法库、Python scikit-learn机器学习算法库、机器学习结合大数据项目。
对大数据分析有兴趣的小伙伴们,不妨先从看看大数据分析书籍开始入门!B站上有很多的大数据教学视频,从基础到高级的都有,还挺不错的,知识点讲的很细致,还有完整版的学习路线图。也可以自己去看看,下载学习试试。分享一篇看到的博文吧,共勉!
一直都很欣赏《钢铁是怎样炼成的》中保尔的顽强拼搏精神,在今年上半年数据库系统工程师的考试中,我也凭着自己的顽强奋斗顺利地通过了。相对于那些屡败屡
战的网友而言,我的软考路程就简单且顺利得多了,因为这是我第一次参加软考,而且是一次通过。通过了软考,心中感触自然颇多,感触最深的就是,软考对我而
言,收获的不只是知识和证书,更多的是一段奋斗的历程。
我想这次数据库系统工程师能够顺利通过主要得益于我的复习计划和坚持。实践证明我的复习计划是可行的,下面给大家具体讲讲,希望对那些正准备报考的朋友有所帮助。
首先,复习计划概括。
总的来说,这次复习我大概用了2个月的时间,平均每天看书3个小时,当然大家可以根据自己的效率适当调整,其中上午考试知识复习用了52天的时间,下午考
试知识复习用了8天时间,因为下午考试知识主要是关于数据库设计方面的,这在上午有十几个题目是牵涉数据库的,而且下午考试知识比较集中,所以下午考试知
识复习时间要少些。
其次,上午知识点复习。
上午知识点的复习我采用三轮复习法。第一轮为系统复习,对上午知识点,如:计算机网络, *** 作系统,数据结构,多媒体,编译原理,数据库,计算机体系结构
等,以计算机专业相关课程教材为复习课本,每2-3天复习一个知识点,各个击破,全面,仔细,系统地进行复习,大概用了30天时间;第二轮为巩固复习,以希赛网编写的考点精解,及清华大学出版社出版的数据库系统工程师教程为
复习课本,进行复习,本次复习主要对识点的巩固,以及对出题的方向及难易程度有个基本了解,大概用了12天时间;第三轮复习为提高复习,主要复习各知识点
的重难点知识,多做历年真题,并可以尝试猜题,大概用了10天时间。经过这三轮复习你应该对上午知识点熟练掌握,形成系统。
再次,下午知识点复习。
对于下午知识的复习,我是以张友生,李成主编的《《数据库系统工程师考试考点分析与真题祥解(数据库设计与管理)》一本为复习课本。下午知识比较集中,就是那几个主要考点,比如:数据流图,SQL语句,E-R图,数据库概念结构设计,事物并发控制等,对于这些考点,首先要熟练掌握其理论知识,然后多做真题,通过真题,例题来扩充和巩固知识。
第四,复习中的技巧。
一,真题是宝,要多做真题;二,要看一门,就把这门坚持看完,不要这门看一下,那门看一下,以免打断思维,并在看完后,要认真回顾和总结;三,要换位思
考,通过历年真题的练习,试着揣摩出题者的风格和重点,并把自己当成出题者,用这种思维预测试题;四,要突出重点,有些年年都是考试重点的,要重点掌握;
五,掌握最近试题的变化,比如最近这两次数据结构知识都没有牵涉等。
最后,最重要的就是坚持和脚踏实地了。再好的计划也需要你一步一步脚踏实地的坚持下来才能实现。每天脚踏实地地完成一点,一段时间,你会发现这件事你已经完成了,你脚踏实地地完成一件件小事,一段时间你会发现,你成就了一件大事。
只要你具备一定的计算机基础,再加上一个完整的学习计划,及脚踏实地地坚持,那么你的数据库系统工程师就炼成了!
大数据本质是一种概念,既数据体量大、数据格式复杂、数据来源广。而数据库则是一种具体的计算机技术,用来存储数据,常见的数据库有Mysql数据库、Oracle数据库等,底层还是基于磁盘来进行存储。
从大数据在引申出来的技术,比如数据量大的情况,怎么存储数据,以及怎么对这些数据进行加工处理。像现在HBase大数据组件,主要是针对大数据存储的,HadoopMapReduce计算框架、Spark计算框架等,则是针对大数据计算的。
大数据与数据库之间的关系,从大数据涉及到的技术中,包括数据库技术。因为在大数据情况下,也需要存储这些数据,此时就需要使用到数据库。当然,大数据技术存储数据不仅仅能够使用到数据库,还可以使用分布式文件系统,比如HDFS分布式文件系统,亚马逊的S3等。
同时,在大数据所涉及到的技术中,也包括了大数据计算、数据的展示等等。所以从技术领域来区分,大数据的技术会更广,而数据库技术则是更加的具体,就是用来存储数据。
目前在国内互联网公司而言,大数据方面数据库使用最多的还是HBase列式数据库。比如阿里巴巴,其内部有很多使用HBase列式数据库的场景。HBase数据库支持水平扩展,同时由于其采用LSM架构,天然的对数据写入支持非常好,因为是对磁盘进行追加写的模式,这比对内存随机写要更加的快速。
不仅仅是阿里,像在小米其实也有很多使用HBase列式数据库的场景,当然,其他小公司也在使用。所以在未来,我认为HBase列式数据库的发展前景非常好,毕竟也有互联网大厂在使用,开源社区方面也有它们在推动发展。如果你想学习一门大数据方面的数据库技术的话,我推荐你可以学习HBase。
我是Lake,专注大数据技术原理、人工智能、数据库技术、程序员经验分享,如果我的问答对你有帮助的话,希望你能点赞
以上就是关于大数据学习路线有推荐吗怎么学比较容易全部的内容,包括:大数据学习路线有推荐吗怎么学比较容易、2015 软考数据库系统工程师经验分享!!!、大数据库和数据库到底有什么区别和联系等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)