
你的意思是需要hadoop读取关系型数据库的数据吧,一般是安装sqoop组件,开源社区也是有一个组件,现在已经到sqoop2了,使用sqoop import或者sqoop export来和关系型数据库互相导数据
《Hadoop构建数据仓库实践》王雪迎电子书网盘下载免费在线阅读
链接:>
提取码:tpf8
书名:Hadoop构建数据仓库实践
作者名:王雪迎
豆瓣评分:83
出版社:清华大学出版社
出版年份:2017-7
页数:434
内容介绍:
本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。 本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理。
作者介绍:
王雪迎,毕业于中国地质大学计算机专业,高级工程师,拥有20年数据库、数据仓库相关技术经验。曾先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。
步骤
Hive提供了jdbc驱动,使得我们可以连接Hive并进行一些类关系型数据库的sql语句查询等 *** 作,首先我们需要将这些驱动拷贝到报表工程下面,然后再建立连接,最后通过连接进行数据查询。
拷贝jar包到FR工程
将hadoop里的hadoop-commonjar拷贝至报表工程appname/WEB-INF/lib下;
将hive里的hive-execjar、hive-jdbcjar、hive-metastorejar、hive-servicejar、libfb303jar、log4jjar、slf4j-apijar、slf4j-log4j12jar拷贝至报表工程appname/WEB-INF/lib下。
配置数据连接
启动设计器,打开服务器>定义数据连接,新建JDBC连接。
在Hive 0110版本之前,只有HiveServer服务可用,在程序 *** 作Hive之前,必须在Hive安装的服务器上打开HiveServer服务。而HiveServer本身存在很多问题(比如:安全性、并发性等);针对这些问题,Hive0110版本提供了一个全新的服务:HiveServer2,这个很好的解决HiveServer存在的安全性、并发性等问题,所以下面我们分别介绍HiveServer和HiveServer2配置数据连接的方式。
HiveServer
数据库驱动:orgapachehadoophivejdbcHiveDriver;
URL:jdbc:hive://localhost:10000/default
注:hive服务默认端口为10000,根据实际情况修改端口;另外目前只支持默认数据库名default,所有的Hive都支持。
测试连接,提示连接成功即可。
4
数据库驱动:orgapachehivejdbcHiveDriver;
URL:jdbc:hive2://localhost:10000/default
注:该连接方式只支持Hive0110及之后版本。
Hadoop不是数据库技术。Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。
以上就是关于如何使用Hadoop读写数据库全部的内容,包括:如何使用Hadoop读写数据库、《Hadoop构建数据仓库实践》epub下载在线阅读,求百度网盘云资源、如何用Hive访问Hadoop上数据等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)