
1. 难以调试:由于Pig是一种数据流处理语言,一旦出现错误可能会导致整个数据流的错误,而且Pig没有提供完善的调试工具,难以快速定位错误。
2. 学习曲线较陡峭:Pig需要掌握特定的语法和函数,对于没有编程经验的人来说,学习曲线较陡峭,需要花费一定的时间和精力进行学习。
3. 执行效率较低:由于Pig是基于MapReduce模式运行的,对于一些小数据集来说,使用Pig会造成一定的性能损失。
4. 不支持实时数据处理:Pig无法处理实时数据流,需要将其转换成批处理的方式进行处理,这对于实时性要求较高的应用来说是一个较大的缺点。
5. 依赖于Hadoop:Pig依赖于Hadoop生态系统,一旦Hadoop发生变化,Pig可能会受到影响,需要进行相应的更新和调整。
Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的 *** 作使得半结构化数据变得有意义。
Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS,并允许使用类似于SQL语法进行数据查询。
Pig是一种数据流语言和运行环境,用于检索非常大的数据集。为大型数据集的处理提供了一个更高层次的抽象。Pig包括两部分:一是用于描述数据流的语言,称为Pig Latin;二是用于运行Pig Latin程序的执行环境。
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
具体步骤如下: 1、安装JAVA6(在Windows的话要装Cygwin),设置好JAVA_HOME。2、到http://hadoop.apache.org/pig/releases.html下载一个稳定的发行版(目前是0.5.0,可以在Hadoop-0.20.*上运行),解压到你的工作空间:% tar xzf pig-x.y.z.tar.gz
3、为了方便,可以把Pig的程序目录放到命令行路径里
Pig有两种模式:
一种是Local mode,也就是本地模式,这种模式下Pig运行在一个JVM里,访问的是本地的文件系统,只适合于小规模数据集,一般是用来体验Pig。而且,它并没有用到Hadoop的Local runner,Pig把查询转换为物理的Plan,然后自己去执行。
在终端下输入% pig -x local就可以进入Local模式了。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)