
(sc)sqlContext:org.apache.spark.sql.SQLContext=org.apache.spark.sql.SQLContext@6cd1ee scala>val url="jdbc:mysql://slave02:3306/testdb?use..
在 *** 作数据库时会将两个或多个数据表关联起来通过一些条件筛选数据,在关联表时我们要遵循原则,这样会在效率上快很多。
mysql中主要使用limit来取指定条数的记录,select * from bookInfo limit 0,10
0:表示从第0条记录开始
10:表示查询10条
DataSourceAPI就是如何从存储系统进行读写的相关API接口。一般而言,DataSourceAPI应该是比较底层的API,但是这个版本的DataSourceAPI依赖了上层的API,比如SQLContext、DataFrame以及RDD等。在Spark2.0中,SQLContext已经被遗弃了,逐渐被SparkSession替代,同理,DataFrame也被DatasetAPI取代。但是Spark无法更新数据源API以反映这些变化。我们可以看到高层次的API随着时间的推移而发展。较低层次的数据源API依赖于高层次的API不是一个好主意。如果我们想添加其他优化,比如添加limiy优化,那么我们需要添加其他接口:
buildScan(limit)
buildScan(limit,requiredCols)
buildScan(limit,filters)
buildScan(limit,requiredCols,filters)
缺乏对列式存储读取的支持从上面的buildScanAPI可以看出,Spark数据源进支持以行式的形式读取数据。即使Spark内部引擎支持列式数据表示,它也不会暴露给数据源。但是我们知道使用列式数据进行分析会有很多性能提升,所以Spark完全没必要读取列式数据的时候把其转换成行式,然后再再Spark里面转换成列式进行分析。缺乏分区和排序信息物理存储信息(例如,分区和排序)不会从数据源传递到Spark计算引擎,因此不会在Spark优化器中使用。这对于像HBase/Cassandra这些针对分区访问进行了优化的数据库来说并不友好。在DataSourceV1API中,当Spark从这些数据源读取数据时,它不会尝试将处理与分区相关联,这将导致性能不佳。写 *** 作不支持事务当前的写接口非常通用。它的构建主要是为了支持在HDFS等系统中存储数据。但是像数据库这样更复杂的Sink需要更多地控制数据写入。例如,当数据部分写入数据库并且作业出现异常时,Spark数据源接口将不会清理这些行。这个在HDFS写文件不存在这个问题,因为写HDFS文件时,如果写成功将生成一个名为_SUCCESS的文件,但是这种机制在数据库中是不存在的。在这种情况下,会导致数据库里面的数据出现不一致的状态。这种情况通常可以引入事务进行处理,但是DataSourceV1版本不支持这个功能。不支持流处理越来越多的场景需要流式处理,但是DataSourceAPIV1不支持这个功能,这导致想Kafka这样的数据源不得不调用一些专用的内部API或者独自实现。正是因为DataSourceAPIV1的这些缺点和不足,引入DataSourceAPIV2势在必行。DataSourceAPIV2为了解决DataSourceV1的一些问题,从ApacheSpark2.3.0版本开始,社区引入了DataSourceAPIV2,在保留原有的功能之外,还解决了DataSourceAPIV1存在的一些问题,比如不再依赖上层API,扩展能力增强。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)