
三种udf:(SQL里可解释的Function)
ScalarFunction
TableFunction
AggregateFunction
一、Scalar Functions 标量函数
标量函数,是指返回一个值的函数。标量函数是实现将0,1,或者多个标量值转化为一个新值。标量函数的行为就是通过evaluation方法来实现的。evaluation方法必须定义为public,命名为eval。evaluation方法的输入参数类型和返回值类型决定着标量函数的输入参数类型和返回值类型。evaluation方法也可以被重载实现多个eval。默认情况下evaluation方法的返回值类型是由flink类型抽取工具决定。对于基础类型及简单的POJOS是足够的,但是更复杂的类型,自定义类型,组合类型,会报错。这种情况下,返回值类型的TypeInformation,需要手动指定,方法是重载ScalarFunction#getResultType()。
二、Table Functions 表函数
与标量函数相似之处是输入可以0,1,或者多个参数,但是不同之处可以输出任意数目的行数。返回的行也可以包含一个或者多个列。用于联表判断条件。
在Table API中,表函数在scala语言中使用方法如下:.join(expression) 或者 .leftOuterJoin(expression),在java语言中使用方法如下:.join(String) 或者.leftOuterJoin(String)。
Join *** 作算子会使用表函数( *** 作算子右边的表)产生的所有行进行(cross) join 外部表( *** 作算子左边的表)的每一行。
leftOuterJoin *** 作算子会使用表函数( *** 作算子右边的表)产生的所有行进行(cross) join 外部表( *** 作算子左边的表)的每一行,并且在表函数返回一个空表的情况下会保留所有的outer rows。
三、Aggregation Functions 聚合函数
用户自定义聚合函数聚合一张表(一行或者多行,一行有一个或者多个属性)为一个标量的值。
对于每个AggregateFunction,下面三个方法都是比不可少的:
createAccumulator()
accumulate()
getValue()
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)