Flink（六）流处理 DataStream API 数据源及数据流转换算子示例_随笔

Flink（六）流处理 DataStream API 数据源及数据流转换算子示例

DataStream API 流数据处理

- 流处理基本流程
- UDF （User-Defined Functions）函数形式编程
- Data Source 数据源算子
- - 原理
  - 简单数据源
  - 自定义数据源
- Transform Operators 数据流转换算子
- - 基础转换算子
  - 数据流基础分组算子
  - 简单时间窗口算子
  - - - 滚动时间窗口 Tumbling Windows
      - 滑动事件窗口 Sliding Windows
      - 会话窗口 Session Windows
  - 流数据合并算子
- 源码地址

流处理基本流程 UDF （User-Defined Functions）函数形式编程

Flink 中 UDF 无处不在，所有接口几乎都实现了 Function 函数接口，支持 Lambda 表达式，匿名函数类，自定义函数类。大多数 *** 作都需要用户定义的函数。

在 Flink 中有四种指定用户自定义函数类的方式：

Implementing an interface 实现 Flink 提供的函数类接口
Anonymous classes 使用匿名类
Java 8 Lambdas 使用 Lambda 表达式
Extends Rich functions 继承 Flink 中提供的富函数类

Rich functions provide, in addition to the user-defined function (map, reduce, etc), four methods: open, close, getRuntimeContext, and setRuntimeContext. These are useful for parameterizing the function (see Passing Parameters to Functions), creating and finalizing local state, accessing broadcast variables (see Broadcast Variables), and for accessing runtime information such as accumulators and counters (see Accumulators and Counters), and information on iterations (see Iterations).
重要作用：

参数化函数类：即可以想函数类传递参数
创建和完成本地状态
访问广播变量
访问运行时信息，例如计数器
访问迭代信息

Data Source 数据源算子原理

核心组件：Splits（分区）, SplitEnumerator（分区枚举器）, SourceReader（数据源读取器）

Splits（分区）

表示消耗数据源的一个部分，是数据源分配work和并行读取数据的粒度

例如：一个目录下有多个文件，文件就可以作为这样的一个粒度；kafka 的 topic 也可以作为分配work和并行读取数据划分粒度

SplitEnumerator（分区枚举器）

产生 Split 分区，并将 split 分区分配给 SourceReader（数据源读取器）。SplitEnumerator 在 JM 中单例运行

SourceReader（数据源读取器）

请求一个数据源 split 分区，并处理分区中的数据。SourceReader 在 SourceOperators（数据源算子）中的 TaskManager 上并行运行（即每一个 SourceReader 在不同的 TaskSlot 中），并生成并行的流。

简单数据源

集合中获取流数据

DataStream streamSource = 
		environment.fromCollection(Arrays.asList(···))

environment.fromElements(···)

文件流

StreamExecutionEnvironment environment = 
	StreamExecutionEnvironment.getExecutionEnvironment();

    DataStream streamSource = environment
            .readTextFile("filePath")

Socket 中获取

DataStreamSource streamSourceFromSocket = executionEnvironment
	.socketTextStream("192.168.116.100", 9999);

从 Kafka 获取数据流


    org.apache.flink
    flink-connector-kafka_${scala.binary.version}
    ${flink.version}

Properties properties = new Properties();
properties.setProperty("bootstrap.servers", kafkaServers);
properties.setProperty("group.id", groupId);

DataStream

Flink（六）流处理 DataStream API 数据源及数据流转换算子示例

发表评论

评论列表（0条）