Apache Hudi结合Flink的亿级数据入湖实践解析

下面我来详细讲解一下Apache Hudi结合Flink的亿级数据入湖实践解析的完整攻略。

概述

本文主要介绍如何使用Apache Hudi和Flink实现亿级数据的入湖操作。Hudi是一个可靠的增量数据处理框架，适用于在Apache Spark等大数据处理框架上进行大数据增量计算。而Flink则是一个分布式流处理框架，具有高吞吐量和低延迟的特点。将两者结合，可以实现快速可靠的亿级数据入湖。

具体实现过程分为以下几个部分：

Hudi准备：选择存储介质、定义Schema、创建表、初始化Hudi相关配置。
Flink准备：定义Flink任务、编写读写Hudi的source、sink。
启动Flink Job且真正进行读写Hudi的操作。

Hudi准备

存储介质
本示例使用Hdfs作为存储介质，具体可参考Hudi on HDFS。
Schema定义
根据实际业务情况定义Schema，本示例中Schema如下：

{
    "type": "record",
    "name": "record",
    "namespace": "example",
    "fields": [
        {"name": "firstName", "type": "string"},
        {"name": "lastName", "type": "string"},
        {"name": "gender", "type": "string"},
        {"name": "age", "type": "int"}]
}

创建表
创建一个Hudi数据表，本示例中表名为demo_table。具体操作如下：
创建hudi-cli-tools项目（该项目可以通过Hudi download获取）；
运行如下命令创建数据表：

java -jar hudi-cli.jar \ 通过TableTypeName设置数据表类型，使用copy_on_write确定子类型并设置存储引擎，使用parquet设置数据表格式，使用hoodie.datasource.write.precombine.field为时间戳字段。 --table-type COPY_ON_WRITE \ --table-name demo_table \ --spark-master <SPARK_MASTER> \ --path <HUDI_TABLE_PATH> \ --schemaprovider-class org.apache.hudi.keygen.SimpleKeyGenerator \ --payload-class example.record \ --enable-hive-sync \ --hoodie-conf hoodie.datasource.write.recordkey.field=firstName \ --hoodie-conf hoodie.datasource.write.partitionpath.field=lastName \ --hoodie-conf hoodie.datasource.write.precombine.field=age \ --hoodie-conf hoodie.datasource.hive_sync.partition_fields=lastName \ --hoodie-conf hoodie.datasource.hive_sync.database=default \ --hoodie-conf hoodie.datasource.hive_sync.table=demo_table \ --hoodie-conf hoodie.datasource.hive_sync.enable=true \ --hoodie-conf hoodie.compaction.inline.max.delta.commits=3 \ --op CREATE
4. 初始化Hudi配置
在Flink Job中需要使用到Hudi的相关配置信息，如下所示：

val hudiConf = HoodieWriterFactory.getHudiConf(<HUDI_TABLE_PATH>, "demo_table")

Flink准备

定义Flink任务
Flink任务需要定义输入源、输出Sink等信息，同时需要设置相关的状态信息。本示例中任务如下：

```
val env = StreamExecutionEnvironment.getExecutionEnvironment

env.setParallelism(2)

val stream: DataStream[String] = env.addSource(new KafkaSource())

val hudiConf = HoodieWriterFactory.getHudiConf(, "demo_table")

stream
.map(new MapFunction<String, HoodieRecord[Object]]() {
override def map(value: String): HoodieRecord[Object] = {
// 解析数据
val data = new JSONObject(value)
// 生成HoodieKey
val key = new HoodieKey(data.getString("firstName") + data.getString("lastName") + data.getString("gender"), data.getString("firstName") + data.getString("lastName"))
// 构造HoodieRecord对象
new HoodieRecord(key, new example.record(data.getString("firstName"), data.getString("lastName"),
data.getString("gender"), data.getIntValue("age")), HoodieRecord.getCurrentTime());
}
})
.addSink(new HoodieSinkFunc(, hudiConf))

env.execute("")
```

编写读写Hudi的source、sink
在Flink任务中需要自定义读写Hudi的source、sink。具体实现方式可参考Hudi提供的Flink demo。

示例操作

接下来，我将介绍两个示例操作：

示例1：

输入数据为：

{
    "firstName": "Sam",
    "lastName": "Wu",
    "gender": "male",
    "age": 18
}

流程以及处理结果：

数据通过Kafka进入Spark进行处理。
Flink从Kafka消费数据，并将数据构造成HoodieRecord对象。
将HoodieRecord对象写入到Hudi表格中。
在Hudi表格中查询到数据并返回。

示例2：