使用hive查询从hudi同步的表需要注意的问题

在hive cli或者beeline执行查询任务时，需要做如下指定：

set hive.input.format = org.apache.hudi.hadoop.hive.HoodieCombineHiveInputFormat;

如果没有做如下指定，有可能会得到错误结果或者执行错误。例如，有100000条数据，用flink查返回正确结果，
但是在hive中，如果不做上述指定，返回了162766的结果，明显这个结果是错误的。

在0.9.0版本中，在使用flink将数据写入hudi mor表并同步到hive时，hive中默认情况下会有两张表，一张是rt表，另一张是ro表。
在做count操作时，ro表可以查询到正确结果，rt表目前还不支持此操作。

在同步时候，可以设置hive_sync.skip_ro_suffix参数为true，不生成ro表。

checkpoint interval

0 0 投票数

文章评分

本文为从大数据到人工智能博主「xiaozhch5」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。

原文链接：https://lrting.top/backend/2072/