从大数据到人工智能
  • 首页
  • 社区动态
  • 大数据
    • CalciteCalcite
    • HadoopHadoop
    • FlinkFlink
    • HbaseHbase
    • HudiHudi
    • HiveHive
    • KafkaKafka
    • TezTez
    • ZeppelinZeppelin
    • ZookeeperZookeeper
    • KyuubiKyuubi
  • 人工智能
  • 实用工具
  • 网址导航
  • 热搜榜
  • 电子书
登录 注册
我要投稿

hudi

hudi专题,从入门到踩坑

  1. 从大数据到人工智能首页
  2. hudi
  • 实时数仓架构在流利说的实践 Hudi

    实时数仓架构在流利说的实践

    本文目录 背景 实时数仓可以为我们带来什么 技术方案选型 数据存储方案选型 Flink 开发平台选型 维表存储方案选型 Connector 开发 实时数仓整体架构 数据开发案例 数…

    xiaozhch5 xiaozhch5
    3天前
    01300
  • Apache Hudi 0.12.2发布 Hudi

    Apache Hudi 0.12.2发布

    长期支持版本 我们的目标是维护 0.12 更长时间,并通过最新的 0.12.x 版本提供稳定版本供用户迁移。 此版本 (0.12.2) 是最新的 0.12 版本。 迁移指南 此版本…

    xiaozhch5 xiaozhch5
    2023-01-11
    04500
  • Flink写hudi报datanode异常以及解决办法 Hudi

    Flink写hudi报datanode异常以及解决办法

    问题描述 这几天在使用tpcds数据对hudi 0.12.0写入性能进行压测,发现在数据写入半小时后,即出现异常,并且程序不断重启,任务异常日志如下: 2023-01-06 18:…

    xiaozhch5 xiaozhch5
    2023-01-07
    04700
  • Hudi在兴盛优选数据湖应用中的实践 Hudi

    Hudi在兴盛优选数据湖应用中的实践

    1.背景 ◆1.1 业务背景 Hudi作为主流的数据湖产品之一,解决了Hive无法更新的场景,由于支持ACID事务能力,所以也就能够很好的支撑实时读写,这在架构上就为流批一体提供了…

    bajiebajie2333 bajiebajie2333
    2023-01-01
    07500
  • 基于Flink+Hudi在兴盛优选营销域实时数仓的实践 Hudi

    基于Flink+Hudi在兴盛优选营销域实时数仓的实践

    1.前言 什么是流处理?引用Streaming101[1]里面的一句话:一种数据处理引擎,设计时考虑了无限数据集。(为了完整性,这个定义包括真正的流式传输系统(Apache Fli…

    xiaozhch5 xiaozhch5
    2022-12-16
    05000
  • 数据湖技术在抖音近实时场景的实践 Hudi

    数据湖技术在抖音近实时场景的实践

    本文为字节跳动基于数据湖技术的近实时场景实践,主要包括以下几部分内容:数据湖技术的特性、近实时技术的架构、电商数仓实践、未来的挑战与规划。 文 | 汶园 来自字节跳动数据平台数据B…

    xiaozhch5 xiaozhch5
    2022-11-24
    04900
  • StarRocks 支持 Apache Hudi实践 后端

    StarRocks 支持 Apache Hudi实践

    近年来,随着大数据分析技术的进步,大量业务场景对数据仓库的实时性提出了更高的要求,Lakehouse 架构逐渐被各大公司熟悉和接受,Apache Hudi(以下简称 Hudi)、A…

    xiaozhch5 xiaozhch5
    2022-11-14
    07100
  • 解决spark sql读取hudi表出现偶然读不出来数据问题 Hudi

    解决spark sql读取hudi表出现偶然读不出来数据问题

    相关版本 hadoop 3.2.0 spark 3.3.0 hudi 0.12.0 问题分析 用beeline连接spark thriftserver或者kyuubi(spark …

    xiaozhch5 xiaozhch5
    2022-10-25
    06600
  • 字节跳动基于Apache Doris + Hudi的湖仓分析探索实践 Hudi

    字节跳动基于Apache Doris + Hudi的湖仓分析探索实践

    分享嘉宾:杜军令 字节跳动 大数据工程师 出品平台:DataFunTalk 导读:Doris是一种MPP架构的分析型数据库,主要面向多维分析、数据报表、用户画像分析等场景。自带分析…

    xiaozhch5 xiaozhch5
    2022-10-19
    09000
  • 解决hudi hms catalog中flink建表,spark无法写入问题 Hudi

    解决hudi hms catalog中flink建表,spark无法写入问题

    问题描述 在hudi 0.12.0版本,flink和spark都可以基于hive metastore进行元数据管理,更多信息可参考:hudi HMS Catalog指南。也就是说基…

    xiaozhch5 xiaozhch5
    2022-10-17
    015720
  • 基于Apache Hudi + MinIO 构建流式数据湖 Hudi

    基于Apache Hudi + MinIO 构建流式数据湖

    Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式,…

    xiaozhch5 xiaozhch5
    2022-10-10
    013700
  • 华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践 Hudi

    华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践

    背景 湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向。  华为云早在2020年就开始着手相关技术的预研,并落…

    xiaozhch5 xiaozhch5
    2022-10-10
    07000
  • k8s 写入hudi表快速测试指南 Hudi

    k8s 写入hudi表快速测试指南

    x## ubuntu安装nfs服务 sudo apt-get install nfs-kernel-server sudo vim /etc/exports /data1/nfs/…

    xiaozhch5 xiaozhch5
    2022-09-30
    014100
  • 字节跳动基于 Apache Hudi 构建实时数仓的实践 Hudi

    字节跳动基于 Apache Hudi 构建实时数仓的实践

    分享嘉宾:张友军 字节跳动 编辑整理:王宇翔 出品平台:DataFunTalk 导读:今天很高兴能与大家分享字节数据平台在实时数仓中的一些实践。目前在数据湖和Hudi相关的一些基本…

    bajiebajie2333 bajiebajie2333
    2022-09-27
    08600
  • 万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践 Hudi

    万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践

    1. 背景 经典场景 Flink 侧实现 业务侧通常会基于实时计算引擎在流上做多个数据源的 JOIN 产出这个宽表,但这种解决方案在实践中面临较多挑战,主要可分为以下两种情况: 1…

    bajiebajie2333 bajiebajie2333
    2022-09-27
    019200
  • 基于 Hudi 的湖仓一体技术在 Shopee 的实践 Hudi

    基于 Hudi 的湖仓一体技术在 Shopee 的实践

    目录1. Shopee 数据系统建设中面临的典型问题2. 为什么选择 Hudi3. Shopee 在 Hudi 落地过程中的实践4. 社区贡献5. 总结与展望 湖仓一体(LakeH…

    xiaozhch5 xiaozhch5
    2022-09-05
    010600
  • Apache Hudi 0.12.0版本重磅发布! Hudi

    Apache Hudi 0.12.0版本重磅发布!

    Presto-Hudi 连接器 从 PrestoDB 0.275 版本开始,用户现在可以利用原生 Hudi 连接器来查询 Hudi 表。它与 Hive 连接器中的 Hudi 支持相…

    xiaozhch5 xiaozhch5
    2022-08-23
    028400
  • 特性大PK?Hudi vs Delta Lake vs Iceberg Hudi

    特性大PK?Hudi vs Delta Lake vs Iceberg

    简介 随着 Lakehouse 的日益普及,人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚:Apache Hudi、Delta Lake 和 Apache Iceber…

    xiaozhch5 xiaozhch5
    2022-08-22
    015900
  • Flink 自定义SQL实现Hudi MOR表压缩 Flink

    Flink 自定义SQL实现Hudi MOR表压缩

    Hudi在构建流式数据湖方面具有领先地位。Flink作为真正的流处理引擎,与Hudi搭配是理所应当的事情了。但是目前Hudi MOR表压缩功能除了在线压缩以外,并不能通过SQL实现…

    xiaozhch5 xiaozhch5
    2022-08-10
    030260
  • 基于Apache Hudi的多库多表实时入湖最佳实践 Hudi

    基于Apache Hudi的多库多表实时入湖最佳实践

    1. 前言 CDC(Change Data Capture)从广义上讲所有能够捕获变更数据的技术都可以称为CDC,但本篇文章中对CDC的定义限定为以非侵入的方式实时捕获数据库的变更…

    jellyfin jellyfin
    2022-08-01
    024800
  • 1 / 5
  • 1
  • 2
  • 3
  • 4
  • 5
  • 下一页
jiao

本站热门文章

  • Typora 0.9.98免费版下载
    1.9K

    Typora 0.9.98免费版下载

  • 使用flink SQL Client将mysql数据写入到hudi并同步到hive

    使用flink SQL Client将mysql数据写入到hudi并同步到hive

    1.6K
  • Flink Table/SQL自定义Sources和Sinks全解析(附代码)

    Flink Table/SQL自定义Sources和Sinks全解析(附代码)

    1.4K
  • flink写入数据到hudi的四种方式

    flink写入数据到hudi的四种方式

    1.3K
  • Flink DataStream API与Data Table API/SQL集成

    Flink DataStream API与Data Table API/SQL集成

    1.3K
从大数据到人工智能
  • 快讯
  • 本站丛书
  • 联系我们

Copyright © 2023 个人纪录 版权所有 粤ICP备18138680号 Powered by 个人纪录

微信支付
请使用 微信 扫码支付