从大数据到人工智能
  • 首页
  • 社区动态
  • 大数据
    • CalciteCalcite
    • HadoopHadoop
    • FlinkFlink
    • HbaseHbase
    • HudiHudi
    • HiveHive
    • KafkaKafka
    • TezTez
    • ZeppelinZeppelin
    • ZookeeperZookeeper
    • KyuubiKyuubi
  • 人工智能
  • 实用工具
  • 网址导航
  • 热搜榜
  • 电子书
登录 注册
我要投稿

hudi

hudi专题,从入门到踩坑

  1. 从大数据到人工智能首页
  2. hudi
  3. 第2页
  • 基于 Hudi 的湖仓一体技术在 Shopee 的实践 Hudi

    基于 Hudi 的湖仓一体技术在 Shopee 的实践

    目录1. Shopee 数据系统建设中面临的典型问题2. 为什么选择 Hudi3. Shopee 在 Hudi 落地过程中的实践4. 社区贡献5. 总结与展望 湖仓一体(LakeH…

    xiaozhch5 xiaozhch5
    2022-09-05
    039700
  • Apache Hudi 0.12.0版本重磅发布! Hudi

    Apache Hudi 0.12.0版本重磅发布!

    Presto-Hudi 连接器 从 PrestoDB 0.275 版本开始,用户现在可以利用原生 Hudi 连接器来查询 Hudi 表。它与 Hive 连接器中的 Hudi 支持相…

    xiaozhch5 xiaozhch5
    2022-08-23
    064200
  • 特性大PK?Hudi vs Delta Lake vs Iceberg Hudi

    特性大PK?Hudi vs Delta Lake vs Iceberg

    简介 随着 Lakehouse 的日益普及,人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚:Apache Hudi、Delta Lake 和 Apache Iceber…

    xiaozhch5 xiaozhch5
    2022-08-22
    046800
  • Flink 自定义SQL实现Hudi MOR表压缩 Flink

    Flink 自定义SQL实现Hudi MOR表压缩

    Hudi在构建流式数据湖方面具有领先地位。Flink作为真正的流处理引擎,与Hudi搭配是理所应当的事情了。但是目前Hudi MOR表压缩功能除了在线压缩以外,并不能通过SQL实现…

    xiaozhch5 xiaozhch5
    2022-08-10
    056860
  • 基于Apache Hudi的多库多表实时入湖最佳实践 Hudi

    基于Apache Hudi的多库多表实时入湖最佳实践

    1. 前言 CDC(Change Data Capture)从广义上讲所有能够捕获变更数据的技术都可以称为CDC,但本篇文章中对CDC的定义限定为以非侵入的方式实时捕获数据库的变更…

    jellyfin jellyfin
    2022-08-01
    089100
  • Apache Hudi中文社区技术交流会重磅来袭(7.28 10:00 - 11:00) Hudi

    Apache Hudi中文社区技术交流会重磅来袭(7.28 10:00 – 11:00)

    Apache Hudi中文社区技术交流会将在北京时间2022.07.28号 上午10:00 到 11:00 开播,交流会特邀了来自Onehouse、字节跳动和阿里云的小伙伴分享Ap…

    xiaozhch5 xiaozhch5
    2022-07-27
    045500
  • 基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南 Hudi

    基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南

    Apache Hudi 是一种流行的开源 Lakehouse 技术,在大数据社区中迅速发展。如果您在 AWS 上构建了数据湖和数据工程平台,您可能已经听说过或使用过 Apache …

    bajiebajie2333 bajiebajie2333
    2022-07-25
    022600
  • hudi HMS Catalog尝鲜指南 Hudi

    hudi HMS Catalog尝鲜指南

    hudi支持HMS catalog啦! 功能亮点:当flink和spark同时接入hive metastore时,用hive metastore对hudi的元数据进行管理,无论是使…

    xiaozhch5 xiaozhch5
    2022-07-04
    61.8K20
  • Flink CDC + Hudi 海量数据入湖在顺丰的实践 Flink

    Flink CDC + Hudi 海量数据入湖在顺丰的实践

    摘要:本文整理自顺丰大数据研发工程师覃立辉在 5月 21 日 Flink CDC Meetup 的演讲。主要内容包括: 顺丰数据集成背景 Flink CDC 实践问题与优化 未来规…

    maolv, xiao maolv, xiao
    2022-06-26
    033300
  • hudi时间旅行查询完整版 Hudi

    hudi时间旅行查询完整版

    本文从头开始讲述使用Flink引擎实现hudi数据湖基于commit_time的查询语义。基本使用可参考前面文章hudi时间旅行查询 基本要求: 有一台机器部署docker用于安装…

    xiaozhch5 xiaozhch5
    2022-06-22
    058110
  • hudi时间旅行查询 Hudi

    hudi时间旅行查询

    hudi每次数据写入时都会生成一个时间戳,用于表示数据写入的时间,基于该特性,在进行数据查询时可使用该时间对hudi中数据进行查询。 使用flink引擎查询时可指定如下参数 &#8…

    xiaozhch5 xiaozhch5
    2022-06-20
    11.6K10
  • hudi表流式regular inner join关联写入宽表实践 Hudi

    hudi表流式regular inner join关联写入宽表实践

    基本环境 mysql 5.7 hadoop 3.2.2 flink 1.14.4 hudi 0.11.0 flink-cdc-mysql 2.2 操作步骤 使用flink cdc将…

    xiaozhch5 xiaozhch5
    2022-06-16
    037150
  • 干货 | 实时数据湖在字节跳动的实践 Hudi

    干货 | 实时数据湖在字节跳动的实践

    文 | 诗旻  来自字节跳动数据平台数据湖团队 对实时数据湖的解读 数据湖的概念是比较宽泛的,不同的人可能有着不同的解读。这个名词诞生以来,在不同的阶段被赋予了不同的含义。 数据湖…

    xiaozhch5 xiaozhch5
    2022-06-15
    032900
  • B站增量数据湖探索与实践 Hudi

    B站增量数据湖探索与实践

    本期作者 周晖栋 哔哩哔哩资深开发工程师 目前主要负责B站实时团队增量数仓、Hudi数据湖方向。 黄靖 哔哩哔哩资深开发工程师 专注于实时计算相关大数据技术,目前负责Hudi数据湖…

    xiaozhch5 xiaozhch5
    2022-06-10
    048900
  • B站基于Iceberg的湖仓一体架构实践

    背景 在B站,每天都有PB级的数据注入到大数据平台,经过离线或实时的ETL建模后,提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据,如何高效低成本地满足下游数据的分析需…

    xiaozhch5 xiaozhch5
    2022-06-09 • 后端
    080100
  • BiliBili使用Apache Hudi基于拉链表的全量表极限存储优化方案 Hudi

    BiliBili使用Apache Hudi基于拉链表的全量表极限存储优化方案

    01 背景 2020年以来,半导体生产不足,这个问题困扰着全世界。互联网企业高度依赖于网络基础设施和服务器设施,没有半导体就没有满足个人需要的个人电子消费品,也就没有蓬勃发展的互联…

    xiaozhch5 xiaozhch5
    2022-06-08
    01.1K00
  • hudi 键的生成(Key Generation) Hudi

    hudi 键的生成(Key Generation)

    Hudi中的每条记录都由一个主键唯一标识,主键是用于记录所属的记录键和分区路径的参数。使用主键,Hudi可以强制a)分区级唯一性完整性约束b)允许快速更新和删除记录。应该明智地选择…

    xiaozhch5 xiaozhch5
    2022-06-07
    01.2K20
  • 腾讯广告业务基于Apache Flink + Hudi的批流一体实践

    1.业务背景介绍 广告主和代理商通过广告投放平台来进行广告投放,由多个媒介进行广告展示 ,从而触达到潜在用户。整个过程中会产生各种各样的数据,比如展现数据、点击数据。其中非常重要的…

    xiaozhch5 xiaozhch5
    2022-06-06 • Hudi
    037520
  • Hudi Transformers(转换器) Hudi

    Hudi Transformers(转换器)

    Apache Hudi提供了一个HoodieTransformer Utility,允许您在将源数据写入Hudi表之前对其进行转换。有几种开箱即用的转换器,您也可以构建自己的自定义…

    xiaozhch5 xiaozhch5
    2022-05-31
    031610
  • hudi文件大小设置 Hudi

    hudi文件大小设置

    本文档将向您展示Apache Hudi如何克服可怕的小文件问题。Hudi的一个关键设计决策是避免在一开始就创建小文件,并始终编写大小适当的文件。在Hudi中有两种管理小文件的方法,…

    xiaozhch5 xiaozhch5
    2022-05-31
    079610
  • 2 / 5
  • 上一页
  • 1
  • 2
  • 3
  • 4
  • 5
  • 下一页
jiao

本站热门文章

  • Typora 0.9.98免费版下载
    4.4K

    Typora 0.9.98免费版下载

  • Kyuubi基本安装与使用指南

    Kyuubi基本安装与使用指南

    3.5K
  • 剑指大数据——Flink学习精要(Java版)(最终修订版)PDF下载

    剑指大数据——Flink学习精要(Java版)(最终修订版)PDF下载

    2.9K
  • VMware虚拟机下ubuntu磁盘扩容(亲测有效)

    VMware虚拟机下ubuntu磁盘扩容(亲测有效)

    2.6K
  • Flink Table/SQL自定义Sources和Sinks全解析(附代码)

    Flink Table/SQL自定义Sources和Sinks全解析(附代码)

    2.2K
从大数据到人工智能
  • 快讯
  • 本站丛书
  • 联系我们

Copyright © 2023 个人纪录 版权所有 粤ICP备18138680号 Powered by 个人纪录

微信支付
请使用 微信 扫码支付