后端

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

1.业务背景介绍广告主和代理商通过广告投放平台来进行广告投放，由多个媒介进行广告展示，从而触达到潜在用户。整个过程中会产生各种各样的数据，比如展现数据、点击数据。其中非常重要的…

xiaozhch5
2022-06-06 • Hudi
039220
Arrow

Apache Arrow：一种适合异构大数据系统的内存列存数据格式标准

本文介绍一种内存列存数据格式：Apache Arrow，它有一个非常大的愿景：提供内存数据分析 (in-memory analytics) 的开发平台，让数据在异构大数据系统间移动…

xiaozhch5
2022-06-05
028400
Flink

StarRocks × Apache Flink：如何构建简单强大的实时数仓架构

实时数据分析正在成为企业数字化经营的核心，如何有效构建实时数据分析系统是每个企业都在面临的挑战。当前在构建实时数仓时，由于数据源的多样性，需要使用不同的采集工具，如 Flume、…

xiaozhch5
2022-06-04
078000
人工智能

国科大&港中文提出带视觉语言验证和迭代推理的Visual Grounding框架，性能SOTA，代码已开源！（CVPR2022）

本文分享 CVPR 2022 的一篇论文『Improving features Visual Grounding with Visual-Linguistic Veriﬁcatio…

xiaozhch5
2022-06-03
026800
后端

视野|隐私计算技术在数据脱敏中的应用与思考

01 前言数据被列为了与物质、土地、人力资源同样重要的基础生产要素，一个以数据驱动经济社会发展的时代悄然来临[1]。数据的价值在于流动与融合，然而近年来由于数据滥用和泄露造成…

xiaozhch5
2022-06-02
060300
Hbase

万字长文详解HBase读写性能优化

一、HBase 读优化 1. HBase客户端优化和大多数系统一样，客户端作为业务读写的入口，姿势使用不正确通常会导致本业务读延迟较高实际上存在一些使用姿势的推荐用法，这里一般需…

xiaozhch5
2022-06-01
072100
Kafka

Kafka 负载均衡在 vivo 的落地实践

vivo 互联网服务器团队-You Shuo 副本迁移是Kafka最高频的操作，对于一个拥有几十万个副本的集群，通过人工去完成副本迁移是一件很困难的事情。Cruise Contro…

xiaozhch5
2022-06-01
038000
Hudi

Hudi Transformers（转换器）

Apache Hudi提供了一个HoodieTransformer Utility，允许您在将源数据写入Hudi表之前对其进行转换。有几种开箱即用的转换器，您也可以构建自己的自定义…

xiaozhch5
2022-05-31
032110
Hudi

hudi文件大小设置

本文档将向您展示Apache Hudi如何克服可怕的小文件问题。Hudi的一个关键设计决策是避免在一开始就创建小文件，并始终编写大小适当的文件。在Hudi中有两种管理小文件的方法，…

xiaozhch5
2022-05-31
082410
网易数帆数据中台逻辑数据湖的实践

导读：本文将介绍过去15年中，网易大数据团队在应对不断涌现的新需求、新痛点的过程中，逐渐形成的一套逻辑数据湖落地方法。内容分为五部分：关于网易数帆为什么做逻辑数据湖怎么做逻辑…

xiaozhch5
2022-05-29 • Hudi
047300
Flink 1.15 新功能架构解析：高效稳定的通用增量 Checkpoint

作者｜梅源（Yuan Mei）& Roman Khachatryan 流处理系统最重要的特性是端到端的延迟，端到端延迟是指开始处理输入数据到输出该数据产生的结果所需的时间…

bajiebajie2333
2022-05-28 • Flink
038700
后端

理“ Druid 元数据”之乱

vivo 互联网大数据团队-Zheng Xiaofeng 一、背景 Druid 是一个专为大型数据集上的高性能切片和 OLAP 分析而设计的数据存储系统。由于Druid 能够同时…

xiaozhch5
2022-05-28
030700
docker搭建minio集群

分布式Minio可以让你将多块硬盘（甚至在不同的机器上）组成一个对象存储服务。由于硬盘分布在不同的节点上，分布式Minio避免了单点故障。分布式Minio有什么好处? 在大数据领…

xiaozhch5
2022-05-26 • MinIO
01.7K10
应用实践｜知乎用户画像与实时数据的架构与实践

用户画像与实时数据分析是互联网企业的数据核心。知乎数据赋能团队以 Apache Doris 为基础，基于云服务构建高响应、低成本、兼顾稳定性与灵活性的实时数据架构，同时支持实时业务…

bajiebajie2333
2022-05-26 • Doris
070400
Hudi

改进Apache Hudi的标记机制

Hudi 支持在写入操作期间对存储上未提交的数据进行全自动清理。 Apache Hudi 表中的写入操作使用标记来有效地跟踪写入存储的数据文件。在这篇博文中，我们深入探讨了现有的…

xiaozhch5
2022-05-25
040300
Pulsar

Apache Pulsar 2.10.0 版本介绍

本文翻译自 StreamNative 博客《What’s New in Apache Pulsar 2.10》，作者为李鹏辉、Dave Duggins，原文地址为 https://…

xiaozhch5
2022-05-25
030300
Doris

应用实践｜ Apache Doris 在京东客服 OLAP 中的应用实践

引言 Apache Doris 是一款开源的 MPP 分析型数据库产品，不仅能够在亚秒级响应时间即可获得查询结果，有效的支持实时数据分析，而且支持 10PB 以上的超大的数据集。相…

bajiebajie2333
2022-05-25
042400
Apache Kyuubi + Hudi在 T3 出行的深度实践

T3出行是一家基于车联网驱动的智慧出行平台，拥有海量且丰富的数据源。因为车联网数据的多样性，T3出行构建了以 Apache Hudi 为基础的企业级数据湖，提供强有力的业务支撑。而…

xiaozhch5
2022-05-24 • Hudi
073900
k8s

网易数帆对 Istio 推送的性能优化经验分享 | IstioCon 2022

在 IstioCon2022 上，网易数帆资深架构师方志恒从企业生产落地实践的视角分享了多年 Istio 实践经验，介绍了 Istio 数据模型，xDS 和 Istio 推送的关系…

xiaozhch5
2022-05-24
035100
Spark

Spark如何启动Spark Thrift Server服务

将hive的hive-site.xml文件拷贝到spark/conf文件夹中，默认情况下其端口使用的是和hive的thriftserver2端口一样的，所以可以在hive-site…

xiaozhch5
2022-05-24
01.3K00