大数据

spark sql运维，spark ui你必须看得懂！

Apache Spark 提供了一套 web 用户界面（UI），可以用来监控 Spark 集群的状态和资源消耗情况。本文翻译自spark UI官方文档：https://spark.…

xiaozhch5
2024-11-01 • Spark
032210
释放大数据的潜力：基于kyuubi + spark + celeborn在 Kubernetes 上构建高效的计算集群入门

在大数据处理领域，如何高效地管理和分析海量数据是每个企业都面临的挑战。Kyuubi 和 Apache Spark 是广泛应用的大数据处理工具，而 Celeborn 则作为 Spar…

xiaozhch5
2024-11-01 • Spark
025600
paimon

spark使用apache paimon入门

在之前的文章，我们说到flink写入paimon入门，本文则使用spark引擎进行操作。组件版本 paimon 0.9.0hadoop 3.3.4hive 3.1.3spark …

xiaozhch5
2024-09-23
045600
flink使用apache paimon入门

数据湖作为统一、灵活且可扩展的数据存储平台，对于提高数据分析效率、降低成本、增强数据治理和推动企业数字化转型具有核心价值，是实现数据驱动决策和业务创新的基石。 Apache Pai…

xiaozhch5
2024-09-23 • paimon
020310
后端

使用 Kubernetes 进行蓝绿部署

蓝绿部署是一种用于设置两个相同环境的软件部署技术。服务实时流量的活动环境称为蓝色环境，空闲环境称为绿色环境。新版本软件部署在绿色环境中，经过测试验证正常后，流量从蓝色环境转移到…

xiaozhch5
2023-08-29
016500
后端

Harbor镜像仓库安装指南

总览 Harbor 是一个开源的企业级容器镜像注册中心和仓库管理系统。它提供了一个安全可靠的平台，用于存储、分发和管理容器镜像。以下是 Harbor 的基本介绍：容器镜像注册中心…

xiaozhch5
2023-08-29
021800
Alluxio

Alluxio权限体系

该文档介绍Alluxio安全性相关的的功能。身份验证: 如果alluxio.security.authentication.type=SIMPLE(默认情况下)， Alluxio…

xiaozhch5
2023-08-03
019800
Flink

Flink SQL Gateway提交任务到flink on k8s集群

Flink SQL Gateway是一项允许多个客户端从远程并发执行 SQL 的服务。它提供了一种简单的方法来提交 Flink 作业、查找元数据并在线分析数据。在Flink 1.…

xiaozhch5
2023-07-16
064300
后端

腾讯大数据平台大脑AI探索与实践

导读近年来大数据业务规模迅速增长，为大数据平台运营治理带来了新的挑战：海量大数据任务的治理，缺乏统一、标准的数据与评估模型和治理工具，难以支持对大数据任务执行效率、稳定性等进行持…

xiaozhch5
2023-07-15
024200
Hudi

加速LakeHouse ACID Upsert的新写时复制方案

概述随着存储表格式 Apache Hudi、Apache Iceberg 和 Delta Lake 的发展，越来越多的公司正在这些格式的基础上构建其 Lakehouse，以用于许…

xiaozhch5
2023-07-15
020000
后端

debezium采集MySQL CDC指南

Debezium 是一个开源的分布式平台，用于捕获数据库的变更数据（Change Data Capture，CDC）。它支持多种数据库，包括 MySQL。下面我们详细说一下如何进行…

xiaozhch5
2023-07-12
035000
Spark

Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

作者：张凯@阿里云、陳韋廷@Intel、周渊@Intel 一、简介 Apache Celeborn(Incubating) 是阿里云捐赠给 Apache 的通用 Remote Sh…

xiaozhch5
2023-07-10
033700
后端

还不知道Java类加载机制，你算白学了

1 前言在Java的世界里，每一个类或者接口，在经历编译器后，都会生成一个个.class文件。类加载机制指的是将这些.class文件中的二进制数据读入到内存中，并对数据进行校验，…

jetty
2023-07-07
020200
后端

《数据库发展研究报告（2023年）》正式发布，文末附下载方式

7月4日，2023可信数据库发展大会（以下称“大会”）主论坛在北京国际会议中心成功召开。大会以“自主创新引领”为主题，邀请行业内近百位演讲专家围绕数据库技术、产业和生态热点进行…

xiaozhch5
2023-07-04
021210
后端

一天一个Apache项目分享之Apache AGE

Apache AGE (incubating)是一个图形数据库，基于PostgreSQL，实现了openCypher查询语言。AGE代表”A Graph Extensi…

xiaozhch5
2023-06-28
048000
Flink

流批一体的近实时数仓的思考与设计

摘要：基于对数据时间旅行的思考，引出了对目前三种数仓形态和两种数仓架构的思考。结合数据湖在 Flink 的应用和数据湖元数据类型的思考，探索了基于数据湖的 Flink SQL 流批…

bajiebajie2333
2023-06-25
029500
Flink

Flink DataStream数据源

当前页面所描述的是 Flink 的 Data Source API 及其背后的概念和架构。如果您对 Flink 中的 Data Source 如何工作感兴趣，或者您想实现一个新的…

bajiebajie2333
2023-06-25
024100
Hudi

flink datastream api实现数据实时写入hudi

Apache Hudi（发音为“hoodie”）是下一代流数据湖平台。 Apache Hudi 将核心仓库和数据库功能直接引入数据湖。 Hudi 提供表、事务、高效的更新插入/删除…

xiaozhch5
2023-06-21
045400
后端

持续降本：B站日志平台3.0演进之路

本期作者季俊宇哔哩哔哩高级开发工程师李锐哔哩哔哩资深开发工程师背景基于ClickHouse的Billions2.0日志方案上线后（B站基于Clickhouse的下一代日…

xiaozhch5
2023-06-21
026700
k8s

k8s日志收集组件 Grafana loki — 快速安装

grafana提供了基于loki的完整安装模式，可基于helm3实现在k8s上完整部署。具体安装与快速使用方式如下所示。上手指南添加loki-stack仓库 helm repo…

xiaozhch5
2023-06-20
061400

1 / 31
1
2
3
4
5
6
下一页