后端

后端

干货 | 字节跳动构建Data Catalog数据目录系统的实践（下）

作为数据目录产品，Data Catalog 通过汇总技术和业务元数据，解决大数据生产者组织梳理数据、数据消费者找数和理解数的业务场景，并服务于数据开发和数据治理的产品体系。本文介绍…

xiaozhch5
2022-05-08
041400
后端

干货 | 字节跳动构建Data Catalog数据目录系统的实践（上）

作为数据目录产品，Data Catalog 通过汇总技术和业务元数据，解决大数据生产者组织梳理数据、数据消费者找数和理解数的业务场景，并服务于数据开发和数据治理的产品体系。本文介绍…

xiaozhch5
2022-05-08
154600
后端

隐私技术技术是什么？它怎样保护我们的隐私安全？

01 隐私安全保护面临的挑战数据在为人们的生活带来了种种便利的同时，也使得大家对个人数据隐私和安全产生了担忧，这俨然已经成为世界性的问题。如何才能在遵循法规的要求下，既充分发挥…

bajiebajie2333
2022-05-07
089200
Hive

Hive性能调优实战 PDF下载

基本内容 Hive作为Hadoop生态的重要组成部分，以其稳定和简单易用成为了当前企业在搭建大数据平台及构建企业级数据仓库时使用较为普遍的大数据组件之一。目前，图书市场上关于Hi…

jetty
2022-05-07
02.0K00
Flink

基于 Flink 的实时计算平台在新能源充电行业实践

本文介绍了特来电基于 Flink 的实时计算平台的实践。

xiaozhch5
2022-05-06
057800
Alluxio

Alluxio 2.8版本重磅发布！3大提升抢先打开数据新世界

Alluxio导读全球首创的开源数据编排软件开发商Alluxio宣布正式发布数据编排平台2.8版本，新版本立即可用。 2.8版本增强了对AWS S3 REST API的接口支持；…

xiaozhch5
2022-05-06
042830
Hudi

Hudi元数据表（Metadata table)解析

元数据表的作用 ApacheHudi元数据表可以显著提高查询的读/写性能。元数据表的主要目的是消除“列出文件”操作的要求。读取和写入数据时，会执行文件列表操作，以获取文件系统的当…

xiaozhch5
2022-05-06
01.5K00
后端

【免费领取】阿里技术资料解密，100 本电子书找全了

重磅！本文涵盖开发与运维、大数据与AI等100本专题书籍下载地址！

xiaozhch5
2022-05-04
031700
Hudi

Hudi release-0.11.0重磅发布?

hudi 0.11.0版本正式release啦，接下来跟着官网介绍看看本版本引入了哪些新的功能特性吧！文章内容翻译自：hudi release 0.11.0 版本亮点多模式索引…

xiaozhch5
2022-05-03
060500
Spark

Spark SQL在雪球的实践

文章来源：雪球数据团队，公众号：雪球工程师团队背景因为业务需要，雪球数据团队基于HDP 3.1.5(Hadoop 3.1.1+Hive 3.1.0+Tez 0.9.1)搭建了…

xiaozhch5
2022-05-01
089700
后端

centos7安装达梦数据库DM8安装指南

安装包下载：https://eco.dameng.com/download/ 安装文档参考：https://eco.dameng.com/docs/zh-cn/start/inst…

xiaozhch5
2022-04-27
01.0K20
Hudi

印尼医疗龙头企业Halodoc的数据平台转型之路：基于Apache Hudi的数据平台V2.0

摘要数据平台已经彻底改变了公司存储、分析和使用数据的方式——但为了更有效地使用它们，它们需要可靠、高性能和透明。数据在制定业务决策和评估产品或 Halodoc 功能的性能方面发挥…

jellyfin
2022-04-27
028200
Flink

剑指大数据——Flink学习精要（Java版）（最终修订版）PDF下载

Flink是 Apache基金会旗下的一个开源大数据处理框架。目前， Flink已经成为各大公司大数据实时处理的发力重点，特别是国内以阿里为代表的一众互联网大厂都在全力投入，为Fl…

xiaozhch5
2022-04-26
03.0K20
Java

Spring boot教程离线版 PDF下载

Spring框架是 Java 平台的⼀个开源的全栈（Full-stack）应⽤程序框架和控制反转容器实现，⼀般被直接称为Spring。该框架的⼀些核⼼功能理论上可⽤于任何Java应…

xiaozhch5
2022-04-24
090500
Hudi

OPPO数据湖统一存储技术实践

导读 OPPO是一家智能终端制造公司，有着数亿的终端用户，每天产生了大量文本、图片、音视频等非结构化数据。在保障数据连通性、实时性以及数据安全治理要求的前提下，如何低成本、高效率地…

xiaozhch5
2022-04-23
071000
Flink

Flink Sql Gateway的原理与实践

背景我们在使用Flink开发实时任务时，都会用到框架本身提供的DataStream API，这使得用户不能不用Java或者Scala甚至Python来编写业务逻辑；这种方式虽然灵…

jetty
2022-04-22
066710
Kyuubi

【视频】eBay 基于 Apache Kyuubi 构建统一 Serverless Spark 网关的实践

本视频来自 eBay 软件工程师、Apache Kyuubi PPMC Member王斐在Apache SeaTunnel & Kyuubi 联合 Meetup的分享，介绍…

xiaozhch5
2022-04-21
159200
Kyuubi

eBay 基于 Apache Kyuubi 构建统一 Serverless Spark 网关的实践

本文来自 eBay 软件工程师、Apache Kyuubi PPMC Member王斐在Apache SeaTunnel & Kyuubi 联合 Meetup的分享，介绍了…

xiaozhch5
2022-04-21
274900
Kafka

Presto on Apache Kafka 在 Uber的应用

本文翻译自Uber技术文章《Presto® on Apache Kafka® At Uber Scale》 Uber的目标是通过让世界运转来激发机遇，而大数据是其中非常重要的一部分…

bajiebajie2333
2022-04-17
087600
Spark

Spark RDD编程指南

前言在高层次上，每个 Spark 应用程序都包含一个驱动程序，该驱动程序运行用户的主要功能并在集群上执行各种并行操作。 Spark 提供的主要抽象是弹性分布式数据集 (RDD)，…

bajiebajie2333
2022-04-16
039200