大数据
-
干货 | 字节跳动构建Data Catalog数据目录系统的实践(上)
作为数据目录产品,Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和理解数的业务场景,并服务于数据开发和数据治理的产品体系。本文介绍…
-
Hive性能调优实战 PDF下载
基本内容 Hive作为Hadoop生态的重要组成部分,以其稳定和简单易用成为了当前企业在搭建大数据平台及构建企业级数据仓库时使用较为普遍的大数据组件之一。 目前,图书市场上关于Hi…
-
基于 Flink 的实时计算平台在新能源充电行业实践
本文介绍了特来电基于 Flink 的实时计算平台的实践。
-
Alluxio 2.8版本重磅发布!3大提升抢先打开数据新世界
Alluxio导读 全球首创的开源数据编排软件开发商Alluxio宣布正式发布数据编排平台2.8版本,新版本立即可用。 2.8版本增强了对AWS S3 REST API的接口支持;…
-
Hudi元数据表(Metadata table)解析
元数据表的作用 ApacheHudi元数据表可以显著提高查询的读/写性能。元数据表的主要目的是消除“列出文件”操作的要求。 读取和写入数据时,会执行文件列表操作,以获取文件系统的当…
-
Hudi release-0.11.0重磅发布?
hudi 0.11.0版本正式release啦,接下来跟着官网介绍看看本版本引入了哪些新的功能特性吧! 文章内容翻译自:hudi release 0.11.0 版本亮点 多模式索引…
-
Spark SQL在雪球的实践
文章来源:雪球数据团队,公众号: 雪球工程师团队 背景 因为业务需要,雪球数据团队基于HDP 3.1.5(Hadoop 3.1.1+Hive 3.1.0+Tez 0.9.1)搭建了…
-
印尼医疗龙头企业Halodoc的数据平台转型之路:基于Apache Hudi的数据平台V2.0
摘要 数据平台已经彻底改变了公司存储、分析和使用数据的方式——但为了更有效地使用它们,它们需要可靠、高性能和透明。数据在制定业务决策和评估产品或 Halodoc 功能的性能方面发挥…
-
剑指大数据——Flink学习精要(Java版)(最终修订版)PDF下载
Flink是 Apache基金会旗下的一个开源大数据处理框架。目前, Flink已经成为各大公司大数据实时处理的发力重点,特别是国内以阿里为代表的一众互联网大厂都在全力投入,为Fl…
-
OPPO数据湖统一存储技术实践
导读 OPPO是一家智能终端制造公司,有着数亿的终端用户,每天产生了大量文本、图片、音视频等非结构化数据。在保障数据连通性、实时性以及数据安全治理要求的前提下,如何低成本、高效率地…
-
Flink Sql Gateway的原理与实践
背景 我们在使用Flink开发实时任务时,都会用到框架本身提供的DataStream API,这使得用户不能不用Java或者Scala甚至Python来编写业务逻辑;这种方式虽然灵…
-
【视频】eBay 基于 Apache Kyuubi 构建统一 Serverless Spark 网关的实践
本视频来自 eBay 软件工程师、Apache Kyuubi PPMC Member王斐在Apache SeaTunnel & Kyuubi 联合 Meetup的分享,介绍…
-
eBay 基于 Apache Kyuubi 构建统一 Serverless Spark 网关的实践
本文来自 eBay 软件工程师、Apache Kyuubi PPMC Member王斐在Apache SeaTunnel & Kyuubi 联合 Meetup的分享,介绍了…
-
Presto on Apache Kafka 在 Uber的应用
本文翻译自Uber技术文章《Presto® on Apache Kafka® At Uber Scale》 Uber的目标是通过让世界运转来激发机遇,而大数据是其中非常重要的一部分…
-
Spark RDD编程指南
前言 在高层次上,每个 Spark 应用程序都包含一个驱动程序,该驱动程序运行用户的主要功能并在集群上执行各种并行操作。 Spark 提供的主要抽象是弹性分布式数据集 (RDD),…
-
HttpURLConnection获取开启kerberos的HDFS等组件的JMX信息
由于安全原因,需要对HDFS UI等端口进行限制访问,也就是配置kerberos认证,在core-site.xml文件中进行如下配置: <property> <n…
-
基于SSD的Kafka应用层缓存架构设计与实现
Kafka在美团数据平台承担着统一的数据缓存和分发的角色,针对因PageCache互相污染,进而引发PageCache竞争导致实时作业被延迟作业影响的痛点,美团基于SSD自研了Ka…
-
Apache Kyuubi及在移动云湖仓一体中的实践
分享嘉宾:姚琴 网易数帆 技术专家洪冬冬 中国移动云能力中心 软件开发工程师编辑整理:牛红艳出品平台:DataFunTalk 导读:在云原生+大数据的时代,随着业务数据量的爆炸式增…
-
【视频】Apache Kyuubi(Incubating):网易对 Serverless Spark 的探索与实践
在 Apache 首次亚洲线上技术峰会 —ApacheCon Asia 大会上,网易数帆大数据专家,Apache Kyuubi PPMC,Apache Spark / Submar…
-
Apache Kyuubi(Incubating):网易对 Serverless Spark 的探索与实践
在 Apache 首次亚洲线上技术峰会 —ApacheCon Asia 大会上,网易数帆大数据专家,Apache Kyuubi PPMC,Apache Spark / …