大数据
-
字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化(1)
目前字节跳动中国区 MQ dump 例行任务数巨大,日均处理流量在 PB 量级。巨大的任务量和数据量对 MQ dump 的稳定性以及准确性带来了极大的挑战。 本文主要介绍 DTS …
-
Apache Drill 专为Hadoop、NoSQL和云存储设计的Schema-free类型的SQL引擎
Apache Drill是一款开源的数据探索工具,一个分布式SQL查询和分析引擎。它包含了很多专有的设计,来进行高性能分析,支持半结构化数据源(JSON、XML和日志等)和基于应用…
-
如何在容器中避免CPU瓶颈限制
在 Uber,所有有状态的工作负载都运行在一个跨大型主机的通用容器化平台上。有状态工作负载包括 MySQL®、Apache Cassandra®、ElasticSearch®、Ap…
-
Meta(Facebook): 基于Alluxio Shadow Cache优化Presto架构决策
动机与背景 Facebook Presto是一个以SQL语言作为接口的分布式实时查询引擎,可以对PB级的数据进行快速的交互式查询。它支持标准的ANSI SQL.包含查询、聚合、JO…
-
在 Presto 中使用一致散列来改善Alluxio动态集群中的缓存数据局部性
使用 Alluxio 运行 Presto 在社区中越来越受欢迎。 它通过利用 SSD 或内存缓存靠近 Presto 工作人员的热数据集,避免了从远程存储读取数据的长时间延迟。 Pr…
-
10 分钟搞定 Prometheus 和 Grafana 搭建 Alluxio 监控系统
总览 Alluxio 提供了一个全面的指标系统来监控 Alluxio 的 master、worker 和 client 的状态。 Alluxio 的指标系统支持各种指标,例如 嵌入…
-
Apache顶级项目Ranger和Alluxio的最佳实践(附教程)
介绍 Alluxio让计算引擎实现在任何云环境中的数据编排。Alluxio统一了本地和跨云环境下的数据孤岛,实现数据本地性、可访问性和弹性,从而降低大数据和人工智能/机器学习(AI…
-
Presto+Alluxio概览-如何实现交互式查询的架构创新
本文PC端地址:https://lrting.top/backend/4155 Presto(PrestoDB和Trino)是非常流行的多个数据源上运行大规模交互式分析查询的计算引…
-
使用 Alluxio 提高 HDFS 集群的性能和一致性
Alluxio 是世界上第一个内存速度的虚拟分布式存储系统,它连接了应用程序和底层存储系统,提供比现有解决方案快几个数量级的统一数据访问。 Hadoop分布式文件系统(HDFS)是…
-
Apache Thrift基本使用介绍
基本介绍 Thrift 是用于点对点 RPC 实现的轻量级、独立于语言的软件堆栈。 Thrift 为数据传输、数据序列化和应用程序级处理提供了清晰的抽象和实现。 代码生成系统将简单…
-
Thrift数据类型
Thrift 类型系统旨在允许程序员尽可能多地使用原生类型,无论他们使用哪种编程语言。此信息基于并取代 Thrift 白皮书中的信息。 Thrift IDL 提供了用于为每种目标语…
-
Thrift接口定义语言
Thrift 接口定义语言 (IDL) 允许定义 Thrift 类型。 Thrift IDL 文件由 Thrift 代码生成器处理以生成各种目标语言的代码,从而支持 IDL 文件中…
-
使用 Apache Thrift 构建高性能微服务(PPT+书籍)
在本次PPT中,我们将了解 Apache Thrift 如何解决部署在性能敏感的资本市场和银行环境中的下一代应用程序通常面临的性能问题。PPT将包括实际示例,说明 Apache T…
-
Thrift:可扩展的跨语言服务实现(中文翻译)
本文为《Thrift: Scalable Cross-Language Services Implementation》论文中文翻译版本,该论文为Thrift白皮书,阅读该论文对了…
-
Apache Flink 在斗鱼的应用与实践
摘要:本文整理自斗鱼实时计算负责人夏畅在 Flink Forward Asia 2021 行业实践专场的分享。本篇内容主要分为四个部分: 背景介绍 实时平台建设 实时数仓探索 未来…
-
通过SQL的解析与优化
本文讲述了通用SQL的解析与优化。
-
windows 11系统调试hive metastore 3.1.2源码新姿势
由于工作原因,需要深入了解一下hive metastore相关源码,这几天尝试了在windows中运行hive metastore代码,这边记录一下踩坑的过程以及解决方法。 win…
-
Hive MetaStore 在快手遇到的挑战与优化
分享嘉宾:王磊@快手编辑整理:Frank出品平台:DataFunTalk 导读:快手基于Hive构建数据仓库,并把Hive的元数据信息存储在MySql中,随着业务发展和数据增长,一…
-
基于Apache Parquet™的更细粒度的加密方法
本文翻译自uber文章:《One Stone, Three Birds: Finer-Grained Encryption @ Apache Parquet™》 数据访问限制、保留…
-
如何处理Apache Avro中不兼容的Schema变更?
Apache Avro[1] 有模式兼容性的概念,它允许我们判定一个模式是否与一个或多个早期或更新的模式是否兼容,有兼容的变更必然意味着也可以有不兼容的变更,在这种情况下应该做什么…