后端
-
Flink学习精要(Java版)电子书下载
目录 第 1 章 初识 Flink 21.1 Flink 的源起和设计理念 21.2 Flink 的应用 31.3 流式数据处理的发展和演变 61.4 Flink 的特性总结 13…
-
LinkedIn 如何将 Hadoop YARN 集群扩展到超过 10,000 个节点
在 LinkedIn,我们使用 Hadoop 作为大数据分析和机器学习的支柱。 随着数据量呈指数级增长,并且公司在机器学习和数据科学方面进行了大量投资,我们的集群规模逐年翻了一番,…
-
字节跳动基于 Apache Hudi 的多流拼接实践
字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 该方案在存储层提供对多流数据的关联能力,旨在解决实…
-
如何在 SQL 中查找重复值? GROUP BY 和 HAVING 查询示例教程
如果您想知道如何在表中查找重复值,那么您可以在 SQL 中使用 GROUP BY 和 HAVING 子句。 使用 group by 您可以创建组,如果您的组有超过 1 个元素,则意…
-
Ozone安装部署指南
Ozone 的安装和运行有多种方式,支持从简单的本地节点 docker 部署,到大规模多节点的 Kubernetes 或物理集群部署。 docker方式启动Ozone 如果还未安装…
-
字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化(2)
目前字节跳动中国区 MQ dump 例行任务数巨大,日均处理流量在 PB 量级。巨大的任务量和数据量对 MQ dump 的稳定性以及准确性带来了极大的挑战。 本文主要介绍 DTS …
-
字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化(1)
目前字节跳动中国区 MQ dump 例行任务数巨大,日均处理流量在 PB 量级。巨大的任务量和数据量对 MQ dump 的稳定性以及准确性带来了极大的挑战。 本文主要介绍 DTS …
-
Apache Drill 专为Hadoop、NoSQL和云存储设计的Schema-free类型的SQL引擎
Apache Drill是一款开源的数据探索工具,一个分布式SQL查询和分析引擎。它包含了很多专有的设计,来进行高性能分析,支持半结构化数据源(JSON、XML和日志等)和基于应用…
-
【Google AI】在谷歌文档中自动生成摘要
对于我们中的许多人来说,跟上每天到达我们收件箱的文件量可能是一项挑战:报告、评论、简报、政策等等。 当收到一份新文件时,读者通常希望它包含对要点的简要总结,以便有效地对其进行优先排…
-
如何在容器中避免CPU瓶颈限制
在 Uber,所有有状态的工作负载都运行在一个跨大型主机的通用容器化平台上。有状态工作负载包括 MySQL®、Apache Cassandra®、ElasticSearch®、Ap…
-
Meta(Facebook): 基于Alluxio Shadow Cache优化Presto架构决策
动机与背景 Facebook Presto是一个以SQL语言作为接口的分布式实时查询引擎,可以对PB级的数据进行快速的交互式查询。它支持标准的ANSI SQL.包含查询、聚合、JO…
-
在 Presto 中使用一致散列来改善Alluxio动态集群中的缓存数据局部性
使用 Alluxio 运行 Presto 在社区中越来越受欢迎。 它通过利用 SSD 或内存缓存靠近 Presto 工作人员的热数据集,避免了从远程存储读取数据的长时间延迟。 Pr…
-
10 分钟搞定 Prometheus 和 Grafana 搭建 Alluxio 监控系统
总览 Alluxio 提供了一个全面的指标系统来监控 Alluxio 的 master、worker 和 client 的状态。 Alluxio 的指标系统支持各种指标,例如 嵌入…
-
Apache顶级项目Ranger和Alluxio的最佳实践(附教程)
介绍 Alluxio让计算引擎实现在任何云环境中的数据编排。Alluxio统一了本地和跨云环境下的数据孤岛,实现数据本地性、可访问性和弹性,从而降低大数据和人工智能/机器学习(AI…
-
Presto+Alluxio概览-如何实现交互式查询的架构创新
本文PC端地址:https://lrting.top/backend/4155 Presto(PrestoDB和Trino)是非常流行的多个数据源上运行大规模交互式分析查询的计算引…
-
使用 Alluxio 提高 HDFS 集群的性能和一致性
Alluxio 是世界上第一个内存速度的虚拟分布式存储系统,它连接了应用程序和底层存储系统,提供比现有解决方案快几个数量级的统一数据访问。 Hadoop分布式文件系统(HDFS)是…
-
Apache Thrift基本使用介绍
基本介绍 Thrift 是用于点对点 RPC 实现的轻量级、独立于语言的软件堆栈。 Thrift 为数据传输、数据序列化和应用程序级处理提供了清晰的抽象和实现。 代码生成系统将简单…
-
Thrift数据类型
Thrift 类型系统旨在允许程序员尽可能多地使用原生类型,无论他们使用哪种编程语言。此信息基于并取代 Thrift 白皮书中的信息。 Thrift IDL 提供了用于为每种目标语…
-
Thrift接口定义语言
Thrift 接口定义语言 (IDL) 允许定义 Thrift 类型。 Thrift IDL 文件由 Thrift 代码生成器处理以生成各种目标语言的代码,从而支持 IDL 文件中…
-
使用 Apache Thrift 构建高性能微服务(PPT+书籍)
在本次PPT中,我们将了解 Apache Thrift 如何解决部署在性能敏感的资本市场和银行环境中的下一代应用程序通常面临的性能问题。PPT将包括实际示例,说明 Apache T…