大数据
-
Apache Hudi 0.12.0版本重磅发布!
Presto-Hudi 连接器 从 PrestoDB 0.275 版本开始,用户现在可以利用原生 Hudi 连接器来查询 Hudi 表。它与 Hive 连接器中的 Hudi 支持相…
-
SQL优化的魅力!从 30248s 到 0.001s
我用的数据库是mysql5.6,下面简单的介绍下场景 课程表: create table Course( c_id int PRIMARY KEY, name varchar(…
-
有数大数据基础平台NDH之智能运维平台EasyEagle介绍:任务篇
上一篇文章中,我们介绍了EasyEagle作为一款大数据底层的智能监控诊断平台,是如何解决数据平台中的诸多痛点问题。而在本篇中,我们将从细粒度的任务维度入手,介绍EasyEagle…
-
特性大PK?Hudi vs Delta Lake vs Iceberg
简介 随着 Lakehouse 的日益普及,人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚:Apache Hudi、Delta Lake 和 Apache Iceber…
-
Yelp 的 Spark 数据血缘建设实践!
在这篇博文中,我们介绍了 Spark-Lineage,这是一种内部产品,用于跟踪和可视化 Yelp 的数据是如何在我们的服务之间处理、存储和传输的。 Spark 和 Spark-E…
-
数据血缘图谱升级方案设计与实现
动手点关注 干货不迷路 ? 数据地图平台是字节跳动内部的大数据检索平台,每天近万的字节员工在此查找所需数据。数据地图通过提供便捷的找数,理解数服务,大大节省了内部数据的沟通和建设成…
-
千万千万不要在方法上打断点!太坑了!
来源 | why技术 作者 | why技术 上周遇到了一个莫名其妙的搞心态的问题,浪费了我好几个小时。 主要是最后问题的解决方式也让我特别的无语,真的是越想越气。 先说结论,也就是…
-
快看漫画构建数据治理闭环的逻辑与实践
分享嘉宾:屈世超 快看 数据开发负责人 编辑整理:许友昌 浙大中控 出品平台:DataFunTalk 导读:快看在过去经历了业务线以及每个业务线数据体量的极速扩张,我们的数据部门也…
-
网易有道成人教育数仓建设实践
导读: 随着有道旗下网易云课堂、中国大学mooc产品的迅速发展,对数据的需求日益增多,在提高数据服务质量和数据使用效率、降低数据使用成本、数据赋能业务的背景下,我们从0到1建设成人…
-
基于 Flink x TiDB,智慧芽打造实时分析新方案
摘要:本文整理自智慧芽数据仓库架构师曲明星在 Flink Forward Asia 2021 实时数仓专场的分享。本篇内容主要分为三个部分: 产品架构 技术架构 未来计划 01 产…
-
深入理解完美哈希!
导语 | 本文对完美Hash的概念进行了梳理,通过Hash构建步骤来了解它是如何解决Hash冲突的,并比较了Hash表和完美Hash表。下面介绍常见的Hash与Perfect Ha…
-
FlinkSQL字段血缘解决方案及源码
FlinkSQL字段血缘解决方案及源码 序号 作者 版本 时间 备注 1 HamaWhite 1.0.0 2022-08-09 增加文档和源码 作者邮箱: song.bs@dtwa…
-
Apache Druid 在 Shopee 的云原生架构演进
目录1. 背景 1.1 Druid 介绍 1.2 基于物理机架构 1.3 基于云原生架构2. 架构设计 2.1 架构总图 2.2 组件内部交互图3. 落地实践4…
-
基于 Flink 构建大规模实时风控系统在阿里巴巴的落地
摘要:本⽂由社区志愿者邹志业整理,内容来源⾃阿里云实时计算产品经理李佳林(风元)在 7 月 5 日 Flink 峰会(CSDN 云原生系列)的演讲。主要内容包括: 基于 Flink…
-
RedisJson 横空出世,比 ES 快7 倍,惊爆了!
近期官网给出了RedisJson(RedisSearch)的性能测试报告,可谓碾压其他NoSQL,下面是核心的报告内容,先上结论: 对于隔离写入(isolated writes),…
-
图文并茂,讲解TCP和UDP协议的原理以及区别
TCP和UDP协议的区别以及原理 最近重新认知了一下TCP和UDP的原理以及区别,做一个简单的总结。 一、作用 首先,tcp和udp都是工作在传输层,用于程序之间传输数据的。数据一…
-
大规模 Hadoop 升级在 Pinterest 的实践
Monarch 是 Pinterest 的批处理平台,由30多个 Hadoop YARN 集群组成,其中17k+节点完全建立在 AWS EC2 之上。2021年初,Monarch …
-
北大关于知识图谱与图数据库的研究工作
分享嘉宾:李文杰博士 北京大学 博士后 编辑整理:王京旺 河北北方学院 出品平台:DataFunTalk 导读:本文分享图数据库和知识图谱的基础内容以及我们做过的相关工作。主要内容…
-
Eclipse Memory Analyzer(MAT) 使用总结
前言 在日常的开发工作中,遇到生产环境报OOM的问题时,你首先会想到采用哪些方式并使用什么样的工具对OOM问题进行分析,定位和解决呢? 实际现场环境无非有这么两种,第一种,如果项目…
-
图数据库存储技术及实践
分享嘉宾:周研博士 创邻科技 CTO 编辑整理:李晓 网易 出品平台:DataFunTalk 导读:本次分享主题为图数据库存储技术及实践,将介绍创邻科技在多年实践和优化中对图数据库…