大数据
-
云原生时代的到来,Hive会被替代吗
Apache Hive 在 2010 年作为 Hadoop 生态系统的一个组成部分突然出现,当时 Hadoop 是进行大数据分析的新颖且创新的方式。 Hive 所做的是为 Hado…
-
吴怡雯:腾讯数据湖元数据治理实践
分享嘉宾:吴怡雯 腾讯 高级工程师编辑整理:田长远出品平台:DataFunTalk 导读:大家好,今天分享的主题是腾讯数据湖的元数据治理实践,跟大家一起聊聊腾讯云上DLC数据湖计算…
-
MySQL和PostgreSQL优缺点比较
选择那种数据库呢? 在建立一个新项目时,尤其是在 Web 上的项目,选择数据库管理系统通常是事后才想到的。 大多数框架都包含一个对象关系映射 (ORM) 工具,该工具隐藏了跨平台的…
-
BIGO 使用 Flink 做 OLAP 分析及实时数仓的实践和优化
业务背景 BIGO 是一家面向海外的以短视频直播业务为主的公司, 目前公司的主要业务包括 BigoLive (全球直播服务),Likee (短视频创作分享平台),IMO (免费通信…
-
flink部分面试题汇总
Flink的运⾏架构 当 Flink 集群启动后,⾸先会启动⼀个 JobManger 和⼀个或多个的 TaskManager。由 Client 提交任务给JobManager,Jo…
-
hive面试题汇总
Hive的metastore的三种模式 内嵌Derby⽅式 这个是Hive默认的启动模式,⼀般⽤于单元测试,这种存储⽅式有⼀个缺点:在同⼀时间只能有⼀个进程连接使⽤数据库。 Loc…
-
Trino 372正式发布
主要提升点: 添加 trim_array() 函数。 (#11238) 通过在 HTTP 标头中压缩它们来改进对具有长查询文本的预准备语句的处理。 这可以使用 protocol.v…
-
FLlink监控Checkpoints
概览(Overview) Flink 的 Web 界面提供了选项卡/标签(tab)来监视作业的 checkpoint 信息。作业终止后,这些统计信息仍然可用。有四个不同的选项卡可显…
-
Flink Standalone HA搭建指南
基本环境 集群主机 IP host147 10.45.151.147 host148 10.45.151.148 host149 10.45.151.149 配置域名映射 vim …
-
Flink大状态与Checkpint调优
Flink 应用要想大规模可靠运行,必须满足两个条件: 应用程序需要能够可靠地进行checkpoint操作 故障后资源需要足够赶上输入数据流 第一部分讨论如何大规模执行checkp…
-
Apache Flink 在移动云实时计算的实践
本文整理自移动软件开发工程师谢磊在 Flink Forward Asia 2021 平台建设专场的演讲。本篇内容主要分为四个部分: 实时计算平台建设 中移信令业务优化 稳定性实践 …
-
将hudi同步到配置kerberos的hive3
前人种树,后人乘凉。本文基于社区pr:https://github.com/apache/hudi/pull/3771 ,新增一些其他配置项以完成本场景下的hudi → hive …
-
云原生模式部署Flink应用
入门指南 本入门部分将指导您在 Kubernetes 上设置功能齐全的 Flink 集群。 基本介绍 Kubernetes 是一种流行的容器编排系统,用于自动化计算机应用程序的部署…
-
Flink DataStream API与Data Table API/SQL集成
在定义数据处理管道时,Table API 和 DataStream API 同样重要。 DataStream API 在一个相对较低级别的命令式编程 API 中提供了流处理的原语(…
-
Flink SQL中的Join操作
Flink SQL 支持对动态表进行复杂灵活的连接操作。 有几种不同类型的连接来解决可能需要的各种语义查询。 默认情况下,连接顺序未优化。 表按照在 FROM 子句中指定的顺序连接…
-
Flink和Spark读写avro文件
前面文章基于Java实现Avro文件读写功能我们说到如何使用java读写avro文件,本文基于上述文章进行扩展,展示flink和spark如何读取avro文件。 Flink读写av…
-
CDH 6.3.2下载地址
添加作者微信获取下载地址
-
基于Java实现Avro文件读写功能
Apache Avro是一个数据序列化系统。具有如下基本特性: 丰富的数据结构。 一种紧凑、快速的二进制数据格式。 一个容器文件,用于存储持久数据。 远程过程调用 (RPC)。 与…
-
周劲松:Flink与Spark全都要,网易流批一体实时数据湖Arctic
分享嘉宾:周劲松 网易 编辑整理:王贤才 碧桂园 出品平台:DataFunTalk 导读:这次分享的主题是网易内部孵化的数据湖项目Arctic。在分析了部分现有开源数据湖项目后,网…
-
pinterest使用 Apache Flink(近)实时地检测图像相似性
Pinterest是世界上最大的图片社交分享网站。网站允许用户创建和管理主题图片集合,例如事件、兴趣和爱好。以下为来自Pinterest工程师关于代码审查的一些思考。 作者:Sha…