后端
-
flink datastream api实现数据实时写入hudi
Apache Hudi(发音为“hoodie”)是下一代流数据湖平台。 Apache Hudi 将核心仓库和数据库功能直接引入数据湖。 Hudi 提供表、事务、高效的更新插入/删除…
-
持续降本:B站日志平台3.0演进之路
本期作者 季俊宇 哔哩哔哩高级开发工程师 李锐 哔哩哔哩资深开发工程师 背景 基于ClickHouse的Billions2.0日志方案上线后(B站基于Clickhouse的下一代日…
-
k8s日志收集组件 Grafana loki — 快速安装
grafana提供了基于loki的完整安装模式,可基于helm3实现在k8s上完整部署。具体安装与快速使用方式如下所示。 上手指南 添加loki-stack仓库 helm repo…
-
k8s日志收集组件 Grafana loki — 理论篇
当我们在k8s上运行程序时,习惯的会使用ELK来收集和查询程序运行日志。今天我们介绍一款新的专为日志收集而生的神器:Grafana loki。Grafana Loki 是一组组件,…
-
事件时间 – 生成Watermark
在本节中,你将了解 Flink 中用于处理事件时间的时间戳和 watermark 相关的 API。有关事件时间,_处理时间_和_摄取时间_的介绍,请参阅事件时间概览小节。 Wate…
-
Flink 执行模式(流/批)
DataStream API 支持不同的运行时执行模式,你可以根据你的用例需要和作业特点进行选择。 DataStream API 有一种”经典“的执行行为,我们称之为流(STREA…
-
Flink DataStream API编程指南
Flink 中的 DataStream 程序是对数据流(例如过滤、更新状态、定义窗口、聚合)进行转换的常规程序。数据流的起始是从各种源(例如消息队列、套接字流、文件)创建的。结果通…
-
Opensearch基本介绍
OpenSearch 是一个社区驱动的开源搜索和分析套件,开发人员使用该套件来摄取、搜索、可视化和分析数据。 OpenSearch 由数据存储和搜索引擎 (OpenSearch)、…
-
揭秘阿里云 Flink 智能诊断利器——Flink Job Advisor
01 引言 阿里云实时计算 Flink 作为一款专业级别的高性能实时大数据处理系统,它在各种业务场景中都发挥了关键的作用。丰富而复杂的上下游系统让它能够支撑实时数仓、实时风控、实时…
-
Apache Flink 在微信业务场景下的内核及应用优化
引言 Flink 在大数据流处理方面具有高吞吐、低延迟等优势,其作为微信大数据平台 Gemini-2.0 的实时流计算引擎,支撑了微信实时推荐、实时数仓、实时风控等多个业务场景的应…
-
ubuntu 22.04安装mysql 8.0与避坑指南
MySQL 是一个开源数据库管理系统,可作为流行的 LAMP(Linux、Apache、MySQL、PHP/Python/Perl)堆栈的一部分安装。 它实现了关系模型并使用结构化…
-
ubuntu 22.04安装PostgreSQL
关系数据库管理系统是许多网站和应用程序的关键组件。 它们提供了一种结构化的方式来存储、组织和访问信息。 PostgreSQL 或 Postgres 是一种关系数据库管理系统,它提供…
-
Flink SQL中的数据类型
Flink SQL 为用户提供了一系列丰富的原始数据类型。 数据类型 在 Flink 的 Table 生态系统中,数据类型 描述了数据的逻辑类型,可以用来表示转换过程中输入、输出的…
-
chatgpt助力大数据数仓开发实践,效果惊艳
故事的开始是这样的,大数据开发删了几张表,过了2天才发现删错了,于是开发找我恢复表,我看了下数据还在回收站,问题不大。只需要建表,把所有的分区数据mv回去,然后msck…
-
涤生大数据HDFS小文件治理总结
随着大数据时代的到来,数据量不断增长,HDFS也成为了数据存储和处理的重要组成部分。然而,由于HDFS的设计原理和文件存储方式,HDFS系统中存在大量的小文件,这些小文件会导致HD…
-
如何用 ChatGPT 构建你的专属知识问答机器人
缘起 从去年底开始 ChatGPT 火爆出圈,大家都在思考如何利用 ChatGPT 的能力来构建自己的应用,我也在想,如果有一个机器人可以学习一下开源项目文档中的信息,那是否就可以…
-
使用 Spot 实例打造低成本高性能无限并发的 Gitlab Runner
当项目中存在一些大型编译项目时,由于机器性能不足,导致研发花费大量时间等待构建,浪费生命,本文带你了解 DeepFlow 如何使用阿里云 ECI Spot 弹性实例打造低成本高性能…
-
货拉拉大数据离线混合引擎服务建设实践
1. 背景 货拉拉作为一家数据智能驱动的科技物流型平台企业,内部分析师和研发人员等每天会通过大数据服务进行大量 ad-hoc 查询分析。通过 NPS 调研发现用户普遍反馈 ad-h…
-
Flink SQL 的数据脱敏解决方案
Flink SQL 的数据脱敏解决方案,支持面向用户级别的数据脱敏访问控制,即特定用户只能访问到脱敏后的数据。此方案是实时领域Flink的解决思路,类似于离线数仓 Hive 中 R…
-
B站大数据集群混部实践(上)- 资源超配篇
本期作者 陈昱康 哔哩哔哩离线平台负责人 卜凡 哔哩哔哩高级开发工程师 吴剑亮 哔哩哔哩资深开发工程师 1.背景 在过去一年的时间里,B站离线平台资源调度侧的主要挑战有两个方面: …