后端
-
朱凯:ClickHouse 全貌介绍与年度最令人兴奋的五大新特性
分享嘉宾:朱凯 明源云 大数据平台首席专家 编辑整理:肖鹏 VIVO 出品平台:DataFunTalk 导读:都说天下武功唯快不破,ClickHouse 从2016年诞生至今就一直…
-
译文推荐 | 调试 BookKeeper 协议 – 无界 Ledger
本文翻译自《Tweaking the BookKeeper Protocol – Unbounded Ledgers》,作者 Jack Vanlightly,Apach…
-
如何将Hive中的数据导入到Druid中
Apache Druid是一个实时OLAP型数据库,现在有一个需求就是将Hive中的一张大表,导入到Druid中,然后应用层直接查询Druid。 接下来就是将Hive中的数据导入到…
-
吴荣彬:分贝通大数据体系建设经验分享
分享嘉宾:吴荣彬 分贝通 大数据部负责人 编辑整理:zlx 出品平台:DataFunTalk 导读:本文将介绍分贝通在大数据领域的一些建设经验。分贝通在ToB领域是一个年轻的公司,…
-
Apache Hudi中文社区技术交流会重磅来袭(7.28 10:00 – 11:00)
Apache Hudi中文社区技术交流会将在北京时间2022.07.28号 上午10:00 到 11:00 开播,交流会特邀了来自Onehouse、字节跳动和阿里云的小伙伴分享Ap…
-
airflow安装教程(local模式)
环境介绍 OS:centos 7.6 python:3.6.8 pip:21.2.4 具体安装 pip配置阿里云清华源 mkdir -p $HOME/.config/pip/ vi…
-
Flink 在讯飞 AI 营销业务的实时数据分析实践
摘要:本文整理自科大讯飞中级大数据工程师汪李之在 Flink Forward Asia 2021 的分享。本篇内容主要分为四个部分: 业务简介 数仓演进 场景实践 未来展望 01 …
-
全链路压测改造之全链自动化测试实践
本期作者 李思佳 bilibili资深测试开发工程师 2020年加入B站,深度参与全链路压测、多活、混沌工程等专项的建设和实践。 深耕系统稳定性测试领域。 01 背景与意义 B站直…
-
阿里郭进士:淘系数据模型治理与方案分享
分享嘉宾:郭进士 阿里巴巴 编辑整理:张超 深圳回收宝 出品平台:DataFunTalk 导读:本次分享题目为淘系数据模型治理,主要介绍过去一年淘系数据治理工作的一些总结。 具体将…
-
基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南
Apache Hudi 是一种流行的开源 Lakehouse 技术,在大数据社区中迅速发展。如果您在 AWS 上构建了数据湖和数据工程平台,您可能已经听说过或使用过 Apache …
-
OPPO在FaaS领域的探索与思考
ESA Stack(Elastic Service Architecture) 是 OPPO 云计算中心孵化的技术品牌,致力于微服务相关技术栈,帮助用户快速构建高性能,高可用的云原…
-
施兴天:实时数仓赋能金融业务的落地实践
分享嘉宾:施兴天 众安保险 数据高级总监 编辑整理:宋思澈 厦门大学 出品平台:DataFunTalk 导读:大家好,我是来自众安保险的施兴天,我今天分享的题目是《实时数仓赋能金融…
-
腾讯游戏 :我们如何基于 StarRocks 构建云原生数仓
StarRocks 社区说: 开源运动旗手 Eric S. Raymond 在《大教堂和集市》中说,一个项目若想成功,“要将用户当做合作者”。这也一直是 StarRocks 社区的…
-
松果出行 x StarRocks:实时数仓新范式的实践之路
作者:松果出行数据中台部门 松果出行成立于 2017 年,以“构建更智慧的交通基础设施,提升全球所有人的移动能力”为使命,定位于“以工业互联网为基础的交通科技公司”。松果出行创新打…
-
大规模离在线混部在虎牙的落地实践
分享嘉宾:张佳煌 虎牙 大数据架构师 编辑整理:刘兆磊 枣庄学院 出品平台:DataFunTalk 导读:大家下午好,我叫张佳煌,来自于虎牙大数据平台,主要负责大数据的存储和计算。…
-
B站基于Apache Ranger的大数据权限服务的技术演进
本期作者 邱亮 哔哩哔哩资深开发工程师 2020年加入B站,Apache Spark contributor,Apache Kyuubi contributor。目前主要从事Spa…
-
CentOS如何增加虚拟内存
一、何为swap分区? 简而言之:从磁盘上获取很长没被使用的程序的空间来当做虚拟内存使用。 二、swap分区的创建 1、查看内存使用情况 可以看到一共是1.8G的内存,因为是才使用…
-
基于 Flink CDC 实现海量数据的实时同步和转换
摘要:本文整理自 Apache Flink Committer、Flink CDC Maintainer、阿里巴巴高级开发工程师徐榜江(雪尽)在 5 月 21 日 Flink CD…
-
作业帮基于 DeltaLake 的数据湖建设最佳实践
一 业务背景 作业帮是一家以科技为载体的在线教育公司。目前旗下拥有工具类产品作业帮、作业帮口算,K12直播课产品作业帮直播课,素质教育产品小鹿编程、小鹿写字、小鹿美术等,以及喵喵…
-
Spark面对OOM问题的解决方法及优化总结
Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,ma…