大数据
-
网易日志采集传输服务Datastream-ng的建设与优化
分享嘉宾:陈志辉 网易 数据平台开发工程师 编辑整理:段艺 腾讯 出品平台:DataFunTalk 导读:在互联网应用场景下,日志是常见的数据来源。高效、稳定的日志采集传输服务对于…
-
从RabbitMQ平滑迁移到RocketMQ技术实战
作者:vivo 互联网中间件团队- Liu Runyun 大量业务使用消息中间件进行系统间的解耦、异步化、削峰填谷设计实现。公司内部前期基于RabbitMQ实现了一套高可用的消息中…
-
服务器内存故障预测居然可以这样做!
作者:vivo 互联网服务器团队- Hao Chan 随着互联网业务的快速发展,基础设施的可用性也越来越受到业界的关注。内存发生故障的故障率高、频次多、影响大,这些对于上层业务而…
-
B站接入层网络演进实践
本期作者 哔哩哔哩系统部网络团队 负责B站数据中心网络规划、设计、建设、运维与优化,为公司业务提供稳定且可靠的网络服务。整个团队专注于数据中心内网、骨干网络、负载均衡、传输网络、虚…
-
阿里面试官:如何回答消息队列的丢失、重复与积压问题
面试官在面试候选人时,如果发现候选人的简历中写了在项目中使用了 MQ 技术(如Kafka、RabbitMQ、RocketMQ),基本都会抛出一个问题:在使用 MQ的时候,怎么确保消…
-
VMware虚拟机下ubuntu磁盘扩容(亲测有效)
虚拟机一般情况下我们会分配大约20G左右的磁盘空间大小,但是在使用的过程中,比如安装一些所占磁盘空间较大的包的时候或者使用虚拟机进行ROS开发的时候,往往发现虚拟机的磁盘空间大小不…
-
【Hive】hive 数据倾斜、优化策略、hive执行过程、垃圾回收
1. 数据倾斜 1.1 什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 Hadoop 框架的特性 不怕数据大,怕数据倾斜 Jobs 数比较多的作业运行…
-
数据治理体系演进简介
网易内部如严选、云音乐、传媒等数据团队对数据内容体系的治理思路都是将治理规范融入到开发过程中,将治理的动作提前,这其实就是“开发治理一体化”;事后依赖数据资产健康评估和治理工具进行…
-
朱凯:ClickHouse 全貌介绍与年度最令人兴奋的五大新特性
分享嘉宾:朱凯 明源云 大数据平台首席专家 编辑整理:肖鹏 VIVO 出品平台:DataFunTalk 导读:都说天下武功唯快不破,ClickHouse 从2016年诞生至今就一直…
-
译文推荐 | 调试 BookKeeper 协议 – 无界 Ledger
本文翻译自《Tweaking the BookKeeper Protocol – Unbounded Ledgers》,作者 Jack Vanlightly,Apach…
-
如何将Hive中的数据导入到Druid中
Apache Druid是一个实时OLAP型数据库,现在有一个需求就是将Hive中的一张大表,导入到Druid中,然后应用层直接查询Druid。 接下来就是将Hive中的数据导入到…
-
吴荣彬:分贝通大数据体系建设经验分享
分享嘉宾:吴荣彬 分贝通 大数据部负责人 编辑整理:zlx 出品平台:DataFunTalk 导读:本文将介绍分贝通在大数据领域的一些建设经验。分贝通在ToB领域是一个年轻的公司,…
-
Apache Hudi中文社区技术交流会重磅来袭(7.28 10:00 – 11:00)
Apache Hudi中文社区技术交流会将在北京时间2022.07.28号 上午10:00 到 11:00 开播,交流会特邀了来自Onehouse、字节跳动和阿里云的小伙伴分享Ap…
-
airflow安装教程(local模式)
环境介绍 OS:centos 7.6 python:3.6.8 pip:21.2.4 具体安装 pip配置阿里云清华源 mkdir -p $HOME/.config/pip/ vi…
-
Flink 在讯飞 AI 营销业务的实时数据分析实践
摘要:本文整理自科大讯飞中级大数据工程师汪李之在 Flink Forward Asia 2021 的分享。本篇内容主要分为四个部分: 业务简介 数仓演进 场景实践 未来展望 01 …
-
全链路压测改造之全链自动化测试实践
本期作者 李思佳 bilibili资深测试开发工程师 2020年加入B站,深度参与全链路压测、多活、混沌工程等专项的建设和实践。 深耕系统稳定性测试领域。 01 背景与意义 B站直…
-
阿里郭进士:淘系数据模型治理与方案分享
分享嘉宾:郭进士 阿里巴巴 编辑整理:张超 深圳回收宝 出品平台:DataFunTalk 导读:本次分享题目为淘系数据模型治理,主要介绍过去一年淘系数据治理工作的一些总结。 具体将…
-
基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南
Apache Hudi 是一种流行的开源 Lakehouse 技术,在大数据社区中迅速发展。如果您在 AWS 上构建了数据湖和数据工程平台,您可能已经听说过或使用过 Apache …
-
OPPO在FaaS领域的探索与思考
ESA Stack(Elastic Service Architecture) 是 OPPO 云计算中心孵化的技术品牌,致力于微服务相关技术栈,帮助用户快速构建高性能,高可用的云原…
-
施兴天:实时数仓赋能金融业务的落地实践
分享嘉宾:施兴天 众安保险 数据高级总监 编辑整理:宋思澈 厦门大学 出品平台:DataFunTalk 导读:大家好,我是来自众安保险的施兴天,我今天分享的题目是《实时数仓赋能金融…