大数据
-
程序员的数学-线性代数 PDF下载
基本内容 本书沿袭“程序员的数学”系列平易近人的风格,用通俗的语言和具象的图表深入讲解了编程中所需的线性代数知识。内容包括向量、矩阵、行列式、秩、逆矩阵、线性方程、LU分解、特…
-
程序员的数学-概率统计 PDF下载
基本内容 《程序员的数学2:概率统计》沿袭《程序员的数学》平易近人的风格,用通俗的语言和具体的图表深入讲解程序员必须掌握的各类概率统计知识,例证丰富,讲解明晰,且提供了大量扩展…
-
程序员的数学 PDF下载
基本介绍 《程序员的数学 第2版》面向程序员介绍了编程中常用的数学知识,借以培养初级程序员的数学思维。读者无须精通编程,也无须精通数学,只要具备四则运算和乘方等基础知识,即可阅读本…
-
RocketMQ 在网易云音乐的实践
本文作者:蒋星韬,网易云音乐服务端开发工程师。 云音乐线上场景众多,比如直播、评论、广告,各个业务线都会有消息场景比如发奖券,也会有延迟消息和事务消息场景,以及大数据做埋点数据、数…
-
兴盛优选数仓体系建设
1.概述 “由数据仓库之父W.H.Inmon于1990年提出,主要功能乃是将组织透过信息系统之在线交易处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料存储架构…
-
RocketMQ Connect 构建流式数据处理平台
本文作者:孙晓健,Apache RocketMQ Committer 01 RocketMQ Connect RocketMQ Connect 是一款可扩展的在 RocketMQ …
-
基于Flink+Hudi在兴盛优选营销域实时数仓的实践
1.前言 什么是流处理?引用Streaming101[1]里面的一句话:一种数据处理引擎,设计时考虑了无限数据集。(为了完整性,这个定义包括真正的流式传输系统(Apache Fli…
-
Apache Drill基本介绍
Drill 是一个用于大数据探索的 Apache 开源 SQL 查询引擎。 Drill 的设计初衷是支持对来自现代大数据应用程序的半结构化和快速发展的数据进行高性能分析,同时仍然提…
-
Kubernetes 排错、调试常用方法总结
在 k8s 云环境中,我们需要在容器内抓包进行 Debug, 但通常大多容器都没有安装 tcpdump 以及其他网络工具;在托管 k8s 中我们想登录 node,不是没权限就是步骤…
-
马小阳:如何建设好的数据安全工具?
分享嘉宾:马小阳 产品经理 编辑整理:陈妃君 深圳大学 出品平台:DataFunTalk 导读:近年来,在信息技术支撑下,数据经济驱动着全球各经济体的经济总量不断增加,“数据安全”…
-
浅谈系统性能提升的经验和方法
一、背景 资金核对的数据组装-执行-应急链路,有着千万级TPS并发量,同时由于资金业务特性,对系统可用性和准确性要求非常高;日常开发过程中会遇到各种各样的高可用问题,也在不断地尝试…
-
阿里张弛:企业数据安全中的数据脱敏
分享嘉宾:张驰 阿里巴巴本地生活 编辑整理:罗擘 香港中文大学 出品平台:DataFunTalk 导读:随着各国数据安全保护法的颁布,数据安全已经成为大数据应用行业的关键课题。如何…
-
探秘微信业务优化:DDD从入门到实践
引言 | 本文作者从微信团队维护的带货类项目所遇卡点出发,尝试用领域驱动设计方法(简称DDD),保障在快节奏、多人协作的项目迭代中,维持系统的可维护性、可拓展性、高内聚低耦合和稳定…
-
官方 | 使用自定义 RateLimitingStrategy 优化异步接收器的吞吐量!
介绍 在设计 Flink 数据处理作业时,关键关注点之一是最大化作业吞吐量。Sink吞吐量是一个至关重要的因素,因为它可以决定整个作业的吞吐量。我们通常希望在不使目的地超载的情况下…
-
B站的数据质量管理——理论大纲与实践
本期作者 蔡梦苑 数据平台部资深数仓开发工程师 故事的开头,是一位业务部门的同事找到我们,咨询了一个经典问题: 「需求方经常说我们做的报表看起来数据不准,有什么办法吗?」 为了解释…
-
哔哩哔哩大数据建设之路—数据开发篇
本期作者 韩志华 大数据平台工具负责人 赵孔明 大数据平台资深开发工程师 邓晓 大数据平台资深开发工程师 01 平台总体简介 1.1 数据平台介绍 项目代号:Berserker …
-
Java本地高性能缓存实践
Java缓存技术可分为远端缓存和本地缓存,远端缓存常用的方案有著名的redis和memcache,而本地缓存的代表技术主要有HashMap,Guava Cache,Caffeine…
-
Apache Flink运行时在B站的稳定性优化与实践
本期作者 马阳阳 基础架构部实时平台Flink引擎资深开发工程师 丁国涛 基础架构部实时平台Flink引擎资深开发工程师 01 背景 以Flink为基础的实时计算在B站有着广泛而深…
-
实时湖仓一体规模化实践:腾讯广告日志平台
1. 背景 1.1 整体架构 腾讯广告系统中的日志数据流,按照时效性可划分为实时和离线,实时日志通过消息队列供下游消费使用,离线日志需要保存下来,供下游准实时(分钟级)计算任务,离…
-
Kafka基础与核心概念
本文,我们将试图回答什么是apache kafka。 kafka是一个分布式流平台或者分布式消息提交日志 分布式 Kafka 由一个或多个节点组成的工作集群,这些节点可以位于不同的…