大数据

  • 基于 Log 的通用增量 Checkpoint​

    摘要:本文整理自 Apache Flink Contributor 俞航翔 9 月 24 日在 Apache Flink Meetup 的分享。主要内容包括: Checkpoint…

    2023-01-10
    01910
  • 基于kcat将TPC-DS数据快速导入kafka集群

    在大数据领域,TPC-DS是一个常用的基准测试框架。基准测试结果测量单用户模式下的查询响应时间、多用户模式下的查询吞吐量以及给定硬件、操作系统和数据处理系统配置在受控、复杂、多用户…

    2023-01-07
    01560
  • Flink写hudi报datanode异常以及解决办法

    问题描述 这几天在使用tpcds数据对hudi 0.12.0写入性能进行压测,发现在数据写入半小时后,即出现异常,并且程序不断重启,任务异常日志如下: 2023-01-06 18:…

    2023-01-07
    03650
  • Java多线程编程实战指南-设计模式篇 PDF下载

    基本内容 随着CPU 多核时代的到来,多线程编程在充分利用计算资源、提高软件服务质量方面扮演了越来越重要的角色。而 解决多线程编程中频繁出现的普遍问题可以借鉴设计模式所提供的现成解…

    2023-01-05
    0810
  • HotSpot实战 PDF下载

    基本介绍 《HotSpot实战》深入浅出地讲解了HotSpot虚拟机的工作原理,将隐藏在它内部的本质内容逐一呈现在读者面前,包括OpenJDK与HotSpot项目、编译和调试Hot…

    2023-01-05
    03330
  • OpenJDK-调试 (CLion)

    导入项目 1、openjdk 12及以上版本 openjdk-12及以上的版本可以采用compile_commands.json导入,这种方式导入可以解决clion采用生成CMak…

    2023-01-04
    02970
  • 如何更好地使用Kafka?

    点个关注?跟腾讯工程师学技术 引言| 要确保Kafka在使用过程中的稳定性,需要从kafka在业务中的使用周期进行依次保障。主要可以分为:事先预防(通过规范的使用、开发,预防问题产…

    2023-01-02
    0830
  • Hudi在兴盛优选数据湖应用中的实践

    1.背景 ◆1.1 业务背景 Hudi作为主流的数据湖产品之一,解决了Hive无法更新的场景,由于支持ACID事务能力,所以也就能够很好的支撑实时读写,这在架构上就为流批一体提供了…

    2023-01-01
    03140
  • vivo 云原生容器探索和落地实践

    作者:vivo 互联网容器团队- Pan Liangbiao 本文根据潘良彪老师在“2022 vivo开发者大会”现场演讲内容整理而成。 2018年起,vivo以容器作…

    2023-01-01
    01950
  • sqlite wal 分析

    动手点关注 干货不迷路 sqlite 提供了一种 redo log 型事务实现,支持读写的并发,见 write-ahead log(https://sqlite.org/wal.h…

    2022-12-30
    01020
  • 基于大数据的App漏洞分析与挖掘

    为贯彻落实工业和信息化部、国家互联网信息办公室、公安部联合印发的《网络产品安全漏洞管理规定》,2021年8月26日,工业和信息化部移动互联网App产品安全漏洞库发布会暨安全漏洞管理…

    2022-12-29
    01200
  • OPPO大数据诊断平台设计与实践

    01 背景 随着欧加集团大数据业务的发展,现阶段公司大数据平台20+个组件,1EB+级别数据量,平台1000人均日活,服务已经有相当大的规模。在这样的业务背景下,越来越多的用户在使…

    2022-12-28
    03950
  • Glacier:OPPO智能湖仓服务底座

    01 前言 沉寂已久的大数据技术圈,因为数据湖的概念变得热了起来,一时间,数据湖,湖仓一体,智能湖仓,众多概念如雨后春笋。数据湖用来存储和处理大量结构化、半结构化和非结构化数据。提…

    2022-12-28
    02290
  • 分布式sql引擎原理分析-逻辑执行计划生成

    不管是传统数据库或者基于sql的分布式大数据分析工具,基本原理都是把一个sql转换成sql语法树(AST),通过对语法树的分析转换成执行计划。传统数据库会根据执行计划通过执行引擎并…

    2022-12-26
    01320
  • B站数据服务中台建设实践

    01 背景 随着公司业务的发展,对于数据的需求会越来越多。怎么在业务系统中高效的使用数据,让业务系统处理大数据时化繁为简,数据服务化基本是必经之路。那么什么是数据服务化,简单理解就…

    2022-12-23
    01460
  • RocketMQ Schema——让消息成为流动的结构化数据

    本文作者:许奕斌,阿里云智能高级研发工程师。 Why we need schema RocketMQ 目前对于消息体没有任何数据格式的约束,可以是 JSON ,可以是对象 toSt…

    2022-12-23
    02590
  • 程序员的数学-线性代数 PDF下载

    基本内容   本书沿袭“程序员的数学”系列平易近人的风格,用通俗的语言和具象的图表深入讲解了编程中所需的线性代数知识。内容包括向量、矩阵、行列式、秩、逆矩阵、线性方程、LU分解、特…

    2022-12-18
    01540
  • 程序员的数学-概率统计 PDF下载

    基本内容   《程序员的数学2:概率统计》沿袭《程序员的数学》平易近人的风格,用通俗的语言和具体的图表深入讲解程序员必须掌握的各类概率统计知识,例证丰富,讲解明晰,且提供了大量扩展…

    2022-12-18
    03660
  • 程序员的数学 PDF下载

    基本介绍 《程序员的数学 第2版》面向程序员介绍了编程中常用的数学知识,借以培养初级程序员的数学思维。读者无须精通编程,也无须精通数学,只要具备四则运算和乘方等基础知识,即可阅读本…

    2022-12-18
    01720
  • RocketMQ 在网易云音乐的实践

    本文作者:蒋星韬,网易云音乐服务端开发工程师。 云音乐线上场景众多,比如直播、评论、广告,各个业务线都会有消息场景比如发奖券,也会有延迟消息和事务消息场景,以及大数据做埋点数据、数…

    2022-12-17
    02340