后端

Flink

快收藏！优化 Apache Flink 应用程序的 7 个技巧！

在 Shopify 中，我们将Apache Flink作为标准的有状态流媒体引擎，为我们的BFCM Live Map等各种用例提供支持。我们的 Flink 应用程序部署在利用Goo…

bajiebajie2333
2022-08-03
038200
中原银行实时风控体系建设实践

摘要：本文整理自中原银行数据平台中心开发工程师陈玉强在 Flink Forward Asia 2021 行业实践专场的演讲。主要内容包括：建设体系选型 & 架构应用场…

xiaozhch5
2022-08-02 • Flink
027000
后端

向阿鲲：B站基于Iceberg + Alluxio 助力湖仓一体项目落地实践

分享嘉宾：向阿鲲哔哩哔哩编辑整理：曾新宇对外经贸大学出品平台：DataFunTalk 导读：大家好，我是来自哔哩哔哩OLAP平台的向阿鲲。今天主要是跟大家分享B站基于Ice…

bajiebajie2333
2022-08-01
036000
Hudi

基于Apache Hudi的多库多表实时入湖最佳实践

1. 前言 CDC(Change Data Capture)从广义上讲所有能够捕获变更数据的技术都可以称为CDC，但本篇文章中对CDC的定义限定为以非侵入的方式实时捕获数据库的变更…

jellyfin
2022-08-01
091600
Alluxio

使用 Presto 和 Alluxio 在 AWS 上搭建高性能平台来支持实时游戏服务

概要速览美国艺电 (EA) 是游戏行业的翘楚，每年为全球几十亿用户提供数十款游戏。能否针对EA的在线服务做出近实时决策对于业务发展至关重要。本文介绍了在AWS上搭建的基于Pres…

maolv, xiao
2022-08-01
023510
如何从0到1构建一个稳定、高性能的Redis集群？（附16张图解）

导语 | Redis持久化、主从复制、哨兵、分片集群，每个概念单独来看都很容易理解，但它们之间存在哪些联系？Redis为什么会演化出这几种架构模式？这篇文章告诉你答案。引言现…

xiaozhch5
2022-08-01 • 后端
024200
后端

酷开科技 × StarRocks：统一 OLAP 分析引擎，全面打造数字化的 OTT 模式

作者：周桂民，大数据架构师和负责人，主要负责大数据平台基础建设工作酷开科技，全称深圳市酷开网络科技股份有限公司，成立于 2006 年，自主研发了智能电视操作系统——酷开系统。酷开…

bajiebajie2333
2022-08-01
019500
Durid

Apache Druid介绍

什么是 Druid Apache Druid 是一个实时分析型数据库，旨在对大型数据集进行快速查询和分析（"OLAP" 查询)。 Druid 最常被当做数据库，…

xiaozhch5
2022-07-31
073400
后端

网易日志采集传输服务Datastream-ng的建设与优化

分享嘉宾：陈志辉网易数据平台开发工程师编辑整理：段艺腾讯出品平台：DataFunTalk 导读：在互联网应用场景下，日志是常见的数据来源。高效、稳定的日志采集传输服务对于…

今天还想吃蛋糕
2022-07-31
030500
后端

从RabbitMQ平滑迁移到RocketMQ技术实战

作者：vivo 互联网中间件团队- Liu Runyun 大量业务使用消息中间件进行系统间的解耦、异步化、削峰填谷设计实现。公司内部前期基于RabbitMQ实现了一套高可用的消息中…

xiaozhch5
2022-07-31
017700
人工智能

推荐系统-协同过滤在Spark中的实现

作者：vivo 互联网服务器团队-Tang Shutao 现如今推荐无处不在，例如抖音、淘宝、京东App均能见到推荐系统的身影，其背后涉及许多的技术。本文以经典的协同过滤为切入点…

xiaozhch5
2022-07-31
022100
信通院闫树：隐私计算行业发展及合规发展思考

分享嘉宾：闫树博士信通院云大所副主任编辑整理：毕东海大连理工大学出品平台：DataFunTalk 导读：本文将介绍关于隐私计算行业发展及合规发展的一些思考。主要包括以下几…

今天还想吃蛋糕
2022-07-31 • 后端
045600
后端

服务器内存故障预测居然可以这样做！

作者：vivo 互联网服务器团队- Hao Chan 随着互联网业务的快速发展，基础设施的可用性也越来越受到业界的关注。内存发生故障的故障率高、频次多、影响大，这些对于上层业务而…

bajiebajie2333
2022-07-31
029100
后端

B站接入层网络演进实践

本期作者哔哩哔哩系统部网络团队负责B站数据中心网络规划、设计、建设、运维与优化，为公司业务提供稳定且可靠的网络服务。整个团队专注于数据中心内网、骨干网络、负载均衡、传输网络、虚…

jellyfin
2022-07-30
055200
人工智能

腾讯音乐栾鹏：cube-studio开源一站式云原生机器学习平台

分享嘉宾：栾鹏腾讯音乐高级数据工程师编辑整理：许世杰西电出品平台：DataFunTalk 导读：本文将分享腾讯音乐云原生一站式机器学习平台的功能及未来规划。开源地址： h…

xiaozhch5
2022-07-30
087300
后端

阿里面试官：如何回答消息队列的丢失、重复与积压问题

面试官在面试候选人时，如果发现候选人的简历中写了在项目中使用了 MQ 技术（如Kafka、RabbitMQ、RocketMQ），基本都会抛出一个问题：在使用 MQ的时候，怎么确保消…

xiaozhch5
2022-07-30
021500
后端

VMware虚拟机下ubuntu磁盘扩容（亲测有效）

虚拟机一般情况下我们会分配大约20G左右的磁盘空间大小，但是在使用的过程中，比如安装一些所占磁盘空间较大的包的时候或者使用虚拟机进行ROS开发的时候，往往发现虚拟机的磁盘空间大小不…

bajiebajie2333
2022-07-29
12.9K00
Hive

【Hive】hive 数据倾斜、优化策略、hive执行过程、垃圾回收

1. 数据倾斜 1.1 什么是数据倾斜？由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点 Hadoop 框架的特性不怕数据大，怕数据倾斜 Jobs 数比较多的作业运行…

bajiebajie2333
2022-07-29
020100
后端

IDEA创建Scala项目详细教程（以maven项目为例子）

IDEA创建Scala项目简介前提准备详细操作流程简介最近在复习Scala知识，之前没有记录IDEA创建Scala(以maven项目为准)项目。这篇文章将记录创建的整个详…

jetty
2022-07-29
063500
后端

数据治理体系演进简介

网易内部如严选、云音乐、传媒等数据团队对数据内容体系的治理思路都是将治理规范融入到开发过程中，将治理的动作提前，这其实就是“开发治理一体化”；事后依赖数据资产健康评估和治理工具进行…

xiaozhch5
2022-07-28
034200