摘要:本文整理自智慧芽数据仓库架构师曲明星在 Flink Forward Asia 2021 实时数仓专场的分享。本篇内容主要分为三个部分:
-
产品架构 -
技术架构 -
未来计划
产品架构
上图是智慧芽APP 的产品架构图,包括后台管理系统、AI、内容引擎、帮助中心,为客户提供知识产权信息化服务和科技创新情报系统。
技术架构
2.1 原实时分析方案
上图是原来的实时分析方案。流程大致是客户检索一个条件,通过分析 API 把客户检索的相关条件发送到不同的搜索引擎。这种方案会产生 4 个问题:
-
对检索性能产生影响;
-
复杂分析需要开发插件支持; -
跨多个搜索引擎分析复杂度高; -
不同维度的数据无法存储。
-
秒级响应; -
准实时数据更新; -
能支持一定量的并发能力; -
与搜索引擎数据保持一致; -
支持复杂分析的能力; -
支持统一使用方式及主流特性; -
支持与搜索引擎交互; -
支持存储容量横向扩展的能力。
-
最下层是数据底座,包括数据存储和数据计算,其中数据计算层由 Spark、Kafka、Flink 组成; -
中间层是数据平台,包括数据开发、数据分类、数据管理和数据服务; -
上层是数据应用,主要有数据业务、外部分析服务和内部分析业务构成。
2.2 新实时分析方案
2.3 原用户行为分析方案
2.4 新用户行为分析方案
2.5 Flink + Iceberge 探索
未来计划
-
云原生数据库架构迁移;
-
提供更完善的指标和取数系统; -
建设数据生产的全链路监控和预警; -
供支撑公司数据消费和服务能力; -
在线实时分析数仓及其数据处理管道的继续演进; -
打造云原生数据技术体系和新一代大数据平台; -
提供数据网关入口,提供统一的数据出口、提高数据应用效率。
公司简介:Patsnap 是一家科技创新情报 SaaS 服务商。通过机器学习、计算机视觉、自然语言处理(NLP)等人工智能技术为全球领先的科技公司、高校和科研机构、金融机构等提供大数据情报服务。
本文转载自曲明星@智慧芽 Apache Flink,原文链接:https://mp.weixin.qq.com/s/m6gkTqsAm0esyEL0XKurNA。