从大数据到人工智能

如何判断RAG（检索增强生成）和代理系统实际上是否有效

随着人工智能领域的不断发展，无论是模型的开发还是围绕这些模型构建应用程序的范式的进步，一些常见的设计趋势已经出现。两个常见的趋势是： • 检索增强生成（RAG）：一…

xiaozhch5

2025-04-23 • 其他

08600

其他

使用PDF到Markdown API实现高效文档转换

使用PDF到Markdown API实现高效文档转换项目地址：https://github.com/xiaozhch5/pdf2md-server 在数字化时代，文…

xiaozhch5

2025-04-23

030300

其他

17种提示工程技术及其使用时机

17种提示工程技术及其使用时机从简单到高级的例子 17 种提示工程技术| 作者图片提示词是你与大型语言模型（LLM）直接交互的方式。如果你想更好地控制大型语言模…

xiaozhch5

2025-04-23

010200

spark sql运维，spark ui你必须看得懂！

Apache Spark 提供了一套 web 用户界面（UI），可以用来监控 Spark 集群的状态和资源消耗情况。本文翻译自spark UI官方文档：https://spark.…

xiaozhch5

2024-11-01 • Spark

034610

释放大数据的潜力：基于kyuubi + spark + celeborn在 Kubernetes 上构建高效的计算集群入门

在大数据处理领域，如何高效地管理和分析海量数据是每个企业都面临的挑战。Kyuubi 和 Apache Spark 是广泛应用的大数据处理工具，而 Celeborn 则作为 Spar…

xiaozhch5

2024-11-01 • Spark

028100

paimon

spark使用apache paimon入门

在之前的文章，我们说到flink写入paimon入门，本文则使用spark引擎进行操作。组件版本 paimon 0.9.0hadoop 3.3.4hive 3.1.3spark …

xiaozhch5

2024-09-23

047900

flink使用apache paimon入门

数据湖作为统一、灵活且可扩展的数据存储平台，对于提高数据分析效率、降低成本、增强数据治理和推动企业数字化转型具有核心价值，是实现数据驱动决策和业务创新的基石。 Apache Pai…

xiaozhch5

2024-09-23 • paimon

021810

其他

自决策多轮对话智能体的初步实现

随着大模型的发展，智能体也是越来越火。看到的很多例子是通过构建DAG的形式形成Agent链，和我需要的不太一样。周末有点时间也是改造了一下之前做的个人超级中心，以初步实现自决策多轮…

xiaozhch5

2024-09-14

027100

其他

Langchain入门

LangChain 是一个用于开发由语言模型支持的应用程序的框架。它使应用程序能够：具有上下文感知能力：将语言模型连接到上下文源（提示说明、一些镜头示例、响应的内容等）推理：…

xiaozhch5

2023-12-10

050300

k8s

Kubernetes 1.28：Sidecar 容器、Job和Proxy的新功能

Kubernetes 1.28 现已发布，具有 44 项新的或改进的增强功能！此版本包含许多主要功能，例如对 sidecar 容器的内置支持、作业优化和更好的代理。这些新功能可…

xiaozhch5

2023-08-31

018800

后端

使用 Kubernetes 进行蓝绿部署

蓝绿部署是一种用于设置两个相同环境的软件部署技术。服务实时流量的活动环境称为蓝色环境，空闲环境称为绿色环境。新版本软件部署在绿色环境中，经过测试验证正常后，流量从蓝色环境转移到…

xiaozhch5

2023-08-29

017500

人工智能

程序员不能不知道的13个AI开发工具

随着人工智能的进步，开发行业已经发展到了新的水平。目前，人工智能工具在开发者中很受欢迎，因为它正在迅速重塑开发行业。使用人工智能工具，开发人员可以自动执行重复性和日常任务，探索…

xiaozhch5

2023-08-29

021800

后端

Harbor镜像仓库安装指南

总览 Harbor 是一个开源的企业级容器镜像注册中心和仓库管理系统。它提供了一个安全可靠的平台，用于存储、分发和管理容器镜像。以下是 Harbor 的基本介绍：容器镜像注册中心…

xiaozhch5

2023-08-29

023000

Java

5个关键问题让单元测试的价值最大化

阿里妹导读本文讨论的单元测试策略来自于实践中遇到的真实问题，作者总结出了5个关键策略问题并给出了解决之道。一、背景关于“什么是单元测试”、“为什么要做单元测试”、“怎么做单元…

bajiebajie2333

2023-08-08

019200

Alluxio

Alluxio权限体系

该文档介绍Alluxio安全性相关的的功能。身份验证: 如果alluxio.security.authentication.type=SIMPLE(默认情况下)， Alluxio…

xiaozhch5

2023-08-03

020700

Flink

Flink SQL Gateway提交任务到flink on k8s集群

Flink SQL Gateway是一项允许多个客户端从远程并发执行 SQL 的服务。它提供了一种简单的方法来提交 Flink 作业、查找元数据并在线分析数据。在Flink 1.…

xiaozhch5

2023-07-16

064900

后端

腾讯大数据平台大脑AI探索与实践

导读近年来大数据业务规模迅速增长，为大数据平台运营治理带来了新的挑战：海量大数据任务的治理，缺乏统一、标准的数据与评估模型和治理工具，难以支持对大数据任务执行效率、稳定性等进行持…

xiaozhch5

2023-07-15

025500

Hudi

加速LakeHouse ACID Upsert的新写时复制方案

概述随着存储表格式 Apache Hudi、Apache Iceberg 和 Delta Lake 的发展，越来越多的公司正在这些格式的基础上构建其 Lakehouse，以用于许…

xiaozhch5

2023-07-15

021000

后端

debezium采集MySQL CDC指南

Debezium 是一个开源的分布式平台，用于捕获数据库的变更数据（Change Data Capture，CDC）。它支持多种数据库，包括 MySQL。下面我们详细说一下如何进行…

xiaozhch5

2023-07-12

035900

Spark

Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

作者：张凯@阿里云、陳韋廷@Intel、周渊@Intel 一、简介 Apache Celeborn(Incubating) 是阿里云捐赠给 Apache 的通用 Remote Sh…

xiaozhch5

2023-07-10

035100

专题介绍 大数据专题 查看更多专题

专题介绍大数据专题查看更多专题