管梓越,大数据开发工程师, 现就职于字节跳动推荐架构部门。专注于hudi在机器学习场景下的开发与应用。支持抖音,今日头条等产品的机器学习场景下的架构工作。
本次分享会涉及在搜索推荐广告等机器学习系统中两个场景下的数据湖应用。首先是在离线特征工程迭代场景中,实现离线样本数据的流式/批式插入,更新,删除,merge,从而支持模型训练场景中的样本拼接,特征回溯,数据退场等需求。除此之外,在推荐系统中,大量使用了LSM Tree型的存储引擎来作为数据存储,为了能够方便得在离线批式场景中高效使用这些数据,我们使用数据湖来承接这类存储引擎的CDC需求,从而降低这类数据的获取和消费门槛,提高了使用效率。在这过程中,我们还会分享在应对高吞吐,复杂数据模型和多种数据语义等性能挑战的一些实践。
pdf下载:下载
本文为从大数据到人工智能博主「xiaozhch5」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://lrting.top/backend/3483/