从Hive迁移到SparkSQL，有赞的大数据实践

#从Hive迁移到SparkSQL，有赞的大数据实践| 来源: 网络整理| 查看: 265

有赞数据平台从2017年上半年开始，逐步使用SparkSQL替代Hive执行离线任务，目前SparkSQL每天的运行作业数量5000个，占离线作业数目的55%，消耗的cpu资源占集群总资源的50%左右。本文介绍由SparkSQL替换Hive过程中碰到的问题以及处理经验和优化建议，包括以下方面的内容：有赞数据平台的整体架构。SparkSQL在有赞的技术演进。从Hive到SparkSQL的迁移之路。首先介绍一下有赞大数据平台总体架构：如下图所示，底层是数据导入部分，其中DataY区别于开源届的全量导入导出工具alibaba/DataX，是有赞内部研发的离线Mysql增量导入Hive的工具，把Hiv

【本文地址】

公司简介

联系我们