从Hive迁移到SparkSQL,有赞的大数据实践 您所在的位置:网站首页 sparksql优化方法 从Hive迁移到SparkSQL,有赞的大数据实践

从Hive迁移到SparkSQL,有赞的大数据实践

#从Hive迁移到SparkSQL,有赞的大数据实践| 来源: 网络整理| 查看: 265

有赞数据平台从2017年上半年开始,逐步使用SparkSQL替代Hive执行离线任务,目前SparkSQL每天的运行作业数量5000个,占离线作业数目的55%,消耗的cpu资源占集群总资源的50%左右。本文介绍由SparkSQL替换Hive过程中碰到的问题以及处理经验和优化建议,包括以下方面的内容:有赞数据平台的整体架构。SparkSQL在有赞的技术演进。从Hive到SparkSQL的迁移之路。首先介绍一下有赞大数据平台总体架构:如下图所示,底层是数据导入部分,其中DataY区别于开源届的全量导入导出工具alibaba/DataX,是有赞内部研发的离线Mysql增量导入Hive的工具,把Hiv



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有