spark 您所在的位置:网站首页 spark的部署和应用方式 spark

spark

2023-08-04 17:30| 来源: 网络整理| 查看: 265

参数说明 参数说明–master集群的master地址。如:spark://host:port,mesos://host:port,yarn-client,yarn-cluster,local[k]本地以k个worker线程执行,k一般为cpu的内核数,local[*]以尽可能多的线程数执行。

那么这个参数该如何设定?首先我们需要知道spark有哪些部署方式。 我们要部署Spark这套计算框架,有多种方式,可以部署到一台计算机,也可以是多台(cluster)。我们要去计算数据,就必须要有计算机帮我们计算,当然计算机越多(集群规模越大),我们的计算力就越强。但有时候我们只想在本机做个试验或者小型的计算,因此直接部署在单机上也是可以的。Spark部署方式可以用如下图形展示: 在这里插入图片描述

Local模式:

所谓的 Local 模式,就是不需要其他任何节点资源就可以在本地执行 Spark 代码的环境,一般用于教学,调试,演示等,而在 IDEA 中运行代码的环境我们称之为开发环境,不太一样。它可以通过以下集中方式设置master。

local: 所有计算都运行在一个线程当中,没有任何并行计算,通常我们在本机执行一些测试代码,或者练手,就用这种模式。 local[K]:指定使用几个线程来运行计算,比如local[4]就是运行4个worker线程。通常我们的cpu有几个core,就指定几个线程,最大化利用cpu的计算能力local[*]: 这种模式直接帮你按照cpu最多cores来设置线程数了。 示例: /bin/spark-submit \ --cluster cluster_name \ --master local[*] \ ...

以上这几种local模式都是运行在本地的单机版模式,通常用于练手和测试,而实际的大规模计算就需要下面要介绍的cluster模式。

cluster模式

cluster模式肯定就是运行很多机器上了,但是它又分为以下三种模式,这三种集群模式都由两个组件组成:master和slave。Master服务(YARN ResourceManager,Mesos master和Spark standalone master)决定哪些application可以运行,什么时候运行以及哪里去运行。而slave服务( YARN NodeManager, Mesos slave和Spark standalone slave)实际上运行executor进程。这三种模式的区别在于谁去管理资源调度。(说白了,就好像后勤管家,哪里需要资源,后勤管家要负责调度这些资源)

standalone模式 这种模式下,只使用 Spark 自身节点运行的集群模式,也就是我们所谓的 独立部署(Standalone)模式。Spark会自己负责资源的管理调度。它将cluster中的机器分为master机器和worker机器,master通常就一个,可以简单的理解为那个后勤管家,worker就是负责干计算任务活的苦劳力。 示例: /bin/spark-submit \ --cluster cluster_name \ --master spark://host:port \ ...

–master就是指定master那台机器的地址和端口,我想这也正是–master参数名称的由来吧。

mesos模式 mesos模式就是使用mesos来管理资源调度,Spark客户端直接连接Mesos;不需要额外构建Spark集群。国内应用比较少,更多的是运用yarn调度。 示例: /bin/spark-submit \ --cluster cluster_name \ --master mesos://host:port \ ... yarn模式 同样,如果采用yarn来管理资源调度,就应该用yarn模式,由于很多时候我们需要和mapreduce使用同一个集群,所以都采用Yarn来管理资源调度,这也是生产环境大多采用yarn模式的原因。yarn模式又分为yarn cluster模式和yarn client模式: yarn cluster: 这个就是生产环境常用的模式,所有的资源调度和计算都在集群环境上运行。yarn client: 这个是说Spark Driver和ApplicationMaster进程均在本机运行,而计算任务在cluster上。

yarn-cluster和yarn-client的区别在于yarn appMaster,每个yarn app实例有一个appMaster进程,是为app启动的第一个container;负责从ResourceManager请求资源,获取到资源后,告诉NodeManager为其启动container。yarn-cluster和yarn-client模式内部实现还是有很大的区别。如果你需要用于生产环境,那么请选择yarn-cluster;而如果你仅仅是Debug程序,可以选择yarn-client。 示例:

/bin/spark-submit \ --cluster cluster_name \ --master yarn-cluster \ ...


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有