当前位置：首页 > news >正文

Spark 配置 YARN 模式

news 2025/4/30 5:51:53

在大数据处理领域，Spark 是一个强大的分布式计算框架，而 YARN（Yet Another Resource Negotiator）则是 Hadoop 生态系统中出色的资源管理器。将 Spark 配置为 YARN 模式，可以充分利用 YARN 高效的资源管理和调度能力，提升 Spark 应用程序的运行效率和资源利用率。下面将详细介绍如何进行 Spark 配置 YARN 模式的操作。

一、环境准备

1. 确保 Hadoop 已正确安装和配置

首先，需要安装 Hadoop，并配置好 HDFS（Hadoop Distributed File System）和 YARN 服务。确认 Hadoop 集群各节点之间的通信正常，且 NameNode、DataNode、ResourceManager、NodeManager 等进程能够正常启动和运行。
例如，在配置文件core - site.xml中设置 HDFS 的默认地址，在hdfs - site.xml中配置 HDFS 的相关参数，在yarn - site.xml中配置 YARN 的资源调度等参数。

2. 安装 Spark

从 Spark 官方网站下载合适版本的 Spark 安装包，解压到指定目录。例如，解压到/opt/module/spark 。

二、配置 Spark

1. 修改 spark - env.sh 文件

进入/opt/module/spark/conf目录（如果没有spark - env.sh文件，可以复制spark - env.sh.template并重命名为spark - env.sh ）。
在spark - env.sh文件中添加以下内容：
```
export HADOOP_CONF_DIR=/path/to/hadoop/conf  # 这里的路径指向Hadoop的配置文件目录，例如/opt/module/hadoop/etc/hadoop
```
这一步是为了让 Spark 能够读取 Hadoop 的配置信息，从而与 Hadoop 集群进行交互。

2. 修改 spark - default.conf 文件（可选）

同样在conf目录下，spark - default.conf文件用于配置 Spark 的默认参数。可以根据实际需求修改一些参数，比如：

spark.master yarn  # 指定Spark的运行模式为YARN
spark.submit.deployMode client  # 这里设置部署模式为client模式，还有cluster模式可选。client模式下，Driver在本地运行，适合调试；cluster模式下，Driver在YARN集群中运行

三、提交 Spark 应用程序到 YARN 模式

1. 打包应用程序（如果是自定义的 Spark 应用）

如果开发了自己的 Spark 应用程序，需要将其打包成 JAR 包。可以使用 Maven 或 Gradle 等构建工具进行打包，确保依赖项都包含在 JAR 包中。
2. 提交应用程序

使用以下命令提交 Spark 应用程序到 YARN 集群：

spark - submit \
--class com.example.YourSparkAppClass \  # 替换为实际的应用程序主类
--master yarn \
--deploy - mode client \  # 根据需求选择client或cluster模式
/path/to/your/app.jar \  # 应用程序JAR包的路径
[application - arguments]  # 应用程序的参数，可根据实际情况添加

例如，提交一个简单的 WordCount 应用程序：

spark - submit \
--class org.apache.spark.examples.JavaWordCount \
--master yarn \
--deploy - mode client \
/opt/module/spark/examples/jars/spark - examples.jar \
hdfs:///input.txt hdfs:///output.txt

这里指定了 WordCount 应用程序的类名，运行模式为 YARN，部署模式为 client，应用程序 JAR 包路径以及输入输出文件在 HDFS 上的路径。

四、监控和管理应用程序

1. YARN Web 界面

可以通过访问 YARN 的 ResourceManager 的 Web 界面（通常是http://<resource - manager - host>:8088 ）来查看正在运行的 Spark 应用程序的资源使用情况、任务执行进度等信息。在界面中可以看到应用程序的状态、分配的容器数量、内存使用等详细数据。
2. Spark Web 界面
Spark 也提供了自身的 Web 界面来监控应用程序。对于 client 模式的应用程序，在本地启动的 Driver 会有一个 Web 界面（默认端口为 4040 ），可以查看任务的详细执行日志、阶段划分、Shuffle 过程等信息，方便进行调试和性能优化。
五、总结

通过以上步骤，我们成功地将 Spark 配置为 YARN 模式，并能够在 YARN 集群上提交和运行 Spark 应用程序。这种配置方式使得 Spark 能够充分利用 YARN 强大的资源管理能力，在大数据处理场景中更加高效地运行。在实际应用中，还可以根据具体的业务需求和集群资源情况，进一步调整 Spark 和 YARN 的相关配置参数，以达到最优的性能表现。