Hive与Yarn的关系

2025年3月6日作者 unix2go

默认安装的 Hive 并不一定依赖于 YARN 服务，Hive 可以使用 Hadoop 内置的 MapReduce 引擎来执行任务，而不需要启动 YARN 服务。不过，如果你希望 Hive 使用更高效的执行引擎（如 Tez 或 Spark）或者更大规模的分布式任务调度时，YARN 是必须的。

下面我会详细解释 Hive 对 YARN 的依赖关系、默认配置以及不同执行模式下的要求。

1. 默认安装的 Hive 是否依赖 YARN？

Hive 默认使用 Hadoop 的 MapReduce 作为执行引擎（即 hive.execution.engine=mr），而 MapReduce 本身是可以在 Hadoop 的非 YARN 模式下运行的（即 Hadoop 的独立模式或伪分布式模式）。因此：

如果你使用的是默认安装的 Hive，并且没有修改其执行引擎，Hive 不需要 YARN 服务即可运行。
默认情况下，Hive 作业会通过 MapReduce 提交到 Hadoop 内置的 JobTracker（非 YARN 模式），任务直接在 Hadoop 的 MapReduce 引擎上运行。

默认配置

在默认情况下，Hive 的执行引擎配置如下：

<property>
    <name>hive.execution.engine</name>
    <value>mr</value> <!-- 默认使用 MapReduce 引擎 -->
</property>

因此，只要 HDFS 和 Hadoop（MapReduce）正确配置并启动，Hive 就可以运行，无需启动 YARN 服务 (start-yarn.sh)。

2. 如果启用 YARN，Hive 是否需要？

Hive 的执行引擎可以通过配置切换到 YARN 依赖的引擎，如 Tez 或 Spark。在这些模式下，YARN 是必须的。

常见执行引擎与 YARN 的依赖关系

执行引擎	配置 (`hive.execution.engine`)	是否需要 YARN
MapReduce (默认引擎)	`mr`	否
Tez	`tez`	是
Spark	`spark`	是

1. MapReduce 引擎

默认情况下，Hive 的任务会作为 MapReduce 作业运行，只需要 Hadoop 的 MapReduce 引擎，无需启动 YARN。
适合小规模开发和测试环境。
缺点：MapReduce 的性能较低，任务启动延迟较大。

2. Tez 引擎

如果将 Hive 配置为使用 Tez（hive.execution.engine=tez），则需要 YARN，因为 Tez 是基于 YARN 的 DAG 框架来执行任务的。
优点：Tez 性能更高，适合大规模查询和复杂作业。

3. Spark 引擎

如果选择 Spark 作为 Hive 的执行引擎，也需要依赖 YARN，因为 Spark 通常在 YARN 上运行。
优点：适合机器学习任务或对性能要求较高的场景。

3. 你是否需要启动 YARN (`start-yarn.sh`)？

这取决于你对 Hive 执行引擎的需求：

情况 1：只使用默认安装的 Hive

如果你只使用 Hive 默认的 MapReduce 引擎（hive.execution.engine=mr），不需要启动 YARN 服务，直接运行 Hadoop 的 MapReduce 即可。
验证方式：可以运行以下命令测试 Hive 是否正常工作：
- CREATE TABLE test_table (id INT, name STRING); INSERT INTO test_table VALUES (1, 'Alice'), (2, 'Bob'); SELECT * FROM test_table; 如果查询成功，说明不需要 YARN。

情况 2：切换到 Tez 或 Spark 引擎

如果你希望通过 Tez 或 Spark 提高查询性能，则需要启动 YARN 服务。
启动方式： bash复制start-yarn.sh
此外，你还需要在 Hive 的配置文件 hive-site.xml 中启用对应的执行引擎。
- 例如，启用 Tez： <property> <name>hive.execution.engine</name> <value>tez</value> </property>

4. 建议选择哪种模式？

这取决于你的使用场景：

开发和测试环境：
- 使用默认的 MapReduce 引擎，避免配置复杂性。
- 无需启动 YARN，直接运行 Hadoop 的 MapReduce 即可。
生产环境或大规模数据处理：
- 建议切换到 Tez 或 Spark 引擎（hive.execution.engine=tez 或 spark）。
- 必须启动 YARN 服务，为任务调度提供资源管理。

5. 如何检查 Hive 当前的执行引擎？

通过 Hive CLI 或 Beeline，运行以下命令查看当前的执行引擎：

SET hive.execution.engine;

如果返回 mr，说明 Hive 正在使用 MapReduce 引擎，无需 YARN。
如果返回 tez 或 spark，则需要启动 YARN。

6. 常见问题

问题 1：Hive 查询任务卡住

原因：如果 Hive 配置为 Tez 引擎，但 YARN 未启动，任务会卡住。
解决方法：
- 启动 YARN 服务（start-yarn.sh）。
- 或将 hive.execution.engine 改回 mr。

问题 2：YARN 启动后仍无法运行任务

原因：可能是 Hive 未正确配置 Tez 或 Spark。
解决方法：
- 验证 tez-site.xml 或 Spark 配置是否正确。
- 确保 Hive 的 Tez/Spark JAR 包上传到 HDFS。

总结

默认安装的 Hive 使用 MapReduce 引擎（hive.execution.engine=mr），不依赖 YARN 服务。
如果需要更高性能的执行引擎（如 Tez 或 Spark），则需要启动 YARN。
小规模开发测试环境可以直接使用默认的 MapReduce 引擎，而生产环境建议切换到 Tez 或 Spark 引擎。