Spark：不能创建Managed表，External表已存在...

1.1、Hive on Spark

Hive默认使用MapReduce作为执行引擎，即Hive on MapReduce。实际上，Hive还可以使用Tez或Spark作为其执行引擎，分别为Hive on Tez和Hive on Spark

由于MapReduce的中间计算均需要写入磁盘，Spark则是存入内存，所以总体来讲，Spark比MapReduce效率高很多，因此，企业也较少使用MapReduce

Hive on Spark是Hive既作为存储又负责SQL的编译、解析和优化，Spark只负责执行。这里Hive的执行引擎换成了Spark，不再是MapReduce

1.2、Spark on Hive

Spark on Hive是Hive只作为存储角色，Spark负责SQL的编译、解析、优化和执行。这里可以理解为Spark通过SparkSQL使用Hive语法操作Hive表，底层运行的仍然是Spark RDD

具体步骤如下：

也就是说，Spark使用Hive来提供表的Metadata信息

前些天，在基于Spark数仓建表时，报了如下错误：

Can not create the managed table('db.table'). The associated location('hdfs://date/warehouse/tablespace/external/hive/db/table') already exists.

报错信息显示：不能创建管理表，外表已存在…

不得不说，这个报错还真有点奇怪…

事情的起因也很简单，由于我们使用的是Spark数仓，即Spark on Hive模式，相较于Hive，Spark建表默认为外（External）表，而Hive是管理（Managed）表

由于基于Spark on Hive，因此，Spark在获取Hive表的数据时会先去获取Hive的元数据信息，因此，Spark建表会先根据元数据信息校验管理表是否存在，如果已经存在一个相同的管理表，Spark建表则会报如上异常

解决的方案也很简单，删除已存在的不必要的管理表，然后重新建表；或者创建管理表不存在的Spark表即可

参考文章：
https://baijiahao.baidu.com/s?id=1757731374695957147&wfr=spider&for=pc

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/10778.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！