在hadoop集群中,本身就有 9870端口,8088端口,19888端口 这三个页面,当使用spark作为计算引擎时,会多出8080,4040,18080这三个页面,页面就很多了,现在明确的辨别一下。
单独的Hadoop集群
9870:hdfs的页面端口 ,通讯端口9820
8088:resourceManager服务,可以看到所有正在运行的,或者运行过的任务,当你重启yarn的时候,其中所有的记录就会消失。
19888:JobHistoryServer服务,里面存放着所有过去运行过的mapreduce任务,是历史日志。重启里面的记录也不会消失
yarn中是没有单独的4040页面的,将该页面嵌入到8088内部了。
其中可以在8088页面通过点击不同的按钮进入到程序运行的详情页(类似4040),和19888页面。
单独的spark(standalone模式)
4040:当单个job任务执行时,可以进行该页面进行查看job任务的执行情况,该任务执行完成,其页面就不能进入了。
8080:master服务,可以说是类似8088,可以看到所有正在运行的,或者运行过的任务,当你重启matser时,其中的记录就会消失。
18080:HistoryServer服务,spark的历史日志服务,由于存放所有运行过的spark任务的信息
其中可以在8080页面通过点击不同的按钮进入到程序运行的详情页4040,和19888页面。
spark-yarn模式(spark+yarn)
此时启动的进程为hdfs,yarn,JobHistoryServer,HistoryServer服务
其中端口号有9870(hdfs),8088(yarn),19888(mapreduce),18080(spark)
当运行map任务或者spark任务,都会在8088页面中产生数据,此时8088页面可以看到mapreduce任务,也可以看到spark任务,两种任务是共存的。当任务运行时,可以通过相应的按钮进入运行任务的详情页面。其中mapreduce 进入的是yarn,而spark进入的就是类似standalone中的4040页面了。
而对于历史日志,从8088页面种点击history会根据任务类型的不同进入不同的历史日志页面,其中mapreduce完成后的日志会进入19888页面,而spark完成后的详情会进入18080页面。
也就是说,此时通过8088将任务运行和历史日志的所有页面汇总在了一起,可以通过8088进入不同类型进程的详情页面,或者历史日志页面。