大数据技术--实验06-Spark的安装与使用【实测可行】

下面详细讲解有关Hadoop2.6.0上的spark1.5.2集群如何搭建。

一、Spark安装前提

安装Spark之前需要先安装Hadoop集群,因为之前已经安装了hadoop,所以我直接在之前的hadoop集群上安装spark,选择master以及slave安装spark集群。

二、Spark安装步骤:

1.下载scala-2.11.7.tgz

http://www.scala-lang.org/download/2.11.7.html

2.下载spark-1.5.2-bin-hadoop2.6.tgz(之前安装的hadoop是2.6.0的)

    http://www.apache.org/dyn/closer.lua/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz

3.安装Scala(在master上):

    cd /home/hadoop

    tar -zxvf scala-2.11.7.tgz -C ~/local/opt

    修改环境变量,添加SCALA_HOME,并修改PATH即可:

[hadoop@master ~]$ vim ~/.bashrc

将scala添加到环境变量中

export SCALA_HOME=/home/hadoop/local/opt/scala-2.11.7

并修改环境变量:

export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin:$HBASE_HOME/bin:$SCALA_HOME/bin

    使配置立即生效:

source ~/.bashrc

    验证是否安装成功

scala –version

    显示如下:

Scala code runner version 2.11.7 -- Copyright 2002-2013, LAMP/EPFL

4.将/home/hadoop/local/opt/scala-2.11.7从master复制到另外一台机器slave上。

      cd local/opt

      scp -r scala-2.11.7 hadoop@slave:local/opt

5.安装Spark(在master上):

    cd /home/hadoop

    tar -zxvf spark-1.5.2-bin-hadoop2.6.tgz -C ~/local/opt

    修改环境变量:将SPARK_HOME添加进去,并修改PATH即可。

[hadoop@master ~]$ vim ~/.bashrc

将spark添加到环境变量中

export SPARK_HOME=/home/hadoop/local/opt/spark-1.5.2-bin-hadoop2.6

并修改环境变量:

export PATH=$PATH:$HADOOP_PREFIX/bin:$HADOOP_PREFIX/sbin:$HBASE_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

    是配置立即生效:

source ~/.bashrc

6. 修改配置文件

6.1 修改spark-env.sh配置文件:

cd /home/hadoop/local/opt/spark-1.5.2-bin-hadoop2.6/conf

cp spark-env.sh.template spark-env.sh

vim spark-env.sh

在后面追加

###jdk dir

export JAVA_HOME=/usr/lib/jvm/java

###scala dir

export SCALA_HOME=/home/hadoop/local/opt/scala-2.11.7

###the ip of master node of spark

export SPARK_MASTER_IP=192.168.42.128

###the max memory size of worker

export SPARK_WORKER_MEMORY=512m

###hadoop configuration file dir

export HADOOP_PREFIX=/home/hadoop/local/opt/hadoop-2.6.0

export HADOOP_CONF_DIR=$HADOOP_PREFIX/etc/hadoop

6.2 修改slaves文件

cd /home/hadoop/local/opt/spark-1.5.2-bin-hadoop2.6/conf

cp slaves.template slaves

vim slaves

添加如下(可能有默认localhost,将其改成master):

master

slave

7.将/home/hadoop/local/opt/spark-1.5.2-bin-hadoop2.6复制到slave

   cd local/opt

   scp -r spark-1.5.2-bin-hadoop2.6 hadoop@slave:local/opt

    

8.到此Spark集群搭建完毕。

9.启动Spark集群:

    启动Spark之前需要先将hadoop的dfs以及yarn启动。

[hadoop@master ~]$ start-all.sh

[hadoop@master ~]$ local/opt/spark-1.5.2-bin-hadoop2.6/sbin/start-all.sh

    启动所有服务之后,在命令行输入jps,显示如下:

        

    比hadoop集群启动时多了Master和worker

    输入如下命令

cd /home/hadoop/local/opt/spark-1.5.2-bin-hadoop2.6/bin

spark-shell

    出现scala>时说明成功。

    在浏览器中输入192.168.42.128:8080时,会看到如下图,有两个Worker

在浏览器中输入192.168.42.128:4040

出现如图:

三、运行实例wordcount实例:

hadoop fs -mkdir /user/spark

vim word.txt  #输入一段英文

hadoop fs -put word.txt /user/spark/word.txt

hadoop fs -cat /user/spark/word.txt

scala>var textcount=sc.textFile("hdfs://master:8020/user/spark/word.txt").filter(line=>line.contains("wh")).count()

显示结果如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1487088.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【JavaEE】线程安全问题

目录 一.线程安全问题 1.什么是线程安全 2.线程不安全的原因 3.如何解决线程安全问题? 3.1synchronized的使用方式 3.2解决示例自增带来的线程安全问题 (1)对代码块进行加锁 (2)对方法进行加锁 4.synchronized的特性 5.死锁 5.1两个线程两把锁…

Python+Flask+MySQL+日线指数与情感指数预测的股票信息查询系统【附源码,运行简单】

PythonFlaskMySQL日线指数与情感指数预测的股票信息查询系统【附源码,运行简单】 总览 1、《股票信息查询系统》1.1 方案设计说明书设计目标工具列表 2、详细设计2.1 登录2.2 程序主页面2.3 个人中心界面2.4 基金详情界面2.5 其他功能贴图 3、下载 总览 自己做的项…

H3CNE(路由基础、直连路由与静态路由)

目录 6.1 直连路由 6.2 静态路由理解性实验 6.2.1 配置直连路由 6.2.2 配置静态路由 6.3 路由表的参数与比较 6.3.1 优先级的比较 6.3.2 开销的比较 6.4 路由器中的等价路由、浮动路由、默认路由 6.4.1 等价路由 6.4.2 浮动路由 6.4.3 默认路由(缺省路由) 6.1 直连路…

C++:模板(函数模板,类模板)

目录 泛型编程 函数模板 函数模板格式 函数模板的原理 函数模板的实例化 类模板 类模板格式 类模板实例化 模板分为函数模板和类模板 在C中使用模板可以让我们实现泛型编程 泛型编程 如果我们需要实现一个加法add函数,那么会怎么实现呢? int…

opencv grabCut前景后景分割去除背景

参考: https://zhuanlan.zhihu.com/p/523954762 https://docs.opencv.org/3.4/d8/d83/tutorial_py_grabcut.html 环境本次: python 3.10 提取前景: 1、需要先把前景物体框出来 需要坐标信息,可以用windows自带的画图简单提取像素…

如何合并电脑硬盘分区?轻松合并电脑硬盘分区

在日常使用电脑的过程中,我们有时需要对硬盘进行分区管理。然而,随着时间的推移,我们可能会发现原有的分区设置不再满足需求,这时就需要对分区进行调整,甚至合并分区。那么,我们该如何合并电脑硬盘分区呢&a…

【Vue实战教程】之Vue工程化项目详解

Vue工程化项目 随着多年的发展,前端越来越模块化、组件化、工程化,这是前端发展的大趋势。webpack是目前用于构建前端工程化项目的主流工具之一,也正变得越来越重要。本章节我们来详细讲解一下如何使用webpack搭建Vue工程化项目。 1 使用we…

【数据结构】稀疏数组

问题引导 在编写五子棋程序的时候,有“存盘退出”和“续上盘”的功能。现在我们要把一个棋盘保存起来,容易想到用二维数组的方式把棋盘表示出来,但是由于在数组中很多数值取默认值0,因此记录了很多没有意义的数据。此时我们使用稀…

飞机数据网络--ARINC 664协议

飞机数据网络主要是根据ARINC 664协议规范进行数据的计算,传输转换。然而ARINC 664 英文规范太过复杂,不易理解,即使是专业人员,也需要对其进行抽丝剥茧,结合实际进行理解。本文即从基础角度简单分析一下ARINC 664 应用…

【python学习】思考-如何在PyCharm中编写一个简单的Flask应用示例以及如何用cProfile来对Python代码进行性能分析

引言 Python中有两个流行的Web框架:Django和Flask。Django是一个高级的Python Web框架,它鼓励快速开发和干净、实用的设计;Flask是一个轻量级的Web应用框架,适用于小型到大型应用。以下是使用Flask创建一个简单应用的基本步骤cPro…

【书籍推荐】探索AI大语言模型的基石与边界:《基础与前沿》

本文主要介绍了AI大语言模型的基础与前沿,希望能对学习大模型的同学们有所帮助。 文章目录 1. 前言2. 书籍推荐 2.1 内容简介2.2 本书作者2.3 本书目录2.4 适合读者 1. 前言 全球首个完全自主的 AI 软件工程师上线,它是来自 Cognition 这家初创公司…

上市公司-企业数据要素利用水平(2010-2022年)

企业数据要素利用水平数据:衡量数字化时代企业竞争力的关键指标 在数字化时代,企业对数据的收集、处理、分析和应用能力成为衡量其竞争力和创新能力的重要标准。企业数据要素利用水平的高低直接影响其市场表现和发展潜力。 企业数据要素利用水平的测算…

学习记录——day17 数据结构 队列 链式队列

队列介绍 1、队列也是操作受限的线性表:所有操作只能在端点处进行,其删除和插入必须在不同端进行 2、允许插入操作的一端称为队尾,允许删除操作的一端称为队头 3、特点:先进先出(FIFO) 4、分类: 顺序存储的栈称为顺序栈 链式存储的队列&a…

Spring Boot+WebSocket向前端推送消息

​ 博客主页: 南来_北往 🔥系列专栏:Spring Boot实战 什么是WebSocket WebSocket是一种在单个TCP连接上进行全双工通信的协议,允许服务器主动向客户端推送信息,同时也能从客户端接收信息。 WebSocket协议诞生于2008年&#…

【北京迅为】《i.MX8MM嵌入式Linux开发指南》-第三篇 嵌入式Linux驱动开发篇-第四十七章 字符设备和杂项设备总结回顾

i.MX8MM处理器采用了先进的14LPCFinFET工艺,提供更快的速度和更高的电源效率;四核Cortex-A53,单核Cortex-M4,多达五个内核 ,主频高达1.8GHz,2G DDR4内存、8G EMMC存储。千兆工业级以太网、MIPI-DSI、USB HOST、WIFI/BT…

springboot旅游规划系统-计算机毕业设计源码60967

摘 要 微信小程序的旅游规划系统设计旨在为用户提供个性化的旅游规划服务,结合Spring Boot框架实现系统的高效开发与部署。该系统利用微信小程序平台,包括用户信息管理、目的地选择、行程规划、路线推荐等功能模块,为用户提供便捷、智能的旅…

英迈中国与 Splashtop 正式达成战略合作协议

2024年7月23日,英迈中国与 Splashtop 正式达成战略合作协议,英迈中国正式成为其在中国区的战略合作伙伴。此次合作将结合 Splashtop 先进的远程桌面控制技术和英迈在技术服务与供应链管理领域的专业优势,为中国地区的用户带来更加安全的远程访…

Python:对常见报错导致的崩溃的处理

Python的注释: mac用cmd/即可 # 注释内容 代码正常运行会报以0退出,如果是1,则表示代码崩溃 age int(input(Age: )) print(age) 如果输入非数字,程序会崩溃,也就是破坏了程序,终止运行 解决方案&#xf…

Java开发之Redis

1、非关系型数据库、快、高并发、功能强大 2、为什么快?内存单线程 非阻塞的IO多路复用有效的数据类型/结构 3、应用:支持缓存、支持事务、持久化、发布订阅模型、Lua脚本 4、数据类型: 5 种基础数据类型:String(字…