spark-本地模式的配置和简单使用

python环境的安装

        在虚拟机中,只能安装一个python的版本,若想要安装别的版本,则需要卸载之前的版本——解决方式,安装Anaconda 

通过百度网盘分享的文件:Anaconda3-2021.05-Linux-x86_64.sh
链接:https://pan.baidu.com/s/1e3rvqD0G7eSEP_7di8uzxQ?pwd=do8s 
提取码:do8s

1、上传Anaconda3-2021.05-Linux-x86_64.sh 到/opt/installs下
2、执行文件:sh Anaconda3-2021.05-Linux-x86_64.sh
3、开始安装
# 过程#第一次:【直接回车,然后按q】Please, press ENTER to continue>>>#第二次:【输入yes】Do you accept the license terms? [yes|no][no] >>> yes#第三次:【输入解压路径:/opt/installs/anaconda3】[/root/anaconda3] >>> /opt/installs/anaconda3#第四次:【输入yes,是否在用户的.bashrc文件中初始化Anaconda3的相关内容】Do you wish the installer to initialize  Anaconda3by running conda init? [yes|no][no] >>> yes
4、刷新环境变量source /root/.bashrc
5、激活虚拟环境,如果需要关闭就使用:conda deactivate# 默认会进入 base中 或者在后面加参数
conda activate # 配置成功 会出现
(base) [root@bigdata01 modules]#6、此时Anaconda已经下载完成 而在Anaconda中自带了一个python3——3.8.8#可以看一下cd /opt/installs/anaconda3/bin/python3# 而linux中自带的python是2.7.5 
7、创建软连接
ln -s /opt/installs/anaconda3/bin/python3 /usr/bin/python3

Anaconda 的命令

conda list:列举所有的包
conda install 包名:安装库包
conda remove 包名:移除库包base:Anaconda自带的基础环境
# 切换
conda activate base
# 关闭
conda deactivate

spark本地模式的配置

通过百度网盘分享的文件:spark-3.1.2-bin-hadoop3.2.tgz
链接:https://pan.baidu.com/s/1J2-d_qEubjcAXq_8LYi_hA?pwd=sgtm 
提取码:sgtm

        由于需要进行本地模式 集群-standalone 集群-yarn 三种模式的配置,所以后续是需要将该解压包解压三次的,通过创建软连接连接到不同的模式,若要修改只需要删除软连接,重新创建即可。

1、上传(上传到/opt/modules 下),解压(解压到/opt/installs 下),重命名
tar -zxvf /opt/install/spark-3.1.2-bin-hadoop3.2.tgz -C /opt/modules
mv spark-3.1.2-bin-hadoop3.2/ spark-local
2、创建一个软连接
ln -s spark-local spark
3、配置环境变量 vi /etc/profile
export SPARK_HOME=/opt/installs/spark
export PATH=$PATH:$SPARK_HOME/bin
4、刷新环境变量
source /etc/profile

本地模式的简单使用

运行自带或上传的py文件

spark-submit --master local[2] /opt/installs/spark/examples/src/main/python/pi.py  100

黑窗口的使用

/opt/installs/spark/bin/pyspark --master local[2]

此时会进入一个黑窗口

# 需求:将一个包含 1~ 10 共10个元素的列表,使用Spark实现分布式处理,将每个元素的平方输出# 1、定义一个列表
list1 = [1,2,3,4,5,6,7,8,9,10]
# 2、将列表通过SparkContext将数据转换为一个分布式集合RDD——将一个list变为Rdd对象
inputRdd = sc.parallelize(list1)# 获取行数 10行
inputRdd.count()
# 获取前n行的内容 ,放到一个list中,每行占一个
fileRdd.take(3)# 调用Rdd中的map方法 返回还是一个Rdd 
rsRdd = inputRdd.map(lambda x : x**2)# 将结果RDD的每个元素进行输出
rsRdd.foreach(lambda x : print(x))

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/6033.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

将vscode的终端改为cygwin terminal

现在终端是默认的power shell,没有显示cygwin 接下来选择默认配置文件 找到cygwin的选项即可 然后提示可能不安全什么的,点是,就有了

Node.js简介以及安装部署 (基础介绍 一)

Node.js简介 Node.js是运行在服务端的JavaScript。 Node.js是一个基于Chrome JavaScript运行时建立的一个平台。 Node.js是一个事件驱动I/O服务端JavaScript环境,基于Google的V8引擎,V8引擎执行Javascript的速度非常快,性能非常好。 Node.…

【MySQL 保姆级教学】深层理解索引及其特性(重点)--上(11)

MySQL与磁盘 1. MySQL与内存和磁盘的联系2. 认识磁盘2.1 MySQL与存储2.2 磁盘结构2.3 扇区2.4 定位扇区 3. MySQL与磁盘交互基本单位4. 建立共识5. 索引的理解5.1 建立一个表并查询5.2 为何 I/O 交互要是Page 6. B树 Vs B 树数6.1 不同存储引擎支持的索引结构类型6.2 B树 Vs B树…

修改云服务器远程默认端口

操作场景 由于使用系统默认端口的风险较大,容易被攻击软件扫描以及攻击,为避免因端口攻击而无法远程连接云服务器,您可将云服务器默认远程端口修改为不常见的端口,提高云服务器的安全性。 修改服务端口需在安全组规则与云服务器…

0xGame 2024 [Week 4] Jenkins

1.前言 由于好久没做web题了,所以今天来尝试来做一波web题,仅供刷题记录。 2.题目 这个给的提示对于小白来说实在是友好的过劲。 3.分析 上网搜到一个关于Jenkins的历史漏洞,下面链接可供参考 https://blog.csdn.net/2301_80127209/arti…

10天进阶webpack---(1)为什么要有webpack

首先就是我们的代码是运行在浏览器上的,但是我们开发大多都是利用node进行开发的,在浏览器中并没有node提供的那些环境。这就造成了运行和开发上的不同步问题。 -----引言 浏览器模块化的问题: 效率问题:精细的模块划分带来了更…

好累-还要复习

第一次碰到无极值改变区间长度特征值的关系迹对应的特征向量是原来的一列 共轭的考虑两项相加 那么就有两种情况 观察数列函数,构建拉格朗日(非常重要)

Maven从浅入深(理解篇)

前言 在软件开发领域,包管理器是不可或缺的工具,它们帮助开发者管理和维护项目中的依赖库。通过对比.NET的NuGet包、Python的pip包以及Java的Maven,我们可以从原理上更深刻地理解这些工具的作用和差异。 1. NuGet(.NET&#xff0…

Ollama AI 框架缺陷可能导致 DoS、模型盗窃和中毒

近日,东方联盟网络安全研究人员披露了 Ollama 人工智能 (AI) 框架中的六个安全漏洞,恶意行为者可能会利用这些漏洞执行各种操作,包括拒绝服务、模型中毒和模型盗窃。 知名网络安全专家、东方联盟创始人郭盛华表示:“总的来说&…

【多模态读论文系列】MINIGPT-4论文笔记

【多模态读论文系列】LLaMA-Adapter V2论文笔记 【多模态读论文系列】LLaVA论文笔记 分享第三篇多模态论文阅读笔记 MINIGPT-4: ENHANCING VISION-LANGUAGE UNDERSTANDING WITH ADVANCED LARGE LANGUAGE MODELS 论文地址:https://arxiv.org/pdf/2304.10592 代码…

安信金控:古法金与普通金的区别

古法金和普通金在制作工艺、外观特点、硬度和耐磨性以及价格等方面存在明显差异。本文详细比较了古法金与普通金的区别,供大家参考。 一、制作工艺 1. 古法金 古法金采用传统的铸金工艺,过程复杂且耗时。主要工艺包括: 搂胎:使…

2023下半年上午(22~38)

二十二、 选A 现在定义一个函数,里面有非静态的局部变量f1 在栈区stack里面,先是主函数main入栈,然后调用main里面的方法,即function()入栈,在入栈的一瞬间,局部变量f1就被定义了&a…

使用 GPT-4V 全面评估泛化情绪识别 (GER)

概述 由于情绪在人机交互中扮演着重要角色,因此情绪识别备受研究人员关注。目前的情感识别研究主要集中在两个方面:一是识别刺激物引起的情感,并预测观众观看这些刺激物后的感受。另一个方面是分析图像和视频中的人类情绪。在本文中&#xf…

[代码随想录打卡]Day2:209.长度最小的子数组 59.螺旋矩阵II 区间和 开发商购买土地 总结

双指针:快慢指针、对撞指针、滑动窗口。相关博客:双指针算法详解(快慢指针、对撞指针、滑动窗口) 209.长度最小的子数组 题目:给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其总和大于等于…

list与iterator的之间的区别,如何用斐波那契数列探索yield

问题 list与iterator的之间的区别是什么?如何用斐波那契数列探索yield? 2 方法 将数据转换成list,通过对list索引和切片操作,以及可以进行添加、删除和修改元素。 iterator是一种对象,用于遍历可迭代对象(如列表、元组…

就是这个样的粗爆,手搓一个计算器:JSON格式化计算器

作为程序员&#xff0c;没有合适的工具&#xff0c;就得手搓一个&#xff0c;PC端&#xff0c;移动端均可适用。废话不多说&#xff0c;直接上代码。 HTML: <div class"calculator"><label for"jsonInput">输入 JSON 字符串:</label> …

PaddleNLP的FAQ问答机器人

项目源码获取方式见文章末尾&#xff01; 600多个深度学习项目资料&#xff0c;快来加入社群一起学习吧。 《------往期经典推荐------》 项目名称 1.【DDRNet模型创新实现人像分割】 2.【卫星图像道路检测DeepLabV3Plus模型】 3.【GAN模型实现二次元头像生成】 4.【CNN模型实…

MySQL——索引

目录 一、磁盘 1.1 在系统软件上&#xff0c;并不直接按照扇区进行IO交互&#xff1a; 1.2 磁盘随机访问与连续访问 1.3 建立共识 二、Page 三、InnoDB 四、MyISAM 五、普通索引 一、磁盘 我们在使用Linux&#xff0c;所看到的大部分目录或者文件&#xff0c;其实就是保…

逆向CTF入门(如何找main)

Hello, world of reverse! start函数它在执行一些初始化操作,如获取命令行参数、获取环境变量值、初始化全局变量等&#xff0c;一切准备工作完成之后&#xff0c;再调用main函数 快速定位关键函数&#xff1a; 长驱直入法&#xff1a;当程序功能非常明确时&#xff0c;从程序…

【react框架之dvajs】官网不维护了,还有旧项目在用需要文档的看过来

文档链接: http://gaofeng222.host3v.club/dva-doc/ github:https://gaofeng222.github.io/dva-doc/ 应该是团队没精力搞了&#xff0c;放弃了这块&#xff01;https://github.com/umijs/umi/discussions/12387