Spark 环境配置

· 2023-10-12 · # linux # spark # hadoop

1.下载安装

来到下载页面
https://spark.apache.org/downloads.html

找一个合适自己Hadoop版本的版本
spark-3.2.4-bin-hadoop3.2.tgz

也可以选择不带hadoop的版本，但是后期步骤不一样
解压后先完成 2.2 设置配置
spark-env.sh 里面多加一行 ( hadoop需存在于环境变量 )
export SPARK_DIST_CLASSPATH=$(hadoop classpath)

下载一下

cd usr/  
wget https://archive.apache.org/dist/spark/spark-3.2.4/spark-3.2.4-bin-hadoop3.2.tgz --no-check-certificate

解压一下

tar -zxvf spark-3.2.4-bin-hadoop3.2.tgz

改个名字

mv spark-3.2.4-bin-hadoop3.2 spark

删掉安装包

rm -f spark-3.2.4-bin-hadoop3.2.tgz

2.配置

2.1 环境变量

vim /etc/profile

末尾添加

#SPARK_HOME
export SPARK_HOME=/usr/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME

source /etc/profile

测试，输入

spark-shell

一番等待如果出现

      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   
      /_/

就是成功了

2.2 其他配置

这一步，可以跳过！

里面文件目录根据实际写，但我实测这个文件不创建也能运行web网页

cd spark/conf/

mv spark-env.sh.template spark-env.sh

vim spark-env.sh

export SCALA_HOME=/usr/scala
export JAVA_HOME=/usr/java/jdk1.8.0_202-amd64
export HADOOP_HOME=/usr/hadoop-3.2.4
export SPARK_HOME=/home/hadoop/app/spark-1.4.0
export SPARK_PID_DIR=$SPARK_HOME/tmp

SPARK_MASTER_IP=node1
SPARK_LOCAL_DIRS=/usr/spar/
SPARK_DRIVER_MEMORY=1G
SPARK_MASTER_PORT=4050
SPARK_WORKER_CORES=30
SPARK_WORKER_MEMORY=60g
SPARK_WORKER_INSTANCES=6
SPARK_DRIVER_MEMORY=12g

添加子节点

mv workers.template workers
vim workers

node2
node3

3.分发

分发到子节点

cd /usr/
scp -r spark/ node2:$PWD
scp -r spark/ node3:$PWD

4.检验

开启

$SPARK_HOME/sbin/start-all.sh

webUI要能启动
http://node1:8080

关闭

$SPARK_HOME/sbin/stop-all.sh