安装配置Spark

解压与权限

tar -zxvf spark-1.1.0-bin-2.4.0.2.1.4.0-632.tgz -C /opt
ln -s /opt/spark-1.1.0-bin-2.4.0.2.1.4.0-632 /opt/spark
chown -R spark:spark /opt/spark*

配置worker

vi conf/slaves

HDP125
HDP126
HDP127

注：每行一个Worker

配置spark-env.sh

cp conf/spark-env.sh.template conf/spark-env.sh

vi conf/spark-env.sh

export JAVA_HOME=/opt/jdk
export SPARK_MASTER_IP=ES122
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=FILESYSTEM -Dspark.deploy.recoveryDirectory=/opt/spark/recovery"

　　可以为Master和Worker的CPU核心和内存大小进行定制。

SPARK_MASTER_IP：设置Master的IP
SPARK_DAEMON_MEMORY：设置Master和Worker守护进程内存大小
SPARK_WORKER_CORES：设置Spark应用在Worker中可以使用的CPU核数
SPARK_WORKER_MEMORY：设置Spark应用在Worker中可以使用的内存总量
SPARK_MASTER_WEBUI_PORT：设置Master的Web UI端口
SPARK_WORKER_WEBUI_PORT：设置Worker的Web UI端口

　　更多配置参考：Spark Standalone配置属性

　　SPARK_DAEMON_JAVA_OPTS配置项：

System property	Meaning
spark.deploy.recoveryMode	设成FILESYSTEM来开启单节点恢复模式，（默认值：NONE）
spark.deploy.recoveryDirectory	Spark存储恢复状态的目录，Master能够访问

配置SPARK_HOME环境变量

vi /etc/profile

#spark
export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$PATH
source /etc/profile

启动

启动集群

　　在master上

su spark
cd /opt/spark
sbin/start-all.sh

不用sbin脚本的方式

　　启动Worker

./bin/spark-class org.apache.spark.deploy.worker.Worker spark://IP:PORT

测试

提交Application：

bin/spark-submit --class org.hansight.spark.examples.SogouQTotal --master spark://HDP125:7077 /opt/examples-0.0.1-SNAPSHOT.jar

zhang shuhao's ES2007S-6

2014年10月9日星期四

Apache spark, 1 day