CentOS6.7 下 Hadoop2.7.1 + Spark1.5 环境搭建

概要:

CentOS6.7 下搭建 Hadoop2.7.1 + Spark1.5 环境

| |目录

准备工作

基于上篇:CentOS6.7 下搭建 Hadoop2.7.1 单机伪分布式环境

安装Scala

下载地址

http://www.scala-lang.org/download/2.11.7.html

注:我下载的是scala-2.11.7.tgz,页面翻到底部即可看到。

安装Scala

切换至root用户

su -

创建/usr/scala文件夹

mkdir /usr/scala

使用FTP工具上传至服务器

将压缩包上传至/home/hadoop目录

    注:我这里使用的是FlashFXP,使用hadoop用户连接

将压缩包解压至/usr/scala 目录

tar zxvf /home/hadoop/scala-2.11.7.tgz -C /usr/scala

设置环境变量

vi /etc/profile
#追加如下内容
export SCALA_HOME=/usr/scala/scala-2.11.7
export PATH=$PATH:$SCALA_HOME/bin

使环境变量生效

source /etc/profile

测试环境变量设置

scala -version

Spark安装与配置

下载地址

http://www.apache.org/dyn/closer.lua/spark/spark-1.5.0/spark-1.5.0-bin-hadoop2.6.tgz

安装Spark

使用FTP工具上传至服务器

将压缩包上传至/home/hadoop目录

将压缩包解压至/usr目录

tar zxvf /home/hadoop/spark-1.5.0-bin-hadoop2.6.tgz -C /usr

修改文件夹名称

mv /usr/spark-1.5.0-bin-hadoop2.6/ /usr/spark

将spark文件夹授权给hadoop用户

chown -R hadoop:hadoop /usr/spark/

设置环境变量

vi /etc/profile
#追加如下内容
export SPARK_HOME=/usr/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

使环境变量生效

source /etc/profile

测试环境变量设置

spark-shell --version

运行SparkPi

run-example org.apache.spark.examples.SparkPi 10

配置Spark

切换至Hadoop用户

su - hadoop

修改spark-env.sh

cd /usr/spark/conf/
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
#追加如下内容
export SCALA_HOME=/usr/scala/scala-2.11.7
export JAVA_HOME=/usr/java/jdk1.7.0_80
export SPARK_MASTER_IP=192.168.30.50
export SPARK_WORKER_MEMORY=1024m

启动Spark

/usr/spark/sbin/start-all.sh 
#停止命令 /usr/spark/sbin/stop-all.sh 

#另一种方式
start-master.sh 
start-slave.sh spark://192.168.30.50:7077

提交任务到Spark集群

spark-submit --master spark://192.168.30.50:7077 --class org.apache.spark.examples.SparkPi --name Spark-Pi /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar

使用web查看Spark运行状态

http://192.168.30.50:8080/

在Yarn中运行Spark任务

编辑spark-env.sh

vi /usr/spark/conf/spark-env.sh
#追加如下内容
export HADOOP_CONF_DIR=/usr/hadoop/etc/hadoop

运行SparkLR 程序

提交Spark任务到yarn中

spark-submit --master yarn-cluster --class org.apache.spark.examples.SparkLR --name SparkLR /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar

使用web查看任务运行状态

http://192.168.30.50:8088/

如图:

在Yarn中结合HDFS运行Spark任务

运行JavaWordCount程序

spark-submit --master yarn-cluster --class org.apache.spark.examples.JavaWordCount --name JavaWordCount /usr/spark/lib/spark-examples-1.5.0-hadoop2.6.0.jar hdfs://192.168.30.50:9000/user/hadoop/input

使用web查看任务运行结果

建议:配置windows下的hosts文件指向(如果你用windows访问web)

192.168.30.50 hadoop.master
#位置C:\Windows\System32\drivers\etc

查看运行结果

说明:因为该示例程序输出结果到控制台,所以我们去查看控制台日志

  1. 点击History(上图中红色框尾部)

  2. 点击Logs(位置在右下部,与History类似)

  3. 点击stdout : Total file length is xxxxx bytes.

评论关闭
评论 还能输入200
评论关闭
评论 还能输入200
资料加载中...
已关注 , 取消