資訊平台: How to Install Spark Cluster

Hi All 今天要介紹的是如何建置一套Spark Cluster分散式平台，Spark是一套機器學習靈活的計算分散式框架平台，適合做批次處理、資料流資理，Spark SQL，機器學習等不同的應用。因些Spark可應用在廣泛的大數據計算引擎。

● Spark 平台框架圖

1.下載Spark

首先到Spark官方網站下載 Spark 1.6.0 ，選擇需要下載的版本及對應Hadoop版本。

**注意**Spark 官方所提供的Scala 版本為2.10，如果你想要製作在Scala 2.11需要重新Builder Source Code才可以。

Download Page http://spark.apache.org/downloads.html

使用Wget 下載檔案，將檔案解壓縮

1 2	user@Master:~$ wget http://ftp.mirror.tw/pub/apache/spark/spark-1.6.0/spark-1.6.0-bin-hadoop2.6.tgz user@Master:~$ tar -xzvf spark-1.6.0-bin-hadoop2.6.tgz

2. Configurations 設定
我們將使用三台虛擬器，建置Spark Cluster分散式平台

新增spark-env.sh

複製 con/spark-env.sh.template 新增一個 spark-env.sh檔案

1	user@Master:~$ cp con/spark-env.sh.template spark-env.sh

編輯Spark-env.sh檔案

1	user@Master:~$ vi ~/spark/conf/spark-env.sh

設定Hadoop路徑

1	HADOOP_CONF_DIR=~/hadoop/etc/hadoop/

設定Spark JDBC Dirver，如果需要使用到mssql或是mysql將jar加入即可

1	SPARK_CLASSPATH=~/spark/extraClass/sqljdbc41.jar

新增Spark slaves

複製 conf/slaves.template，改成 conf/slaves檔案

1	user@Master:~$ cp slaves.template slaves

編輯Configure Slaves.

編輯slaves檔案加入我們三台虛擬機器，我們直接使用hostname，需先設定/etc/hosts檔案，將三台虛擬器機名稱加入。

** 注意**如果沒有加入hostaname，直接加入hostname在Spark slave，Spark Cluster將無法找到Master與slave設備

1	user@Master:~$ sudo vi /etc/hosts

1
2
3

192.168.2.100 master
192.168.2.101 slave1
192.168.2.102 salve2

1	user@Master:~$ vi ~/spark/conf/slaves

1
2
3

master
slave1
slave2

編輯spark-defaults.conf，指定Spark other Port，如不需要請跳過此步至下一步

複製conf/spark-defaults.conf.template，改成conf/spark-defaults.conf 檔案

1	user@Master:~$ cp sparkdefaults.conf.template spark-defaults.conf

1	user@Master:~$ vi ~/spark/conf/spark-defaults.conf

spark.driver.port   51810
spark.fileserver.port   51811
spark.broadcast.port   51812
spark.replClassServer.port  51813
spark.blockManager.port   51814
spark.executor.port   51815

3. 啟動 Spark Cluster

啟動Spark Cluster有兩種方法：

1.啟動start-all.sh，至動作自動將會啟動master及slave Cluster Server

2.啟動start-master.sh及start-slave.sh

1	user@Master:~$ spark/sbin/start-all.sh

透過jps查看所以Spark Cluster是否啟動成功

1	user@Master:~$ jps

15398 ResourceManager
18483 NameNode
1633 Master
1733 Jps

1	user@slave1:~$ jps

14398 Worker
1283 NodeManager
1433 DataNode
1633 Jps

使用Web browser 觀看Spark UI，輸入http://localhost:8080

資訊平台

How to Install Spark Cluster

沒有留言:

張貼留言

網頁