Spark 安装

  • Spark 安装

    Spark是Hadoop的子项目。因此,最好将Spark安装到基于Linux的系统中。以下步骤显示了如何安装Apache Spark。
  • 步骤1:验证Java安装

    Java安装是安装Spark的必要步骤之一。尝试使用以下命令来验证JAVA版本。
    
    $java -version 
    
    如果您的系统上已经安装了Java,则会看到以下响应-
    
    java version "1.8.0_71" 
    Java(TM) SE Runtime Environment (build 1.8.0_71-b13) 
    Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
    
    如果您的系统上未安装Java,则在继续下一步之前先安装Java。
  • 步骤2:验证Scala安装

    您应该使用Scala语言来实现Spark。因此,让我们使用以下命令来验证Scala的安装。
    
    $ scala -version
    
    如果您的系统上已经安装了Scala,则会看到以下响应-
    
    Scala code runner version 2.12.10 -- Copyright 2002-2020, LAMP/EPFL
    
    如果您的系统上未安装Scala,请继续执行下一步以进行Scala安装。
  • 第三步:下载Scala

    通过访问以下链接下载Scala下载最新版本的Scala。对于本教程,我们使用的是scala-2.12.10版本。下载后,您将在下载文件夹中找到Scala tar文件。
  • 步骤4:安装Scala

    请按照以下给定的步骤安装Scala。
    提取Scala tar文件
    键入以下命令以提取Scala tar文件。
    
    $ tar xvf scala-2.12.10.tgz
    
    移动Scala软件文件
    使用以下命令将Scala软件文件移动到相应目录(/usr/local/scala)。
    
    $ su – 
    Password: 
    # cd /home/Hadoop/Downloads/ 
    # mv scala-2.12.10 /usr/local/scala 
    # exit 
    
    设置Scala的PATH
    使用以下命令为Scala设置PATH。
    
    $ export PATH = $PATH:/usr/local/scala/bin
    
    验证Scala安装
    安装后,最好进行验证。使用以下命令来验证Scala安装。
    
    $scala -version
    
    如果您的系统上已经安装了Scala,则会看到以下响应-
    
    Scala code runner version 2.12.10 -- Copyright 2002-2020, LAMP/EPFL
    
  • 步骤5:下载Apache Spark

    通过访问以下链接下载Spark下载最新版本的Spark。在本教程中,我们使用spark-3.0.0-bin-hadoop3.2版本。下载后,您将在下载文件夹中找到Spark tar文件。
  • 步骤6:安装Spark

    请按照以下给出的步骤安装Spark。
    提取 spark tar
    以下命令用于提取spark tar文件。
    
    $ tar xvf spark-3.0.0-bin-hadoop3.2.tgz 
    
    移动Spark软件文件
    以下命令用于将Spark软件文件移动到相应目录(/usr/local/spark)。
    
    $ su – 
    Password:  
    
    # cd /home/Hadoop/Downloads/ 
    # mv spark-3.0.0-bin-hadoop3.2 /usr/local/spark 
    # exit
    
    设置Spark环境
    将以下行添加到〜/.bashrc文件。这意味着将火花软件文件所在的位置添加到PATH变量中。
    
    export PATH=$PATH:/usr/local/spark/bin
    
    使用以下命令来获取〜/.bashrc文件。
    
    $ source ~/.bashrc
    
  • 步骤7:验证Spark安装

    编写以下命令以打开Spark Shell。
    
    $ spark-shell
    
    如果spark安装成功,那么您将找到以下输出。
    
    Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
    Setting default log level to "WARN".
    To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
    Spark context Web UI available at http://localhost:4040
    Spark context available as 'sc' (master = local[*], app id = local-1608794330204).
    Spark session available as 'spark'.
    Welcome to
          ____              __
         / __/__  ___ _____/ /__
        _\ \/ _ \/ _ `/ __/  '_/
       /___/ .__/\_,_/_/ /_/\_\   version 3.0.0
          /_/
             
    Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 1.8.0_262)
    Type in expressions to have them evaluated.
    Type :help for more information.
    
    scala>