Windows下的火花环境构建方法

时间：2021-08-22 来源：互联网编辑：宝哥软件园浏览：次

本文主要说明如何在Windows环境下构建Spark

一.安装JDK

1、1下载JDK

首先，您需要安装JDK并配置环境变量，这可以被已经安装它的旧驱动程序忽略。JDK (javatm平台标准版开发工具包)的全名可在甲骨文官方网站的Java SE Downloads上安装和下载。

上图中用红色标注的两个地方都可以点击。点击进入后，可以看到这个最新版本的一些更详细的信息，如下图所示：

下载后，我们可以直接安装JDK。在窗户下安装JDK非常简单。按照软件安装的正常思路双击下载的exe文件，然后设置自己的安装目录(设置环境变量时需要用到这个安装目录)。

1、2 JDK环境变量设置

接下来，通过在桌面上右键单击“计算机”-“属性”-“高级系统设置”来设置相应的环境变量，然后在系统属性中选择“高级”-“环境变量”，然后在系统变量中找到“路径”变量，然后选择“编辑”按钮，将弹出一个对话框，您可以在其中添加上一步安装的JDK目录我的bin文件夹路径名为：c: \程序文件\ Java \ jre1.8.0 _ 92 \ bin，因此请将此添加到路径名中，并注意使用英文分号“；”分开。如图所示：

完成此设置后，您可以在任何目录中打开的cmd命令行窗口下运行以下命令。检查设置是否成功。

Java -version观察相关Java的版本信息是否可以输出。如果能输出，就意味着JDK安装的步骤全部结束。如图所示：

第二，Scala的安装

我们从官网下载了Scala:http://www.scala-lang.org/,最新版本是2.12.3，如图

因为我们是在Windows环境下，这也是本文的目的，我们选择相应的Windows版本进行下载，如图所示：

下载Scala的msi文件后，可以双击执行安装。成功安装后，默认情况下scala的bin目录将被添加到Path系统变量中(如果没有，将Scala安装目录下的bin目录PATH添加到PATH系统变量中，类似于上面的JDK安装步骤)。要验证安装是否成功，请打开一个新的cmd窗口，输入Scala并按回车键。如果能正常进入Scala的交互命令环境，就意味着安装成功。如下图所示：

注意：如果无法显示版本信息，也无法进入Scala的交互命令行，通常有两种可能：1。Scala安装目录下bin文件夹的path名称在Path系统变量中无法正确添加，只需按照JDK安装中介绍的方法添加即可。2.Scala安装不正确，所以重复以上步骤。

三、安装星火

我们去Spark官网下载：http://spark.apache.org/,我们用Hadoop版本选择了Spark，如图：

下载后，我得到了一个大约200M的文件：spark-2.2.0-bin-hadoop2.7

这里用的是Pre-build的版本，表示已经编译好了，直接下载使用就好。Spark也有源代码可以下载，但只能手动编译后使用。下载后，解压文件(可能需要解压两次)。最好解压到一个磁盘的根目录，改名为Spark，简单不容易出错。并且需要注意的是，Spark的文件目录路径名中不应该出现空格，不允许出现“Program Files”这样的文件夹名称。我们在c盘中创建新的Spark文件夹进行存储，如图所示：

解压后基本可以在cmd命令行下运行。但是，每次运行spark-shell(spark的命令行交互窗口)时，都需要cd到spark的安装目录中，这就比较麻烦了，所以可以将spark的bin目录添加到系统变量PATH中。例如，这里Spark的bin目录path是D:\Spark\bin，所以将此路径名添加到系统变量的PATH中。该方法与JDK安装期间环境变量的设置一致。设置好系统变量后，直接在任意目录下的cmd命令行执行spark-shell命令，打开spark的交互命令行模式。

设置好系统变量后，spark-shell可以在当前任何目录下的cmd中运行，但此时很可能会遇到各种错误。在这里，Spark是基于hadoop的，所以有必要在这里配置一个Hadoop运行环境。错误如图所示：

接下来，我们需要安装Hadoop。

第四，Hadoop的安装

您可以在Hadoop发行版中看到Hadoop的版本历史。由于下载的Spark是基于Hadoop 2.7的(在Spark安装的第一步，我们选择了针对Hadoop 2.7的Pre-build)，我在这里选择了2.7.1版本，选择对应的版本，点击进入详细的下载页面，如下图所示：

选择图中的红色标记进行下载。上面的src版本是源代码。如果需要更改Hadoop或者想自己编译，可以下载相应的src文件。我这里下载的是编译后的版本，也就是图中的“hadoop-2.7.1.tar.gz”文件。

下载解压到指定目录，这里我是C:\Hadoop，如图：

然后在环境变量部分将HADOOP_HOME设置为HADOOP的解压目录，如图所示：

然后将这个目录下的bin目录设置为系统变量的PATH，这里是C:\Hadoop\bin。如果添加了HADOOP_HOME系统变量，还可以通过%HADOOP_HOME%\bin指定bin文件夹路径名。设置好这两个系统变量后，打开一个新的cmd窗口，然后直接输入spark-shell命令。如图所示：

正常情况下可以成功运行并进入Spark命令行环境，但部分用户可能会遇到空指针的错误。这时候主要是因为Hadoop的bin目录中没有winutils.exe文件。这里的解决方案是：

你可以去https://github.com/steveloughran/winutils选择你安装的Hadoop版本号，然后进入bin目录找到winutils.exe文件。下载方法是单击winutils.exe文件。进入后，页面右上方有一个下载按钮，点击下载。如图所示：

下载winutils.exe文件

下载winutils.exe后，把这个文件放到Hadoop的bin目录下，我就是C:\Hadoop\hadoop-2.7.1\bin。

输入打开的cmd

复制代码如下： c 3360 \ Hadoop \ Hadoop-2 . 7 . 1 \ bin \ winutils.exe chmod 777/tmp/hive//修改权限，777是获取所有权限

但是，我们发现报告了一些其他错误(这个错误也发生在Linux环境中)

控制台：14:错误：未找到：值火花导入火花。隐式控制台336014:错误：未找到：值火花导入火花。原因是没有权限在Spark中写入文件metastore_db。

处理方法：我们授予777权限

在Linux环境中，我们在根目录下操作：

sudochmod 777/home/Hadoop/Spark #为方便起见，可以在sudochmod A W/home/Hadoop/Spark Window环境下赋予所有权限：

存储Spark的文件夹不能设置为只读或隐藏，如图所示：

授予完全控制权限，如图：

完成这些步骤后，再次打开一个新的cmd窗口。如果正常，你应该可以直接进入火花壳运行火花。正常操作界面如下图所示：

第六，构建Python下的Spark开发环境

下面简单解释一下如何在Python下构建Spark环境

1.将spark目录下的pyspark文件夹(C:\Spark\python\pyspark)复制到python安装目录c : \ python \ python 35 \ lib \ site-packages。如图所示

火花的皮萨克

将pyspark复制到Python安装的包目录中。

2.然后使用cd命令，进入目录D:\python27\Scripts，运行pip install py4j安装py4j库。如图所示：

如果需要在python或者IDEA IntelliJ或者PyCharm这样的IDE中使用PySpark(我使用的是PyCharm)，需要在系统变量中创建新的PYTHONPATH系统变量，然后设置以下变量值

PATHONPATH=% SPARK _ HOME % \ python；% SPARK _ HOME % \ python \ lib \ py4j-0 . 10 . 4-src . zip

剩下的就交给PyCharm了。

至此，关于Spark在Windows中构建的解释已经结束。

以上就是本文的全部内容。希望对大家的学习有帮助，支持我们。

Windows下的火花环境构建方法

新天龙八部

热门手游排行榜