手机版

Windows下的火花环境构建方法

时间:2021-08-22 来源:互联网 编辑:宝哥软件园 浏览:

本文主要说明如何在Windows环境下构建Spark

一.安装JDK

1、1下载JDK

首先,您需要安装JDK并配置环境变量,这可以被已经安装它的旧驱动程序忽略。JDK (javatm平台标准版开发工具包)的全名可在甲骨文官方网站的Java SE Downloads上安装和下载。

上图中用红色标注的两个地方都可以点击。点击进入后,可以看到这个最新版本的一些更详细的信息,如下图所示:

下载后,我们可以直接安装JDK。在窗户下安装JDK非常简单。按照软件安装的正常思路双击下载的exe文件,然后设置自己的安装目录(设置环境变量时需要用到这个安装目录)。

1、2 JDK环境变量设置

接下来,通过在桌面上右键单击“计算机”-“属性”-“高级系统设置”来设置相应的环境变量,然后在系统属性中选择“高级”-“环境变量”,然后在系统变量中找到“路径”变量,然后选择“编辑”按钮,将弹出一个对话框,您可以在其中添加上一步安装的JDK目录我的bin文件夹路径名为:c: \程序文件\ Java \ jre1.8.0 _ 92 \ bin,因此请将此添加到路径名中,并注意使用英文分号“;”分开。如图所示:

完成此设置后,您可以在任何目录中打开的cmd命令行窗口下运行以下命令。检查设置是否成功。

Java -version观察相关Java的版本信息是否可以输出。如果能输出,就意味着JDK安装的步骤全部结束。如图所示:

第二,Scala的安装

我们从官网下载了Scala:http://www.scala-lang.org/,最新版本是2.12.3,如图

因为我们是在Windows环境下,这也是本文的目的,我们选择相应的Windows版本进行下载,如图所示:

下载Scala的msi文件后,可以双击执行安装。成功安装后,默认情况下scala的bin目录将被添加到Path系统变量中(如果没有,将Scala安装目录下的bin目录PATH添加到PATH系统变量中,类似于上面的JDK安装步骤)。要验证安装是否成功,请打开一个新的cmd窗口,输入Scala并按回车键。如果能正常进入Scala的交互命令环境,就意味着安装成功。如下图所示:

注意:如果无法显示版本信息,也无法进入Scala的交互命令行,通常有两种可能:1。Scala安装目录下bin文件夹的path名称在Path系统变量中无法正确添加,只需按照JDK安装中介绍的方法添加即可。2.Scala安装不正确,所以重复以上步骤。

三、安装星火

我们去Spark官网下载:http://spark.apache.org/,我们用Hadoop版本选择了Spark,如图:

下载后,我得到了一个大约200M的文件:spark-2.2.0-bin-hadoop2.7

这里用的是Pre-build的版本,表示已经编译好了,直接下载使用就好。Spark也有源代码可以下载,但只能手动编译后使用。下载后,解压文件(可能需要解压两次)。最好解压到一个磁盘的根目录,改名为Spark,简单不容易出错。并且需要注意的是,Spark的文件目录路径名中不应该出现空格,不允许出现“Program Files”这样的文件夹名称。我们在c盘中创建新的Spark文件夹进行存储,如图所示:

解压后基本可以在cmd命令行下运行。但是,每次运行spark-shell(spark的命令行交互窗口)时,都需要cd到spark的安装目录中,这就比较麻烦了,所以可以将spark的bin目录添加到系统变量PATH中。例如,这里Spark的bin目录path是D:\Spark\bin,所以将此路径名添加到系统变量的PATH中。该方法与JDK安装期间环境变量的设置一致。设置好系统变量后,直接在任意目录下的cmd命令行执行spark-shell命令,打开spark的交互命令行模式。

设置好系统变量后,spark-shell可以在当前任何目录下的cmd中运行,但此时很可能会遇到各种错误。在这里,Spark是基于hadoop的,所以有必要在这里配置一个Hadoop运行环境。错误如图所示:

接下来,我们需要安装Hadoop。

第四,Hadoop的安装

您可以在Hadoop发行版中看到Hadoop的版本历史。由于下载的Spark是基于Hadoop 2.7的(在Spark安装的第一步,我们选择了针对Hadoop 2.7的Pre-build),我在这里选择了2.7.1版本,选择对应的版本,点击进入详细的下载页面,如下图所示:

选择图中的红色标记进行下载。上面的src版本是源代码。如果需要更改Hadoop或者想自己编译,可以下载相应的src文件。我这里下载的是编译后的版本,也就是图中的“hadoop-2.7.1.tar.gz”文件。

下载解压到指定目录,这里我是C:\Hadoop,如图:

然后在环境变量部分将HADOOP_HOME设置为HADOOP的解压目录,如图所示:

然后将这个目录下的bin目录设置为系统变量的PATH,这里是C:\Hadoop\bin。如果添加了HADOOP_HOME系统变量,还可以通过%HADOOP_HOME%\bin指定bin文件夹路径名。设置好这两个系统变量后,打开一个新的cmd窗口,然后直接输入spark-shell命令。如图所示:

正常情况下可以成功运行并进入Spark命令行环境,但部分用户可能会遇到空指针的错误。这时候主要是因为Hadoop的bin目录中没有winutils.exe文件。这里的解决方案是:

你可以去https://github.com/steveloughran/winutils选择你安装的Hadoop版本号,然后进入bin目录找到winutils.exe文件。下载方法是单击winutils.exe文件。进入后,页面右上方有一个下载按钮,点击下载。如图所示:

下载winutils.exe文件

下载winutils.exe后,把这个文件放到Hadoop的bin目录下,我就是C:\Hadoop\hadoop-2.7.1\bin。

输入打开的cmd

复制代码如下: c 3360 \ Hadoop \ Hadoop-2 . 7 . 1 \ bin \ winutils.exe chmod 777/tmp/hive//修改权限,777是获取所有权限

但是,我们发现报告了一些其他错误(这个错误也发生在Linux环境中)

控制台:14:错误:未找到:值火花导入火花。隐式控制台336014:错误:未找到:值火花导入火花。原因是没有权限在Spark中写入文件metastore_db。

处理方法:我们授予777权限

在Linux环境中,我们在根目录下操作:

sudochmod 777/home/Hadoop/Spark #为方便起见,可以在sudochmod A W/home/Hadoop/Spark Window环境下赋予所有权限:

存储Spark的文件夹不能设置为只读或隐藏,如图所示:

授予完全控制权限,如图:

完成这些步骤后,再次打开一个新的cmd窗口。如果正常,你应该可以直接进入火花壳运行火花。正常操作界面如下图所示:

第六,构建Python下的Spark开发环境

下面简单解释一下如何在Python下构建Spark环境

1.将spark目录下的pyspark文件夹(C:\Spark\python\pyspark)复制到python安装目录c : \ python \ python 35 \ lib \ site-packages。如图所示

火花的皮萨克

将pyspark复制到Python安装的包目录中。

2.然后使用cd命令,进入目录D:\python27\Scripts,运行pip install py4j安装py4j库。如图所示:

如果需要在python或者IDEA IntelliJ或者PyCharm这样的IDE中使用PySpark(我使用的是PyCharm),需要在系统变量中创建新的PYTHONPATH系统变量,然后设置以下变量值

PATHONPATH=% SPARK _ HOME % \ python;% SPARK _ HOME % \ python \ lib \ py4j-0 . 10 . 4-src . zip

剩下的就交给PyCharm了。

至此,关于Spark在Windows中构建的解释已经结束。

以上就是本文的全部内容。希望对大家的学习有帮助,支持我们。

版权声明:Windows下的火花环境构建方法是由宝哥软件园云端程序自动收集整理而来。如果本文侵犯了你的权益,请联系本站底部QQ或者邮箱删除。