如何安装 Apache Ubuntu 16.04 LTS 上的 Hadoop

在本教程中，我们将向您展示如何安装 Apache Ubuntu 16.04 LTS 上的 Hadoop。对于那些不知道的人， Apache Hadoop是一个用Java编写的用于分布式存储和分发过程的开源软件框架，它通过将数据分布在计算机集群中来处理非常大的数据集。库本身不是依靠硬件来提供高可用性，而是旨在检测和处理应用层的故障，因此在计算机集群之上提供高可用性服务，每台计算机都可能容易出现故障。

本文假设您至少具备 Linux 的基本知识，知道如何使用 shell，最重要的是，您将网站托管在自己的 VPS 上。安装非常简单，假设您在 root 帐户下运行，如果不是，您可能需要添加 ‘sudo‘ 到命令以获取 root 权限。我将向您展示逐步安装 Apache Ubuntu 16.04 Xenial Xerus 服务器上的 Hadoop。

安装 Apache Ubuntu 16.04 LTS 上的 Hadoop

步骤 1. 首先，通过运行以下命令确保所有系统包都是最新的 apt-get 终端中的命令。

sudo apt-get update sudo apt-get upgrade

步骤 2. 安装 Java (OpenJDK)。

由于 Hadoop 是基于 java 的，因此请确保您在系统上安装了 Java JDK。如果您的系统上没有安装 Java，请先使用以下链接进行安装。

在 Ubuntu 16.04 上安装 Java JDK 8

[email protected] ~# java -version java version "1.8.0_74" Java(TM) SE Runtime Environment (build 1.8.0_74-b02) Java HotSpot(TM) 64-Bit Server VM (build 25.74-b02, mixed mode)

步骤 3. 安装 Apache Hadoop。

为了避免安全问题，我们建议设置一个新的 Hadoop 用户组和用户帐户来处理所有与 Hadoop 相关的活动，以下命令：

sudo addgroup hadoopgroup sudo adduser —ingroup hadoopgroup hadoopuser

创建用户后，还需要为自己的账户设置基于密钥的 ssh。为此，请执行以下命令：

su - hadoopuser ssh-keygen -t rsa -P "" cat /home/hadoopuser/.ssh/id_rsa.pub >> /home/hadoopuser/.ssh/authorized_keys chmod 600 authorized_keys ssh-copy-id -i ~/.ssh/id_rsa.pub slave-1 ssh slave-1

下载最新稳定版 Apache Hadoop，在写这篇文章的时候是2.8.1版本：

wget https://www-us.apache.org/dist/hadoop/common/hadoop-2.8.1/hadoop-2.8.1.tar.gz tar xzf hadoop-2.8.1.tar.gz mv hadoop-2.8.1 hadoop

步骤 4. 配置 Apache Hadoop。

设置 Hadoop 环境变量。编辑 ~/.bashrc 文件并在文件末尾附加以下值：

 HADOOP_HOME=/home/hadoop/hadoop  HADOOP_INSTALL=$HADOOP_HOME  HADOOP_MAPRED_HOME=$HADOOP_HOME  HADOOP_COMMON_HOME=$HADOOP_HOME  HADOOP_HDFS_HOME=$HADOOP_HOME  YARN_HOME=$HADOOP_HOME  HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native  PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

将环境变量应用于当前正在运行的会话：

source ~/.bashrc

现在编辑 $HADOOP_HOME/etc/hadoop/hadoop-env.sh 文件并设置 JAVA_HOME 环境变量：

 JAVA_HOME=/usr/jdk1.8.0_74/

Hadoop 有许多配置文件，需要根据您的 Hadoop 基础架构的要求进行配置。让我们从基本 Hadoop 单节点集群设置的配置开始：

cd $HADOOP_HOME/etc/hadoop

编辑 core-site.xml：

<configuration> <property>   <name>fs.default.name</name>     <value>hdfs://localhost:9000</value> </property> </configuration>

编辑 hdfs-site.xml：

<configuration> <property>  <name>dfs.replication</name>  <value>1</value> </property>  <property>   <name>dfs.name.dir</name>     <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property>  <property>   <name>dfs.data.dir</name>     <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property> </configuration>

编辑 mapred-site.xml：

<configuration>  <property>   <name>mapreduce.framework.name</name>    <value>yarn</value>  </property> </configuration>

编辑yarn-site.xml：

<configuration>  <property>   <name>yarn.nodemanager.aux-services</name>     <value>mapreduce_shuffle</value>  </property> </configuration>

现在使用以下命令格式化namenode，不要忘记检查存储目录：

hdfs namenode -format

使用以下命令启动所有 Hadoop 服务：

cd $HADOOP_HOME/sbin/ start-dfs.sh start-yarn.sh

您应该观察输出以确定它是否尝试在从节点上一一启动数据节点。要检查所有服务是否启动良好，请使用’jps‘ 命令：

jps

步骤 5. 访问 Apache Hadoop。

Apache 默认情况下，Hadoop 将在 HTTP 端口 8088 和端口 50070 上可用。打开您喜欢的浏览器并导航到 https://your-domain.com:50070 要么 https://server-ip:50070. 如果您使用防火墙，请打开端口 8088 和 50070 以启用对控制面板的访问。

恭喜！您已成功安装 Apache Hadoop。感谢您使用本教程进行安装 Apache Ubuntu 16.04 系统上的 Hadoop。如需更多帮助或有用信息，我们建议您查看官方 Apache Hadoop网站.

安装 Apache Ubuntu 16.04 LTS 上的 Hadoop

Related Posts