在本教程中,我们将向您展示如何安装 Apache Ubuntu 16.04 LTS 上的 Hadoop。 对于那些不知道的人, Apache Hadoop是一个用Java编写的用于分布式存储和分发过程的开源软件框架,它通过将数据分布在计算机集群中来处理非常大的数据集。 库本身不是依靠硬件来提供高可用性,而是旨在检测和处理应用层的故障,因此在计算机集群之上提供高可用性服务,每台计算机都可能容易出现故障。
本文假设您至少具备 Linux 的基本知识,知道如何使用 shell,最重要的是,您将网站托管在自己的 VPS 上。 安装非常简单,假设您在 root 帐户下运行,如果不是,您可能需要添加 ‘sudo
‘ 到命令以获取 root 权限。 我将向您展示逐步安装 Apache Ubuntu 16.04 Xenial Xerus 服务器上的 Hadoop。
安装 Apache Ubuntu 16.04 LTS 上的 Hadoop
步骤 1. 首先,通过运行以下命令确保所有系统包都是最新的 apt-get
终端中的命令。
sudo apt-get update sudo apt-get upgrade
步骤 2. 安装 Java (OpenJDK)。
由于 Hadoop 是基于 java 的,因此请确保您在系统上安装了 Java JDK。 如果您的系统上没有安装 Java,请先使用以下链接进行安装。
- 在 Ubuntu 16.04 上安装 Java JDK 8
[email protected] ~# java -version java version "1.8.0_74" Java(TM) SE Runtime Environment (build 1.8.0_74-b02) Java HotSpot(TM) 64-Bit Server VM (build 25.74-b02, mixed mode)
步骤 3. 安装 Apache Hadoop。
为了避免安全问题,我们建议设置一个新的 Hadoop 用户组和用户帐户来处理所有与 Hadoop 相关的活动,以下命令:
sudo addgroup hadoopgroup sudo adduser —ingroup hadoopgroup hadoopuser
创建用户后,还需要为自己的账户设置基于密钥的 ssh。 为此,请执行以下命令:
su - hadoopuser ssh-keygen -t rsa -P "" cat /home/hadoopuser/.ssh/id_rsa.pub >> /home/hadoopuser/.ssh/authorized_keys chmod 600 authorized_keys ssh-copy-id -i ~/.ssh/id_rsa.pub slave-1 ssh slave-1
下载 最新稳定版 Apache Hadoop,在写这篇文章的时候是2.8.1版本:
wget https://www-us.apache.org/dist/hadoop/common/hadoop-2.8.1/hadoop-2.8.1.tar.gz tar xzf hadoop-2.8.1.tar.gz mv hadoop-2.8.1 hadoop
步骤 4. 配置 Apache Hadoop。
设置 Hadoop 环境变量。 编辑 ~/.bashrc
文件并在文件末尾附加以下值:
HADOOP_HOME=/home/hadoop/hadoop HADOOP_INSTALL=$HADOOP_HOME HADOOP_MAPRED_HOME=$HADOOP_HOME HADOOP_COMMON_HOME=$HADOOP_HOME HADOOP_HDFS_HOME=$HADOOP_HOME YARN_HOME=$HADOOP_HOME HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
将环境变量应用于当前正在运行的会话:
source ~/.bashrc
现在编辑 $HADOOP_HOME/etc/hadoop/hadoop-env.sh
文件并设置 JAVA_HOME 环境变量:
JAVA_HOME=/usr/jdk1.8.0_74/
Hadoop 有许多配置文件,需要根据您的 Hadoop 基础架构的要求进行配置。 让我们从基本 Hadoop 单节点集群设置的配置开始:
cd $HADOOP_HOME/etc/hadoop
编辑 core-site.xml
:
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
编辑 hdfs-site.xml
:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property> </configuration>
编辑 mapred-site.xml
:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
编辑yarn-site.xml:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
现在使用以下命令格式化namenode,不要忘记检查存储目录:
hdfs namenode -format
使用以下命令启动所有 Hadoop 服务:
cd $HADOOP_HOME/sbin/ start-dfs.sh start-yarn.sh
您应该观察输出以确定它是否尝试在从节点上一一启动数据节点。 要检查所有服务是否启动良好,请使用’jps
‘ 命令:
jps
步骤 5. 访问 Apache Hadoop。
Apache 默认情况下,Hadoop 将在 HTTP 端口 8088 和端口 50070 上可用。 打开您喜欢的浏览器并导航到 https://your-domain.com:50070
要么 https://server-ip:50070
. 如果您使用防火墙,请打开端口 8088 和 50070 以启用对控制面板的访问。
恭喜! 您已成功安装 Apache Hadoop。 感谢您使用本教程进行安装 Apache Ubuntu 16.04 系统上的 Hadoop。 如需更多帮助或有用信息,我们建议您查看 官方 Apache Hadoop网站.