大数据开发之Hadoop集群安装教程

配置文件的修改

注意:以下所有操作都在node01主机进行。

1.1 hadoop-env.sh

1、介绍

文件中设置的是Hadoop运行时需要的环境变量。JAVA_HOME是必须设置的,即使我们当前的系统中设置了JAVA_HOME,它也是不认识的,因为Hadoop即使是在本机上执行,它也是把当前的执行环境当成远程服务器。

2、配置

.
:

1.2 core-site.xml

1、介绍

hadoop的核心配置文件,有默认的配置项core-default.xml。

core-default.xml与core-site.xml的功能是一样的,如果在core-site.xml里没有配置的属性,则会自动会获取core-default.xml里的相同属性大数据培训的值。

2、配置

在该文件中的<configuration>标签中添加以下配置,

.

  :

    .
    :

 ..

   ...

   ..

1.3 hdfs-site.xml

1、介绍

HDFS的核心配置文件,主要配置HDFS相关参数,有默认的配置项hdfs-default.xml。hdfs-default.xml与hdfs-site.xml的功能是一样的,如果在hdfs-site.xml里没有配置的属性,则会自动会获取hdfs-default.xml里的相同属性的值。

2、配置

在该文件中的<configuration>标签中添加以下配置,

<configuration>

在这里添加配置

</configuration>

.

...
:

..
:

...
:

...
:

...
:

...
:

....
:

.

.

.

  .

1.4 mapred-site.xml

1、介绍

MapReduce的核心配置文件,Hadoop默认只有个模板文件mapred-site.xml.template,需要使用该文件复制出来一份mapred-site.xml文件

2、配置

在mapred-site.xml文件中的<configuration>标签中添加以下配置,

<configuration>

在这里添加配置

</configuration>

.. .

  .

:

..

...

..
:

...
:

1.5 mapred-env.sh

在该文件中需要指定JAVA_HOME,将原文件的JAVA_HOME配置前边的注释去掉,然后按照以下方式修改:

.

1.6 yarn-site.xml

YARN的核心配置文件,在该文件中的<configuration>标签中添加以下配置,

<configuration>

在这里添加配置

</configuration>

.

..

..

.

..

...

          ..

..

1.7 workers

1、介绍

workers文件里面记录的是集群主机名。一般有以下两种作用:

一是:配合一键启动脚本如start-dfs.sh、stop-yarn.sh用来进行集群启动。这时候slaves文件里面的主机标记的就是从节点角色所在的机器。

二是:可以配合hdfs-site.xml里面dfs.hosts属性形成一种白名单机制。dfs.hosts指定一个文件,其中包含允许连接到NameNode的主机列表。必须指定文件的完整路径名,那么所有在workers中的主机才可以加入的集群中。如果值为空,则允许所有主机。

2、配置

:

数据目录创建和文件分发

注意:以下所有操作都在node01主机进行。

2.1 目录创建

创建Hadoop所需目录

mkdir -p /export/server/hadoop-3.0.0/hadoopDatas/tempDatasmkdir -p /export/server/hadoop-3.0.0/hadoopDatas/namenodeDatasmkdir -p /export/server/hadoop-3.0.0/hadoopDatas/datanodeDatasmkdir -p /export/server/hadoop-3.0.0/hadoopDatas/nn/editsmkdir -p /export/server/hadoop-3.0.0/hadoopDatas/snn/namemkdir -p /export/server/hadoop-3.0.0/hadoopDatas/dfs/snn/edits

2.2 文件分发

将配置好的Hadoop目录分发到node02和node03主机。

:
    :

配置Hadoop的环境变量

注意:三台机器都需要执行以下命令

:

 :::

启动集群

4.1 启动方式

要启动Hadoop集群,需要启动HDFS和YARN两个集群。

注意:首次启动HDFS时,必须对其进行格式化操作。本质上是一些清理和准备工作,因为此时的HDFS在物理上还是不存在的。

在node01上执行格式化指令

hadoop namenode -format

4.2 单节点逐个启动

在node01主机上使用以下命令启动HDFS NameNode:

hadoop-daemon.sh start namenode

在node01、node02、node03三台主机上,分别使用以下命令启动HDFS DataNode:

hadoop-daemon.sh start datanode

在node01主机上使用以下命令启动YARN ResourceManager:

yarn-daemon.sh  start resourcemanager

在node01、node02、node03三台主机上使用以下命令启动YARN nodemanager:

yarn-daemon.sh start nodemanager

以上脚本位于/export/server/hadoop-3.0.0/sbin目录下。如果想要停止某个节点上某个角色,只需要把命令中的start改为stop即可。

4.3 脚本一键启动

.

.

.

启动之后,使用jps命令查看相关服务是否启动,jps是显示Java相关的进程命.

停止集群:stop-dfs.sh、stop-yarn.sh、mr-jobhistory-daemon.sh stophistoryserver

注意:如果在启动之后,有些服务没有启动成功,则需要查看启动日志,Hadoop的启动日志在每台主机的/export/server/hadoop-3.0.0/logs/目录,需要根据哪台主机的哪个服务启动情况去对应的主机上查看相应的日志。

(0)

相关推荐

  • 浅谈HDFS(三)之DataNote

    DataNode工作机制 一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳. DataNode启动后向Nam ...

  • 大数据开发之Hadoop生态6 大核心组件

    Hadoop 第一代分布式存储计算框架 Hadoop是一个分布式系统基础架构,由Apache基金会开发,它允许用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储.Ha ...

  • 大数据开发之HDFS分布式文件存储系统详解

    HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark.MapReduce等提供海量数据存储服务,同时HBase.Hive底层 ...

  • 大数据开发之Yarn和Spark UI界面获取的方法

    一.Yarn 以获取Yarn界面队列信息为例: 1. 接口(HTTP Request) http://ip:port/ws/v1/cluster/scheduler ip和port:Yarn Reso ...

  • 大数据开发之Spark SQL/Hive实用函数分享

    字符串函数 1. concat 对字符串进行拼接:concat(str1, str2, ..., strN) ,参数:str1.str2...是要进行拼接的字符串. , (, ); 2. concat ...

  • 大数据开发之Spark入门

    什么是Spark? ·大数据的电花火石. ·Spark类似于MapReduce的低延迟的交互式计算框架. ·Spark是UC Berkeley AMPLab开发的是一种计算框架,分布式资源工作交由集群 ...

  • 大数据开发之Spark 基础入门学习

    集群相关 Cluster Manager指的是在集群上获取资源的外部服务,为每个spark application在集群中调度和分配资源的组件,目前有三种类型: Standalone:Spark 原生 ...

  • 大数据开发之HDFS的API操作过程

    创建maven工程并导入jar包 <repositories> <repository> <id>cloudera</id> <url>ht ...

  • 大数据开发之Hive应用分析

    Hive架构 1.用户接口:Client CLI(hive shell) JDBC(java访问hive) WEBUI(浏览器访问hive) 2.元数据(Metastore)-数据库 元数据包括:表名 ...

  • 大数据开发之Hive解析Json数组

    在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平大数据培训台调用数据时,要对埋点数据进行解析.接下来就聊聊Hiv ...