大数据开发之HDFS分布式文件存储系统详解

HDFS(Hadoop Distributed File System)分布式文件存储系统,主要为各类分布式计算框架如Spark、MapReduce等提供海量数据存储服务,同时HBase、Hive底层存储也依赖于HDFS。HDFS提供一个统一的抽象目录树,客户端可通过路径来访问文件。HDFS集群分为两大角色:Namenode、Datanode(非HA模式会存在Secondary Namenode)

Namenode

Namenode是HDFS集群主节点,负责管理整个文件系统的元数据,所有的读写请求都要经过Namenode。

元数据管理

Namenode对元数据的管理采用了三种形式:

1) 内存元数据:基于内存存储元数据,元数据比较完整

2) fsimage文件:磁盘元数据镜像文件,在NameNode工作目录中,它不包含block所在的Datanode 信息

3) edits文件:数据操作日志文件,用于衔接内存元数据和fsimage之间的操作日志,可通过日志运算出元数据

fsimage + edits = 内存元数据

注意:当客户端对hdfs中的文件进行新增或修改时,操作记录首先被记入edit日志文件,当客户端操作成功后,相应的元数据会更新到内存元数据中

可以通过hdfs的一个工具来查看edits中的信息

bin/hdfs oev -i edits -o edits.xml

查看fsimage

bin/hdfs oiv -i fsimage_0000000000000000087 -p XML -o fsimage.xml

元数据的checkpoint(非HA模式)

Secondary Namenode每隔一段时间会检查Namenode上的fsimage和edits文件是否需要合并,如触发设置的条件就开始下载最新的fsimage和所有的edits文件到本地,并加载到内存中进行合并,然后www.atguigu.com将合并之后获得的新的fsimage上传到Namenode。checkpoint操作的触发条件主要配置参数:

dfs.namenode.checkpoint.check.period=60 #检查触发条件是否满足的频率,单位秒

dfs.namenode.checkpoint.dir=file://${hadoop.tmp.dir}/dfs/namesecondary

dfs.namenode.checkpoint.edits.dir=${dfs.namenode.checkpoint.dir}

#以上两个参数做checkpoint操作时,secondary namenode的本地工作目录,主要处理fsimage和edits文件的

dfs.namenode.checkpoint.max-retries=3 #最大重试次数

dfs.namenode.checkpoint.period=3600 #两次checkpoint之间的时间间隔3600秒

dfs.namenode.checkpoint.txns=1000000 #两次checkpoint之间最大的操作记录

checkpoint作用

1. 加快Namenode启动

Namenode启动时,会合并磁盘上的fsimage文件和edits文件,得到完整的元数据信息,但如果fsimage和edits文件非常大,这个合并过程就会非常慢,导致HDFS长时间处于安全模式中而无法正常提供服务。SecondaryNamenode的checkpoint机制可以缓解这一问题

2. 数据恢复

Namenode和SecondaryNamenode的工作目录存储结构完全相同,当Namenode故障退出需要重新恢复时,可以从SecondaryNamenode的工作目录中将fsimage拷贝到Namenode的工作目录,以恢复Namenode的元数据。但是SecondaryNamenode最后一次合并之后的更新操作的元数据将会丢失,最好Namenode元数据的文件夹放在多个磁盘上面进行冗余,降低数据丢失的可能性。

注意事项:

1. SecondaryNamenode只有在第一次进行元数据合并时需要从Namenode下载fsimage到本地。SecondaryNamenode在第一次元数据合并完成并上传到Namenode后,所持有的fsimage已是最新的fsimage,无需再从Namenode处获取,而只需要获取edits文件即可。

2. SecondaryNamenode从Namenode上将要合并的edits和fsimage拷贝到自己当前服务器上,然后将fsimage和edits反序列化到SecondaryNamenode的内存中,进行计算合并。因此一般需要把Namenode和SecondaryNamenode分别部署到不同的机器上面,且SecondaryNamenode服务器配置要求一般不低于Namenode。

3. SecondaryNamenode不是充当Namenode的“备服务器”,它的主要作用是进行元数据的checkpoint

Datanode

Datanode作为HDFS集群从节点,负责存储管理用户的文件块数据,并定期向Namenode汇报自身所持有的block信息(这点很重要,因为,当集群中发生某些block副本失效时,集群如何恢复block初始副本数量的问题)。

关于Datanode两个重要的参数:

1. 通过心跳信息上报参数

<property>

<name>dfs.blockreport.intervalMsec</name>

<value>3600000</value>

<description>Determines block reporting interval in milliseconds.</description>

</property>

2. Datanode掉线判断时限参数

Datanode进程死亡或者网络故障造成Datanode无法与Namenode通信时,Namenode不会立即把该Datanode判定为死亡,要经过一段时间,这段时间称作超时时长。HDFS默认的超时时长为10分钟30秒。如果定义超时时间为timeout,则超时时长的计算公式为:

timeout = 2 * heartbeat.recheck.interval(默认5分钟) + 10 * dfs.heartbeat.interval(默认3秒)。

<property>

<name>heartbeat.recheck.interval</name>

# 单位毫秒

<value>2000</value>

</property>

<property>

<name>dfs.heartbeat.interval</name>

# 单位秒

<value>1</value>

</property>

HDFS读写数据流程

了解了Namenode和Datanode的作用后,就很容易理解HDFS读写数据流程,这个也是面试中经常问的问题。

HDFS写数据流程

注意:

1.文件block块切分和上传是在客户端进行的操作

2.Datanode之间本身是建立了一个RPC通信建立pipeline

3.客户端先从磁盘读取数据放到一个本地内存缓存,开始往Datanode1上传第一个block,以packet为单位,Datanode1收到一个packet就会传给Datanode2,Datanode2传给Datanode3;Datanode1每传一个packet会放入一个应答队列等待应答

4.当一个block传输完成之后,客户端会通知Namenode存储块完毕,Namenode将元数据同步到内存中

5. Datanode之间pipeline传输文件时,一般按照就近可用原则

a) 首先就近挑选一台机器

b) 优先选择另一个机架上的Datanode

c) 在本机架上再随机挑选一台

HDFS读数据流程

注意:

1. Datanode发送数据,是从磁盘里面读取数据放入流,以packet为单位来做校验

2. 客户端以packet为单位接收,先在本地缓存,然后写入目标文件

客户端将要读取的文件路径发送给namenode,namenode获取文件的元信息(主要是block的存放位置信息)返回给客户端,客户端根据返回的信息找到相应datanode逐个获取文件的block并在客户端本地进行数据追加合并从而获得整个文件

HDFSHA机制

HA:高可用,通过双Namenode消除单点故障。

双Namenode协调工作的要点:

1. 元数据管理方式需要改变

a) 内存中各自保存一份元数据

b) edits日志只能有一份,只有active状态的Namenode节点可以做写操作

c) 两个Namenode都可以读取edits

d) 共享的edits放在一个共享存储中管理(qjournal和NFS两个主流实现,图中以放在一个共享存储中管理(qjournal和为例)

2. 需要一个状态管理功能模块

a) 实现了一个zk failover,常驻在每一个Namenode所在的节点

b) 每一个zk failover负责监控自己所在Namenode节点,利用zk进行状态标识,当需要进行状态切换时,由zk failover来负责切换,切换时需要防止brain split现象的发生

(0)

相关推荐

  • HDFS的知识整理

    HDFS概述 HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文 ...

  • Hadoop-HDFS(HDFS-HA)

    HDFS(Hadoop Distributed File System) 分布式文件系统,HDFS是一个高度容错性的系统,适合部署在廉价的机器上.HDFS能提供高吞吐量的数据访问,非常适合大规模数据集 ...

  • 大数据开发之HDFS的API操作过程

    创建maven工程并导入jar包 <repositories> <repository> <id>cloudera</id> <url>ht ...

  • 大数据开发之Yarn和Spark UI界面获取的方法

    一.Yarn 以获取Yarn界面队列信息为例: 1. 接口(HTTP Request) http://ip:port/ws/v1/cluster/scheduler ip和port:Yarn Reso ...

  • 大数据开发之Spark SQL/Hive实用函数分享

    字符串函数 1. concat 对字符串进行拼接:concat(str1, str2, ..., strN) ,参数:str1.str2...是要进行拼接的字符串. , (, ); 2. concat ...

  • 大数据开发之Spark入门

    什么是Spark? ·大数据的电花火石. ·Spark类似于MapReduce的低延迟的交互式计算框架. ·Spark是UC Berkeley AMPLab开发的是一种计算框架,分布式资源工作交由集群 ...

  • 大数据开发之Spark 基础入门学习

    集群相关 Cluster Manager指的是在集群上获取资源的外部服务,为每个spark application在集群中调度和分配资源的组件,目前有三种类型: Standalone:Spark 原生 ...

  • 大数据开发之Hadoop集群安装教程

    配置文件的修改 注意:以下所有操作都在node01主机进行. 1.1 hadoop-env.sh 1.介绍 文件中设置的是Hadoop运行时需要的环境变量.JAVA_HOME是必须设置的,即使我们当前 ...

  • 大数据开发之Hadoop生态6 大核心组件

    Hadoop 第一代分布式存储计算框架 Hadoop是一个分布式系统基础架构,由Apache基金会开发,它允许用户在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储.Ha ...

  • 大数据开发之Hive应用分析

    Hive架构 1.用户接口:Client CLI(hive shell) JDBC(java访问hive) WEBUI(浏览器访问hive) 2.元数据(Metastore)-数据库 元数据包括:表名 ...

  • 大数据开发之Hive解析Json数组

    在Hive中会有很多数据是用Json格式来存储的,如开发人员对APP上的页面进行埋点时,会将多个字段存放在一个json数组中,因此数据平大数据培训台调用数据时,要对埋点数据进行解析.接下来就聊聊Hiv ...