HDFS的读写流程图
@[TOC](
HDFS的读写流程
)
1) hdfs的数据写入流程:
1. 客户端发送写入请求给namenode2. namenode接收到请求, 然后首先判断当前操作的用户是否具有写入的权限, 如果没有,直接报错 如果有权限, 接着判断要写入的数据目录下是否存在这个文件, 如果存在, 直接报错, 如果不存在, 此时就会给客户端返回可以写入的状态3. 当客户端获取可以写入的状态后, 开始对文件执行切割操作, 默认情况下, 会按照128M方式来切割文件4. 客户端拿着第一个block再次请求namenode, 让namenode为这个blcok分配datanode地址列表5. namenode会根据datanode的块信息,以及根据 机架感知原理, 网络拓扑关系 和 副本信息 来挑选出最合适的datanode地址, 将这些地址按照由近到远的顺序放置到列表中返回客户端6. 客户端根据列表中第一个地址连接指定的datanode, 然后由这个datanode连接下一次, 然后由下一个连接下一个依次类推,由此形成一个pipeline的管道 , 同时反向还会形成一条ack的校验管道7. 客户端开始写入. 数据以数据包的形成进行传输, 一个数据包为64kb, 当第一个datanode接收到, 接着传输给下一个, 依次类推同时,每一个接收到数据后, 都要在ack校验通道中进行记录8. 第一个datanode, 将ack中校验信息收集起来, 统计发送给客户端,由客户端校验此数据包是否全部都接收到了9. 客户端一次次的开始传输, 一次次进行校验, 直到将第一个block传输完成, 接下来拿的第二个block再次请求namenode, 获取block要存储在那些datanode上, 接下来执行第6~8 , 直到将所有的block传输完成, 到此写入流程结束了
2)hdfs的数据读取流程
1) 客户端发起数据读取的请求2) namenode接收到数据读取的请求, 首先判断要读取的文件是否存在, 如果不存在, 直接报错, 如果存在, 接着会判断当前操作的用户是否具备读取数据的权限, 如果没有 直接报错, 如果有权限, namenode 会根据 block信息, 机架感知原理, 网络拓扑关系, 副本信息 ,本地原则, 返回这个文件部分或者全部的block的地址3) 客户端拿到block部分或者全部地址, 接下来, 采用并行读取策略, 将block数据全部读取到客户端4) 如果namenode之前返回的部分的block地址, 此时客户端接着再次请求namenode, 获取下一批的block地址,执行第四步以此类推, 直到将所有的block全部的读取到客户端5) 客户端将读取到block数据按照顺序, 依次拼接 形成最终的文件 返回给用户
赞 (0)