Hive表的几种存储格式

Hive的文件存储格式:

  • textFile

    textFile为默认格式

    存储方式:行存储

    缺点:磁盘开销大;数据解析开销大;压缩的text文件,hive无法进行合并和拆分

  • sequencefile

    二进制文件,以<key,value>的形式序列化到文件中

    存储方式:行存储

    优点:可分割、压缩,一般选择block压缩,与hadoop api中的mapfile是互相兼容的。

  • Rcfile

    存储方式:数据按行分块 每块按照列存储

    压缩快 快速列存取

    读记录尽量涉及到的block最少

    读取需要的列只需要读取每个row group 的头部定义。

    读取全量数据的操作 性能可能比sequencefile没有明显的优势

  • ORC

    存储方式:数据按行分块 每块按照列存储

    压缩快 快速列存取

    效率比rcfile高,是rcfile的改良版本

    官网介绍:

    The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Using ORC files improves performance when Hive is reading, writing, and processing data.

    ORC实际上是在RC文件存储格式做了一些优化,它的主要优点有:
      (1)、每个task只输出单个文件,这样可以减少NameNode的负载;
      (2)、支持各种复杂的数据类型,比如: datetime, decimal, 以及一些复杂类型(struct, list, map, and union);
      (3)、在文件中存储了一些轻量级的索引数据;
      (4)、基于数据类型的块模式压缩:a、integer类型的列用行程长度编码(run-length encoding);b、String类型的列用字典编码(dictionary encoding);
      (5)、用多个互相独立的RecordReaders并行读相同的文件;
      (6)、无需扫描markers就可以分割文件;
      (7)、绑定读写所需要的内存;
      (8)、metadata的存储是用 Protocol Buffers的,所以它支持添加和删除一些列。

  • 自定义格式

    用户可以通过实现inoutformat和outputformat来定义输入输出格式。

(0)

相关推荐

  • 大数据开发Hive中 ORC 存储格式分析

    一.ORC File文件结构 ORC是列式存储,有多种文件压缩方式,并且有着很高的压缩比. 文件是可切分(Split)的.因此,在Hive中使用ORC作为表的文件存储格式,不仅节省HDFS存储资源,查 ...

  • 数据仓库如何实现湖仓一体数据分析?

    一. 背景 随着云计算的普及和数据分析需求的扩大,数据湖+数据仓库的湖仓一体分析能力成为下一代数据分析系统的核心能力.相对于数据仓库,数据湖在成本.灵活性.多源数据分析等多方面,都有着非常明显的优势. ...

  • Hive支持的数据类型

    Hive 提供了基本数据类型和复杂数据类型1.1 原始数据类型#整型TINYINT - 微整型,只占用1个字节,只能存储0-255的整数.SMALLINT– 小整型,占用2个字节,存储范围–32768 ...

  • 教学管理菜鸟成长记26-规范录入工作表数据8-各种序号难不倒之上集

    注:本图由专业摄影师细水长流赞助授权使用 关键词:EXCEL:subtotal函数:COUNTA函数:序号:操作难度*** 话说小菜学会Excel插件以后,工作心情那是如同赢了德国队的韩国队一样惬意. ...

  • 教学管理菜鸟成长记27-规范录入工作表数据9-各种序号难不倒之下集

    关键词:Excel2016:ROW函数:COUNTIF函数:序号 话说昨天二师兄教会小菜利用函数来制作不一样的序号列,世界杯都顾不上看了,通宵达旦研究工作中可能需要用到序号的各种情形,一大早就来到高家 ...

  • 菜鸟记572-论浏览长长的工作表的几种正确方式

    万一您身边的朋友用得着呢? 各位朋友早上好,小菜继续和您分享经验之谈,截止今日小菜已分享500+篇经验之谈,可以文章编号或关键词进行搜索. 微信推送规则发生改变,如果您想看到小菜每个工作日的经验之谈, ...

  • 新建100张表的6种做法,全部会的算你牛

    一件事情,不同的人去做,方法完全不同.新建表会吗?呵呵呵呵呵 新建100张表? 来看看不同的人不同的做法. 菜鸟的做法 点击表标签旁边的加号,100次! 新手的做法 复制1个,变成2个,复制2个,变成 ...

  • Excel二维表转换成一维表(2种方法)

    今天大年初四,春节假期还剩三天了,每逢佳节胖三斤,亲们可要注意控制饮食了,要不然春节后无脸见人哟.闲话少说,今日分享如下. 在做数据处理的时候,有的时候为了处理方便我们需要将二维的数据表处理成一维的数 ...

  • 你不知道的VBA技巧|引用工作表的三种方法

    通过索引号引用工作表 同工作簿一样,工作簿中的每张工作表都拥有索引号,如图 3-21 所示. 如果要引用活动工作簿中的第 3 张工作表,可以将代码写为: 通常我们会省略Item属性的名称,将代码写为: ...

  • 二维表转横向一维表,两种方法会不会

    其实就是二维表转一维表,但这个表是横向的,而度娘上给出的解决方案只能转纵向.所以谁都靠不住,只能靠自己了-- 目前,我只想到两种方法:Power Query.VBA,没有想到函数解决方案,如果你有什么 ...

  • 连接表的几种DAX代码,一次全掌握!

    编写DAX代码进行业务分析时,经常会用到表与表之间的连接计算,比如在之前的产品关联分析一文中(如何用Power BI分析产品关联度?),需要找出同时购买两种商品的客户,就是计算A商品的客户列表与B商品 ...

  • 【今日素食】营养爆表的24种豆皮做法。

    豆腐皮是汉族传统豆制品 在南方和北方都很受欢迎 老人小孩都很适合吃 24种豆皮做法! 带给你满满的蛋白质.氨基酸营养! 1.红烧千张结 食材:豆腐皮,黑木耳,酱油,姜,八角,桂皮,干辣椒,糖,高汤 做 ...