ORC在Hive中如何应用

技术ORC在Hive中如何应用这篇文章主要介绍了ORC在Hive中如何应用,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。ORC文件不仅仅是一种列式文件存储

本文主要介绍ORC在Hive中的应用,具有一定的参考价值。有兴趣的朋友可以参考一下。希望大家看完这篇文章后有很多收获。让边肖带你去了解一下。

ORC文件不仅是列式文件存储格式,也是很高的压缩比文件,是MapReduce的可切分(Split)文件。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以在很大程度上节省HDFS存储资源,还可以大大提高数据的查询和处理性能,因为ORC比其他文件格式具有更高的压缩比,而且查询Task的输入数据减少,使用的任务也减少。

性能改进的另一个方面是为ORC文件中的每个字段建立一个轻量级的索引,以确定文件中是否满足WHERE子句中的筛选条件。例如,在执行HQL语句“SELECT COUNT(1) FROM xxx WHERE a=1”时,首先从ORC文件的元数据中读取索引信息,快速定位id=0所在的偏移量,如果在索引信息中没有找到id=0的信息,则直接跳过该文件。

在hive中执行以下语句,创建一个新的Hive表xxx,并将存储格式指定为ORC。

CREATETABLExxx(名称字符串,颜色字符串)STOREDASORC

如果一个表不是以ORC格式存储的,并且您想现在将其更改为ORC格式,您可以执行以下语句:

alteretablexxxsetfileformatorc;

从hive 0.14版本开始,可以执行以下语句来合并ORC小文件。合并发生在条带级别,因此没有重新解压缩编码。

alter table XXX[partition partition _ spec]CONCATENATE;

如果想查看ORC文件的信息,可以执行以下语句,其中path为hdfs路径。

hive-orckfile dumppath _ to _ file

从Hive 1.1开始,如果想查看ORC的数据内容,可以执行以下语句:

hive-orckfile dump-dpath _ to _ file

感谢您仔细阅读本文。希望边肖分享的文章《如何在蜂巢应用ORC》对大家有所帮助。同时希望大家多多支持,关注行业信息渠道,多了解!

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/143185.html

(0)

相关推荐

  • 离职怎么写,工作不干了辞职报告怎么写

    技术离职怎么写,工作不干了辞职报告怎么写尊敬的领导离职怎么写:  我很遗憾自己在这个时候向公司正式提出辞职申请。  来到公司也已经快两年了,在这近两年里,得到了公司各位同事的多方帮助,我非常感谢公司各位同事。正是在这里我

    生活 2021年10月31日
  • Sun的新Java脚本语言是什么

    技术Sun的新Java脚本语言是什么本篇文章给大家分享的是有关Sun的新Java脚本语言是什么,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

    攻略 2021年12月2日
  • springboot会自动更新nacos配置吗(nacos与springboot版本对应)

    技术springboot使用nacos的示例分析springboot使用nacos的示例分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。1、pom.xml

    攻略 2021年12月20日
  • 业内首款云原生技术中台产品云原生 Stack 来了!

    技术业内首款云原生技术中台产品云原生 Stack 来了! 业内首款云原生技术中台产品云原生 Stack 来了!云原生 Stack 满足了各种典型场景下客户对于线下高集成平台的诉求,让企业数字化转型不受技

    礼包 2021年10月28日
  • log4j2异步日志配置(log4j异步日志配置)

    技术log4j2的异步使用及添加自定义参数方式是什么今天就跟大家聊聊有关log4j2的异步使用及添加自定义参数方式是什么,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收

    攻略 2021年12月23日
  • 记一次线上问题定位过程

    技术记一次线上问题定位过程 记一次线上问题定位过程出现问题,但不能快速修复系统在高峰期突然出现了大面积的core dump,通过gdbcore文件发现,是core在发送数据到另一个服务的地方,打开堆栈对

    礼包 2021年11月25日