ORC在Hive中如何应用-柠檬ai自媒体

本文主要介绍ORC在Hive中的应用，具有一定的参考价值。有兴趣的朋友可以参考一下。希望大家看完这篇文章后有很多收获。让边肖带你去了解一下。

ORC文件不仅是列式文件存储格式，也是很高的压缩比文件，是MapReduce的可切分（Split）文件。因此，在Hive中使用ORC作为表的文件存储格式，不仅可以在很大程度上节省HDFS存储资源，还可以大大提高数据的查询和处理性能，因为ORC比其他文件格式具有更高的压缩比，而且查询Task的输入数据减少，使用的任务也减少。

性能改进的另一个方面是为ORC文件中的每个字段建立一个轻量级的索引，以确定文件中是否满足WHERE子句中的筛选条件。例如，在执行HQL语句“SELECT COUNT(1) FROM xxx WHERE a=1”时，首先从ORC文件的元数据中读取索引信息，快速定位id=0所在的偏移量，如果在索引信息中没有找到id=0的信息，则直接跳过该文件。

在hive中执行以下语句，创建一个新的Hive表xxx，并将存储格式指定为ORC。

CREATETABLExxx(名称字符串，颜色字符串)STOREDASORC

如果一个表不是以ORC格式存储的，并且您想现在将其更改为ORC格式，您可以执行以下语句：

alteretablexxxsetfileformatorc；

从hive 0.14版本开始，可以执行以下语句来合并ORC小文件。合并发生在条带级别，因此没有重新解压缩编码。

alter table XXX[partition partition _ spec]CONCATENATE；

如果想查看ORC文件的信息，可以执行以下语句，其中path为hdfs路径。

hive-orckfile dumppath _ to _ file

从Hive 1.1开始，如果想查看ORC的数据内容，可以执行以下语句：

hive-orckfile dump-dpath _ to _ file

感谢您仔细阅读本文。希望边肖分享的文章《如何在蜂巢应用ORC》对大家有所帮助。同时希望大家多多支持，关注行业信息渠道，多了解！

内容来源网络，如有侵权，联系删除，本文地址：https://www.230890.com/zhan/143185.html

ORC在Hive中如何应用

相关推荐

离职怎么写,工作不干了辞职报告怎么写

Sun的新Java脚本语言是什么

springboot会自动更新nacos配置吗(nacos与springboot版本对应)

业内首款云原生技术中台产品云原生 Stack 来了！

log4j2异步日志配置(log4j异步日志配置)

记一次线上问题定位过程