本文主要介绍ORC在Hive中的应用,具有一定的参考价值。有兴趣的朋友可以参考一下。希望大家看完这篇文章后有很多收获。让边肖带你去了解一下。
ORC文件不仅是列式文件存储格式,也是很高的压缩比文件,是MapReduce的可切分(Split)文件。因此,在Hive中使用ORC作为表的文件存储格式,不仅可以在很大程度上节省HDFS存储资源,还可以大大提高数据的查询和处理性能,因为ORC比其他文件格式具有更高的压缩比,而且查询Task的输入数据减少,使用的任务也减少。
性能改进的另一个方面是为ORC文件中的每个字段建立一个轻量级的索引,以确定文件中是否满足WHERE子句中的筛选条件。例如,在执行HQL语句“SELECT COUNT(1) FROM xxx WHERE a=1”时,首先从ORC文件的元数据中读取索引信息,快速定位id=0所在的偏移量,如果在索引信息中没有找到id=0的信息,则直接跳过该文件。
在hive中执行以下语句,创建一个新的Hive表xxx,并将存储格式指定为ORC。
CREATETABLExxx(名称字符串,颜色字符串)STOREDASORC
如果一个表不是以ORC格式存储的,并且您想现在将其更改为ORC格式,您可以执行以下语句:
alteretablexxxsetfileformatorc;
从hive 0.14版本开始,可以执行以下语句来合并ORC小文件。合并发生在条带级别,因此没有重新解压缩编码。
alter table XXX[partition partition _ spec]CONCATENATE;
如果想查看ORC文件的信息,可以执行以下语句,其中path为hdfs路径。
hive-orckfile dumppath _ to _ file
从Hive 1.1开始,如果想查看ORC的数据内容,可以执行以下语句:
hive-orckfile dump-dpath _ to _ file
感谢您仔细阅读本文。希望边肖分享的文章《如何在蜂巢应用ORC》对大家有所帮助。同时希望大家多多支持,关注行业信息渠道,多了解!
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/143185.html