hive常见自定义函数有哪些

技术hive常见自定义函数有哪些这篇文章主要介绍了hive常见自定义函数有哪些,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。1.1 为什么需要自定义函数h

本文主要介绍了hive常用的自定义功能,具有一定的参考价值。有兴趣的朋友可以参考一下。希望大家看完这篇文章后收获多多。让边肖带你去了解一下。

1.1 为什么需要自定义函数

hive的内置功能无法满足所有业务需求。Hive提供了很多可以自定义的模块,比如自定义函数、serde、输入输出格式等。

00-1010 00001.UDF:用户定义函数。一对一输入输出。(最常用)。

0002.UDTF:用户定义的表格生成功能。用户定义的表生成函数。一对多输入输出。侧视图分解

0003.UDAF:用户定义的聚合函数。用户定义的聚合函数.多对一输入和输出计数总和最大值。

00-101010

1.2 常见自定义函数有哪些

首先,在项目下创建一个新的pom.xml,并添加以下maven依赖包。请检查代码/pom.xml

定义UDF函数:时,请注意以下几点

0001.inherit org . Apache . Hadoop . hive . QL . exec . UDF。

0002.覆盖评估()。这个方法不是由接口定义的,因为它可以接受的参数数量和数据类型是不确定的。Hive将检查UDF,看它是否能找到与函数调用匹配的evaluate()方法。

2 自定义函数实现

publicclassFirstUDFextendsUDF{

public斯特林evaluate(斯特林斯特){

斯特林堡=null;

//1.检查输入参数if(字符串应用程序.伊斯姆普蒂(STR)){

}else{

=海峡.();

}

return;

}

//调试自定义函数publicstaticvoidmain(字符串[]

;args){

        System.out.println(new firstUDF().evaluate("jiajingwen"));

    }}

2.2 函数加载方式

2.2.1 命令加载

这种加载只对本session有效

# 1、将编写的udf的jar包上传到服务器上,并且将jar包添加到hive的class path中

# 进入到hive客户端,执行下面命令

 add jar /hivedata/udf.jar

# 2、创建一个临时函数名,要跟上面hive在同一个session里面:

create temporary function toUP as 'com.qf.hive.FirstUDF';

3、检查函数是否创建成功

show functions;

4. 测试功能

select toUp('abcdef');

5. 删除函数

drop temporary function if exists tolow;

2.2.2 启动参数加载

(也是在本session有效,临时函数)

1、将编写的udf的jar包上传到服务器上

2、创建配置文件

vi ./hive-init

add jar /hivedata/udf.jar;

create temporary function toup as 'com.qf.hive.FirstUDF';

# 3、启动hive的时候带上初始化文件:

 hive -i ./hive-init

 select toup('abcdef')

2.2.3 配置文件加载

通过配置文件方式这种只要用hive命令行启动都会加载函数

1、将编写的udf的jar包上传到服务器上

2、在hive的安装目录的bin目录下创建一个配置文件,文件名:.hiverc

vi ./bin/.hiverc

add jar /hivedata/udf.jar;

create temporary function toup as 'com.qf.hive.FirstUDF';

3、启动hive

hive

2.3 UDTF格式

UDTF是一对多的输入输出,实现UDTF需要完成下面步骤

00001. 继承org.apache.hadoop.hive.ql.udf.generic.GenericUDF,

00002. 重写initlizer()、getdisplay()、evaluate()。

执行流程如下:

UDTF首先会调用initialize方法,此方法返回UDTF的返回行的信息(返回个数,类型)。

初始化完成后,会调用process方法,真正的处理过程在process函数中,在process中,每一次forward()调用产生一行;如果产生多列可以将多个列的值放在一个数组中,然后将该数组传入到forward()函数。

最后close()方法调用,对需要清理的方法进行清理。

2.3.1 需求:

把"k1:v1;k2:v2;k3:v3"类似的的字符串解析成每一行多行,每一行按照key:value格式输出

2.3.2 源码

自定义函数如下:

package com.qf.hive;

 public class ParseMapUDTF extends GenericUDTF{

     @Override

     public void close() throws HiveException {

     }

     @Override

     public StructObjectInspector initialize(ObjectInspector[] args)

             throws UDFArgumentException {

         if (args.length != 1) {

             throw new UDFArgumentLengthException(" 只能传入一个参数");

         }

         ArrayList<String> fieldNameList = new ArrayList<String>();

         ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();

         fieldNameList.add("map");

         fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

         fieldNameList.add("key");

         fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);

         return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNameList,fieldOIs);

     }

     @Override

     public void process(Object[] args) throws HiveException {

         String input = args[0].toString();

         String[] paramString = input.split(";");

         for(int i=0; i<paramString.length; i++) {

             try {

                 String[] result = paramString[i].split(":");

                 forward(result);

             } catch (Exception e) {

                 continue;

             }

         }

     }

 }

2.3.3 打包加载

对上述命令源文件打包为udf.jar,拷贝到服务器的/hivedata/目录

在Hive客户端把udf.jar加入到hive中,如下:

add jar /hivedata/udf.jar;

2.3.4 创建临时函数:

在Hive客户端创建函数:

create temporary function parseMap as 'com.qf.hive.ParseMapUDTF'; # 创建一个临时函数parseMap# 查看函数是否加入show functions ;

2.3.5 测试临时函数

select parseMap("name:zhang;age:30;address:shenzhen")

结果如下:

#map  key  

name    zhang

age 30

address shenzhen

2.4 UDAF格式

用户自定义聚合函数。user defined aggregate function。多对一的输入输出 count sum max。定义一个UDAF需要如下步骤:

00001. UDF自定义函数必须是org.apache.hadoop.hive.ql.exec.UDAF的子类,并且包含一个火哥多个嵌套的的实现了org.apache.hadoop.hive.ql.exec.UDAFEvaluator的静态类。

00002. 函数类需要继承UDAF类,内部类Evaluator实UDAFEvaluator接口。

00003. Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函

这几个函数作用如下:

函数说明init实现接口UDAFEvaluator的init函数iterate每次对一个新值进行聚集计算都会调用,计算函数要根据计算的结果更新其内部状态terminatePartial无参数,其为iterate函数轮转结束后,返回轮转数据merge接收terminatePartial的返回结果,进行数据merge操作,其返回类型为boolean。terminate返回最终的聚集函数结果。

2.4.1 需求

计算一组整数的最大值

2.4.2 代码

package com.qf.hive;public class MaxValueUDAF extends UDAF {

    public static class MaximumIntUDAFEvaluator implements UDAFEvaluator {

        private IntWritable result;

        public void init() {

            result = null;

        }

        public boolean iterate(IntWritable value) {

            if (value == null) {

                return true;

            }

            if (result == null) {

                result = new IntWritable( value.get() );

            } else {

                result.set( Math.max( result.get(), value.get() ) );

            }

            return true;

        }

        public IntWritable terminatePartial() {

            return result;

        }

        public boolean merge(IntWritable other) {

            return iterate( other );

        }

        public IntWritable terminate() {

            return result;

        }

    }}

2.4.3 打包加载

对上述命令源文件打包为udf.jar,拷贝到服务器的/hivedata/目录

在Hive客户端把udf.jar加入到hive中,如下:

add jar /hivedata/udf.jar;

2.4.4 创建临时函数:

在Hive客户端创建函数:

create temporary function maxInt as 'com.qf.hive.MaxValueUDAF';# 查看函数是否加入show functions ;

2.3.5 测试临时函数

select maxInt(mgr) from emp

结果如下:

#结果

7902

感谢你能够认真阅读完这篇文章,希望小编分享的“hive常见自定义函数有哪些”这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/142071.html

(0)

相关推荐

  • practise的用法,practice的固定搭配

    技术practise的用法,practice的固定搭配practice的用法和短语搭配例句详解如下practise的用法:英式英语 美式英语
    n.练习 practice practice
    v. 练习 practise p

    生活 2021年10月19日
  • keil如何下载至单片机(keil5 hex文件怎么下载到单片机)

    技术KeilC51基础中如何生成可以下载到单片机的Hex文件KeilC51基础中如何生成可以下载到单片机的Hex文件,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个

    攻略 2021年12月24日
  • 怎么使用配置文件安装SQLServer故障转移群集

    技术怎么使用配置文件安装SQLServer故障转移群集这篇文章将为大家详细讲解有关怎么使用配置文件安装SQLServer故障转移群集,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。  S

    攻略 2021年12月8日
  • 猪宝宝小名,你孩子的名字是自己起的吗

    技术猪宝宝小名,你孩子的名字是自己起的吗是的,把我和孩子带坑里去了猪宝宝小名。尤其是我女儿的。生产前并不知道性别,所以就没先给孩子取名,出生后也才被告知要3天内取名,所以当时挺急的,女儿又是双方家庭的第一个孩子。此为背景

    生活 2021年10月30日
  • mysql高级查询中in作用是什么(mysql中and和or的用法区别举例)

    技术mysql中in和or的区别有哪些这篇文章主要讲解了“mysql中in和or的区别有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“mysql中in和or的区别有哪

    攻略 2021年12月23日
  • c++面试题(c++用什么软件编程)

    技术如何利用上下文属性将 C++ 对象嵌入 QML 里本篇文章为大家展示了如何利用上下文属性将 C++ 对象嵌入 QML 里,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。一、设置

    攻略 2021年12月15日