首页 > 其他分享 >hvie url 解析函数

hvie url 解析函数

时间:2022-12-28 16:06:44浏览次数:56  
标签:index http hvie parse url path 解析 com


目录

  • ​​hive outline​​
  • ​​hive parse_url​​
  • ​​hive parse_url_tuple​​

hive outline

​​链接​​

对以下数据建表:tb_url

1 http://facebook.com/path/p1.php?query=1
2 http://tongji.baidu.com/news/index.jsp?uuid=frank
3 http://www.jdwz.com/index?source=baidu
4 http://www.itcast.cn/index?source=alibaba

hive parse_url

该函数属于UDF类型

语法:

parse_url(url, partToExtract[, key]) - extracts a part from a URL
Parts: HOST, PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE, USERINFO key

需求:实现对URL进行分析,从URL中获取每个ID对应HOST、PATH以及QUERY

id

url

1

​http://facebook.com/path/p1.php?query=1​

2

​http://tongji.baidu.com/news/index.jsp?uuid=frank​

3

​http://www.jdwz.com/index?source=baidu​

4

​http://www.itcast.cn/index?source=alibaba​

select id,
parse_url(url, "HOST") as host,
parse_url(url, "PATH") as path,
parse_url(url, "QUERY") as query
from tb_url;

id

host

path

query

1

facebook.com

/path/p1.php

query=1

2

tongji.baidu.com

/news/index.jsp

uuid=frank

3

www.jdwz.com

/index

source=baidu

4

www.itcast.cn

/index

source=alibaba

​注意:​​使用parse_url函数每次只能解析一个参数,导致构建多列需要调用多次该函数,我们希望能实现调用一次函数,就可以将多个参数进行解析,得到多列结果。parse_url_tuple可以实现该效果

hive parse_url_tuple

该函数属于UDTF类型(常结合lateral view侧视图)

语法:

parse_url_tuple(url, partname1, partname2, ..., partnameN) - extracts N (N>=1) parts from a URL.
It takes a URL and one or multiple partnames, and returns a tuple. All the input parameters and output column types are string.
Partname: HOST, PATH, QUERY, REF, PROTOCOL, AUTHORITY, FILE, USERINFO, QUERY:<KEY_NAME>
parse_url在使用时可以指定多个参数
第一个参数:url:指定要解析的URL
第二个参数:key1:指定要解析的内容1
……
第N个参数:keyN:指定要解析的内容N
select a.id,
b.host,
b.path,
b.query
from tb_url a lateral view parse_url_tuple(url, "HOST", "PATH", "QUERY") b as host, path, query;

id

host

path

query

1

facebook.com

/path/p1.php

query=1

2

tongji.baidu.com

/news/index.jsp

uuid=frank

3

www.jdwz.com

/index

source=baidu

4

www.itcast.cn

/index

source=alibaba


标签:index,http,hvie,parse,url,path,解析,com
From: https://blog.51cto.com/u_14009243/5975547

相关文章

  • QT编译报错,LNK2001:无法解析的外部符号
    今天按照以前写过的文件依葫芦画瓢新建了一个类,结果报了3行LNK2001的错误,如下图:QT比较恶心的一个地方就是这种错误不能直接看出来是哪出的问题,而且双击也跳......
  • 如何平滑的修改网站域名解析?
    更换了网站服务器空间的时候,站长通常需要对域名解析进行修改。由于不同的服务商之间的架构不同,很多时候并非IP的更换,而是CNMAE更换IP或IP更换CNAME,这里介绍一下这种情况的......
  • 工业级交换机的5个常见的优点解析
     随着科技的不断发展,越来越多的工业级交换机逐渐取代了普通交换机。是因为工业级交换机有着普通交换机没有的优势。下面飞畅科技就来为大家详细说说工业级交换机最常见的5......
  • 实现动态域名解析DDNS
    https://help.aliyun.com/document_detail/431629.html?spm=5176.smartservice_service_robot_chat_new.0.0.26bef625nZZyid 实现动态域名解析DDNS更新时间:2022-09-2......
  • 关于cas-client单点登录客户端拦截请求和忽略/排除不需要拦截的请求URL的问题(不需要修
     前言:今天在网上无意间看到cas单点登录排除请求的问题,发现很多人在讨论如何通过改写AuthenticationFilter类来实现忽略/排除请求URL的功能;突发奇想搜了一下,还真蛮多人都是......
  • 直播预告 | 全场景音视频技术解析
    近年来,得益于移动互联网的普及和智能终端设备的广泛应用,短视频、直播、在线教育等各类形式的音视频业务场景风靡大众。但随着音视频应用越来越广泛,用户对于音视频服务的质量......
  • IP 解析器
    privatestaticvoidhttp(Stringip){ip=StringUtils.trim(ip);Stringurl=MessageFormat.format("http://api.ip138.com/query/?ip={0}&token=7bf8b6b142860906263......
  • JVM CMS GC算法解析
    CMS,全称ConcurrentLowPauseCollector,是jdk1.4后期版本开始引入的新gc算法,在jdk5和jdk6中得到了进一步改进,它的主要适合场景是对响应时间的重要性需求大于对吞吐量的要求......
  • cmd命令curl的简单使用以及通过ip查所对应地址的方法
    CURL命令的使用简介curl是常用的命令行工具,用来请求Web服务器。它的名字就是客户端(client)的URL工具的意思。它的功能非常强大,命令行参数多达几十种。如果熟练的话,......
  • CountDownLatch和FutureTask类使用方法解析
    摘要:使用CountDownLatch和FutureTask解决主线程需要拿到多个子线程任务的执行结果之后再进行执行的问题。综述  我们在工作中,经常遇到有些业务场景需要使用多线程异步......