博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hive row_number() 等用法
阅读量:4599 次
发布时间:2019-06-09

本文共 2095 字,大约阅读时间需要 6 分钟。

1、row_number() over()排序功能:

(1) row_number() over()分组排序功能:

     在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚于 where group by  order by 的执行。

partition by 用于给结果集分组,如果没有指定那么它把整个结果集作为一个分组,它和聚合函数不同的地方在于它能够返回一个分组中的多条记录,而聚合函数一般只有一个反映统计值的记录。

例如:employee,根据部门分组排序。

SELECT empno,WORKDEPT,SALARY, Row_Number() OVER (partition by workdept ORDER BY salary desc) rank FROM employee   --------------------------------------   A00 152750  1   A00 66500   2   A00 49250   3   A00 46500   4   A00 39250   5   B01 94250   1   C01 98250   1   C01 73800   2

  

(2)对查询结果进行排序:(无分组)

SELECT empno,WORKDEPT,SALARY, Row_Number() OVER (ORDER BY salary desc) rank FROM employee   --------------------------------------   A00 152750  1   C01 98250   2   D21 96170   3   B01 94250   4   E11 89750   5   E21 86150   6   E01 80175   7   C01 73800   8   D11 72250   9

  

row_number() over()和rownum差不多,功能更强一点(可以在各个分组内从1开时排序).

 

2、rank() over()是跳跃排序,有两个第二名时接下来就是第四名(同样是在各个分组内).

select workdept,salary,rank() over(partition by workdept order by salary) as dense_rank_order from emp order by workdept;  ------------------  A00 39250   1  A00 46500   2  A00 49250   3  A00 66500   4  A00 152750  5  B01 94250   1  C01 68420   1  C01 68420   1  C01 73800   3

  

3、dense_rank() over()是连续排序,有两个第二名时仍然跟着第三名。相比之下row_number是没有重复值的 .

select workdept,salary,dense_rank() over(partition by workdept order by salary) as dense_rank_order from emp order by workdept;  ------------------  A00 39250   1  A00 46500   2  A00 49250   3  A00 66500   4  A00 152750  5  B01 94250   1  C01 68420   1  C01 68420   1  C01 73800   2  C01 98250   3

  

使用ROW_NUMBER删除重复数据 

---假设表TAB中有a,b,c三列,可以使用下列语句删除a,b,c都相同的重复行。

DELETE FROM (select year,QUARTER,RESULTS,row_number() over(partition by YEAR,QUARTER,RESULTS order by YEAR,QUARTER,RESULTS) AS ROW_NO FROM SALE )   WHERE ROW_NO>1

  

最后在执行hive 语句时出错, 出现错误:

FAILED: ParseException line 22:7 extraneous input '10' expecting EOF near ''

有看到解释说是,原因是:

sql语句中多了分号。。。

执行脚本时需要在sql后面添加分号,但是调用jdbc执行sql语句时,不可以在语句用分号结束。

 

但依旧没有解决问题。

 

转自:https://www.cnblogs.com/alsf/p/6344197.html

转载于:https://www.cnblogs.com/Allen-rg/p/9268627.html

你可能感兴趣的文章
关于hadoop集群的简单性能测试——mapreduce性能,hive性能,并行计算分析(原创)...
查看>>
Asp.Net 4中使用路由时使用SiteMap
查看>>
linux之软连接 硬链接
查看>>
javascript中数组与字符串之间的转换以及字符串的替换
查看>>
使用pip安装离线包
查看>>
ORACLE 统计查看每一个表的行数
查看>>
【bzoj4281】[ONTAK2015]Związek Harcerstwa Bajtockiego 树上倍增+LCA
查看>>
Otto开发初探——微服务依赖管理新利器
查看>>
移动端开发:架构那点事!
查看>>
flex lineChart 显示所有的数据节点
查看>>
BZOJ1609 [Usaco2008 Feb]Eating Together麻烦的聚餐
查看>>
ffmpeg静态库Windows版本
查看>>
LeetCode Weekly Contest 18B
查看>>
CTS类型系统
查看>>
Cisco 交换机配置的基本命令
查看>>
MVC Filter自定义验证(拦截)
查看>>
高可用数据采集平台(如何玩转3门语言php+.net+aauto)
查看>>
201521123017 《Java程序设计》第2周学习总结
查看>>
Linux curl命令详解
查看>>
charles
查看>>