row_number(row_number over partition by)
sql里的ROW_NUMBER() OVER是啥意思?
ROW_NUMBER()? ?OVER是oracle数据库的分析函数,会在数据表生成一个排序列。
语法:ROW_NUMBER ( )? OVER( [ PARTITION BY value_expression , ... [ n ] ]order_by_clause )
参数:PARTITION BY?value_expression 将 FROM 子句生成的结果集划入应用了 ROW_NUMBER 函数的分区。?value_expression 指定对结果集进行分区所依据的列。如果未指定 PARTITION BY,则此函数将查询结果集的 所有行视为单个组。
order_by_clause ORDER BY 子句可确定在特定分区中为行分配唯一 ROW_NUMBER 的顺序。
扩展资料
分析函数与聚合函数计算方式一样,分析函数也是对行集组进行聚合计算,但是它不像普通聚合仗函数那样每组只返回一个值,分析函数可以为每组返回多个值。
分析函数的语法为:over(partition by排 列名1 order by 列名2 ),括号中的两个关键词partition by 和order by 可以只出现一个。over() 前面是一个函数,如果是聚合函数,那么order by 不能一起使用。
ROW_NUMBER、DENSE_RANK、RANK属于排名函数。
排名分析函数可以单独使用ORDER BY 语句,也可以和PARTITION BY同时使用。
PARTITION BY用于将结果集进行分组。
ORDER BY 指定排名分析函数的顺序,在排名分析函数中必须使用ORDER BY语句。
ROW_NUMBER 为每一组的行按顺序生成一个连续序号。
RANK()也为每一组的行生成一个序号,与ROW_NUMBER()不同的是如果按照ORDER BY的排序,如果有相同的值会生成相同的序号,并且接下来的序号是不连序的。例如两个相同的行生成序号3,那么接下来会生成序号5。
参考资料来源:百度百科-分析函数
Oracle分析函数之排序 row_number() & rank()
对于排序分析,应用的业务分析场景很多,例如所有销售大区的TOP5、按具体规则对数据集进行重新排序编号等,这些业务场景采用分析函数中排序函数,将很方便简单。
当前常用的排序类分析函数包括:row_number()、rank()、dense_rank(),这三个函数都可应用在排序场景中,但 又有些许不同。
特点:对分组后的排序结果进行递增编号,出现同值的也是递增处理。
rank()特点:按分组后的排序结果进行递增编号,如出现相同值则序号一致,但相邻出现的不同值序号将从rown+N开始(rown为前一个值的序号,N为前一个值相同的个数)。
dense_rank()特点:和rank()相似,按分组后的排序结果进行递增编号,如出现相同值则序号一致,但相邻出现的不同值序号将从rown+1开始。
1.row_number()应用于 不区分同值排序 的业务场景;
2.rank()dense_rank()应用于 区分同值排序 的业务场景,至于用rank和dense_rank,则要看对同值排序后对序号递增方式的具体要求来定。
有了上述三个函数,对于日常公司分析大区销售排名、销售代表排名、部门费用项排名等等,将会非常的方便快捷。
Hive中row_number的使用
语法:
row_number() over (partition by 字段a order by 计算项b desc ) rank
要取top10品牌,各品牌的top10渠道,各品牌的top10渠道中各渠道的top10档期
1、取top10品牌
2、取top10品牌下各品牌的top10渠道
3、 取top10品牌下各品牌的top10渠道中各渠道的top10档期
row_number 的使用在hive和spark的实时计算中常常会用到计算分区中的排序问题,所以使用好row_number是很重要的。