hive中开窗函数row_number的使用

row_number()函数介绍

row_number()开窗函数的一种,和over()函数结合一起使用,可以实现对数据的分组和排序。

使用示例

现在有一张表,数据如下

+------+----------+-------+
| Year |  Region  | Sales |
+------+----------+-------+
| 2022 | East     | 100   |
| 2022 | West     | 150   |
| 2022 | East     | 200   |
| 2023 | West     | 120   |
| 2023 | West     | 180   |
| 2023 | East     | 250   |
+------+----------+-------+

现在,我们想为每个年份和地区计算销售额的行号,并按照销售额降序排列。我们可以使用ROW_NUMBER() OVER(PARTITION BY field1, field2 ORDER BY field3, field4)子句来实现:

SELECT Year, Region, Sales,
       ROW_NUMBER() OVER (PARTITION BY Year, Region ORDER BY Sales DESC) AS row_number
FROM sales;

查询结果为

+------+----------+-------+------------+
| Year |  Region  | Sales | row_number |
+------+----------+-------+------------+
| 2022 | East     | 200   | 1          |
| 2022 | East     | 100   | 2          |
| 2022 | West     | 150   | 1          |
| 2023 | East     | 250   | 1          |
| 2023 | West     | 180   | 1          |
| 2023 | West     | 120   | 2          |
+------+----------+-------+------------+

在查询结果中,row_number列包含了每个年份和地区组合中销售额的行号。注意,PARTITION BY子句将结果分为不同的分区,每个分区内的行号是独立计算的。ORDER BY子句指定了按销售额降序排列的顺序。

通过使用PARTITION BY和ORDER BY子句,我们可以在Hive中对查询结果进行分区和排序,并为每个分区生成唯一的行号。这对于进行分组排名和分区分析等任务非常有用。

如果over中没有partition by和order by,会发生什么?

SELECT Year, Region, Sales,
       ROW_NUMBER() OVER () AS row_number
FROM sales;

查询结果为

+------+----------+-------+------------+
| Year |  Region  | Sales | row_number |
+------+----------+-------+------------+
| 2022 | East     | 200   | 1          |
| 2022 | East     | 100   | 2          |
| 2022 | West     | 150   | 3          |
| 2023 | East     | 250   | 4          |
| 2023 | West     | 180   | 5          |
| 2023 | West     | 120   | 6          |
+------+----------+-------+------------+

会为每一行数据生成一个唯一的行号,可以把这当成id,可以用作后续对数据进行id识别。

注意事项

当row_number中order by的排序的字段,存储的是时间,比如’2024-05-05 13:20:46’,但是类型却是字符串时,要防止下面这两种数据

-- 当前字段为sn, date_time
'sn1', '2024-1-3 00:00:00'
'sn1', '2024-1-21 00:00:00'

上面这两个数据在下面的排序中,会出现错误
select sn, date_time, row_number() over (partition by sn order by date_time asc) as row_number;

'sn1', '2024-1-21 00:00:00', 1
'sn1', '2024-1-3 00:00:00', 2

本来’2024-1-3 00:00:00’的row_number应该为1,因为1月3号应该在1月21号前面,但是因为这种格式的字符串,导致了1月3号一行的row_number值变成了2。

应该怎么解决这种问题呢?有两种方法

  • 将日期时间字符串,使用函数,统一转换成’yyyy-MM-dd HH:mm:ss’,可以参考下面的文章
    hive将时间字符串转换为timestamp的几种写法
  • 将所有日期时间字符串统一转换成bigint类型,再进行比较,可以参考下面的文章
    hive将时间字符串转换为timestamp的几种写法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/594242.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ASP.NET网上书店

摘要 本设计尝试用ASP.NET在网络上架构一个电子书城,以使每一位顾客不用出门在家里就能够通过上网来轻松购书。本文从理论和实践两个角度出发,对一个具有数据挖掘功能电子书城进行设计与实现分析。论文首先较为详尽地介绍了面向对象分析与设计的有关概念…

基于Springboot的房屋租赁管理系统(有报告)。Javaee项目,springboot项目。

演示视频: 基于Springboot的房屋租赁管理系统(有报告)。Javaee项目,springboot项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构…

图中有几个三角形

让我们先把三角形进行分类:1块组成的三角形、2块组成的三角形、依此类推。 1块组成的三角形有4个: 2块组成的三角形有:12,13,14,23,24,34.其中,14,23构不成三角形. 3块组成的三角形有:123,124,134,234。但…

贪心算法(活动选择、分数背包问题)

一、贪心算法 贪心算法是指:在对问题求解时,总是做出在当前看来是最好的选择,而不从整体最优考虑,做出的仅是在某种意义上的局部最优解。 …

流畅的Python阅读笔记

五一快乐的时光总是飞快了,不知多久没有拿起键盘写文章了,最近公司有Python的需求,想着复习下Python吧,然后就买了本Python的书籍 书名: 《流畅的Python》 下面是整理的一个阅读笔记,大家自行查阅&#xf…

Python 全栈系列241 GFGo Lite迭代

说明 随着整个算网开发逐渐深入,各个组件、微服务的数量、深度在不断增加。由于算网是个人项目,我一直按照MVP(Minimum Viable Product )的原则在推进。由于最初的时候对架构、算法和业务的理解并没有那么深刻,所以MVP的内容还是在不断变化&…

选择深度学习框架:TensorFlow 2 vs PyTorch

TensorFlow 2 vs PyTorch 选择深度学习框架:TensorFlow 2 vs PyTorchTensorFlow 2概述TensorFlow 2的优点TensorFlow 2的缺点 PyTorch概述PyTorch的优点PyTorch的缺点 选择建议对于选择困难症的人,我给你们的答案——PyTorch选择理由:结论&am…

数据结构(C):玩转链表

🍺0.前言 言C之言,聊C之识,以C会友,共向远方。各位博友的各位你们好啊,这里是持续分享数据结构知识的小赵同学,今天要分享的数据结构知识是链表,在这一章,小赵将会向大家展开聊聊链表…

常用语音识别开源四大工具:Kaldi,PaddleSpeech,WeNet,EspNet

无论是基于成本效益还是社区支持,我都坚决认为开源才是推动一切应用的动力源泉。下面推荐语音识别开源工具:Kaldi,Paddle,WeNet,EspNet。 1、最成熟的Kaldi 一个广受欢迎的开源语音识别工具,由Daniel Pove…

Servlet框架

简介 Servlet是运行在web服务器或应用服务器上的程序,他是作为来自web浏览器或其他http客户端的请求和HTTP服务器上的数据库或应用程序之间的中间层。 使用Servlet可以手机来自网页表单的用户输入,呈现来自数据库或者其他源记录,还可以动态创…

IDEA访问不到静态资源

背景 我在resources下创建static文件夹,再创建front文件夹放前端资源,里面有index.html,游览器输入localhost:8011/front没反应。(resources/static/front/index.html) 解决办法 重启idea,清楚idea缓存&am…

设计模式之服务定位器模式

想象一下,你的Java应用是一座庞大的迷宫,里面藏着无数宝贵的服务宝藏,而你正需要一张精确的藏宝图来指引方向,迅速找到并利用这些宝藏。服务定位器模式,正是这样一张神奇的地图,它帮你动态定位并获取应用中…

stl容器 string类的基本操作

目录 一.string类的构造 二.string类的输出 1.传统字符串输出 2.通过迭代器进行输出 ​编辑 3.C11标准的范围for输出加auto推导类型 三.string类的各种迭代器 begin()和end() 利用迭代器遍历输出 利用迭代器修改字符串的字符 rbgin()和rend() 利用迭代器遍…

[论文阅读]Adversarial Autoencoders(aae)和代码

In this paper, we propose the “adversarial autoencoder” (AAE), which is a probabilistic autoencoder that uses the recently proposed generative adversarial networks (GAN) to perform variational inference by matching the aggregated posterior of the hidden …

【人工智能基础】RNN实验

一、RNN特性 权重共享 wordi weight bais 持久记忆单元 wordi weightword baisword hi weighth baish 二、公式化表达 ht</sub f(ht - 1, xt) ht tanh(Whhht - 1 Wxhxt) yt Whyht 三、RNN网络正弦波波形预测 环境准备 import numpy as np import torch …

服务器端优化-Redis内存划分和内存配置

6、服务器端优化-Redis内存划分和内存配置 当Redis内存不足时&#xff0c;可能导致Key频繁被删除、响应时间变长、QPS不稳定等问题。当内存使用率达到90%以上时就需要我们警惕&#xff0c;并快速定位到内存占用的原因。 有关碎片问题分析 Redis底层分配并不是这个key有多大&…

PG 全页写

1.什么是全页写 修改一个块的时候&#xff0c;把块读到内存中&#xff0c;commit后,WAL写进程会触发写&#xff0c;把修改的块写到WAL日志文件&#xff0c;如果再往这个块中插入一条数据&#xff0c;数据缓冲区里面的块有两条数据了&#xff0c;再次commit后&#xff0c;PG会把…

图像处理--空域滤波增强(原理)

一、均值滤波 线性滤波算法&#xff0c;采用的主要是邻域平均法。基本思想是使用几个像素灰度的某种平均值来代替一个原来像素的灰度值。可以新建一个MN的窗口以为中心&#xff0c;这个窗口S就是的邻域。假设新的新的像素灰度值为&#xff0c;则计算公式为 1.1 简单平均法 就是…

在excel中,alt+13和alt+10都是什么字符?

1.回车符与换行符 Alt13是回车符&#xff0c;Alt10是换行符。 2.用在microsoft word中 在microsoft office中&#xff0c;回车符 和 换行符 对文本来讲都有换行的作用&#xff0c;但它们并不是同一种符号。下图是在word中两种字符的显示&#xff0c; 当使用 回车符 进行文本…

Ubuntu MATE系统下WPS显示错位

系统&#xff1a;Ubuntu MATE 22.04和24.04&#xff0c;在显示器设置200%放大的情况下&#xff0c;显示错位。 显示器配置&#xff1a; WPS显示错位&#xff1a; 这个问题当前没有找到好的解决方式。 因为4K显示屏设置4K分辨率&#xff0c;图标&#xff0c;字体太小&#xff…
最新文章