groupby求总数(groupbycount总数)

http://www.itjxue.com  2023-01-29 11:53  来源:未知  点击次数: 

python 用groupby之后生成新的数据框

最近在做一点点风控的东西,想把toad中的ks_bucket改修正下,原码里面是按得分的最大最小值划分的bucket,但我在实际的应用中想更个性化的划分节点去统计。

首先需要解决的一个问题是把0~1上的概率给划分到不同的区间,然后分别统计即可。

之前一直用groupby,分组后想count, sum,后变成df。在网上找了好几种方法,都没有成功,最后还是英文文档解决了我的问题。

这是划分好后的各列情况 , 第一列:概率,第二列:所属的区间, 第三列: 实际的label

我主要是 想把这三列 , 按第二列分组,统计各区间的总数,和label为1的数

用NamedAgg 即可把原来的分组变为数据框。

SQL如何计算有几组?(GROUP?BY?问题)

“Group

By”从字面意义上理解就是根据“By”指定的规则对数据进行分组,所谓的分组就是将一个“数据集”划分成若干个“小区域”,然后针对若干个“小区域”进行数据处理。

1、原始表

2、简单Group

By

示例1

select

类别,

sum(数量)

as

数量之和

from

A

group

by

类别

返回结果如下表,实际上就是分类汇总。

3、Group

By

Order

By

示例2

select

类别,

sum(数量)

AS

数量之和

from

A

group

by

类别

order

by

sum(数量)

desc

返回结果如下表

在Access中不可以使用“order

by

数量之和

desc”,但在SQL

Server中则可以。

4、Group

By中Select指定的字段限制

示例3

select

类别,

sum(数量)

as

数量之和,

摘要

from

A

group

by

类别

order

by

类别

desc

示例3执行后会提示下错误,如下图。这就是需要注意的一点,在select指定的字段要么就要包含在Group

By语句的后面,作为分组的依据;要么就要被包含在聚合函数中。

5、Group

By

All

示例4

select

类别,

摘要,

sum(数量)

as

数量之和

from

A

group

by

all

类别,

摘要

示例4中则可以指定“摘要”字段,其原因在于“多列分组”中包含了“摘要字段”,其执行结果如下表

“多列分组”实际上就是就是按照多列(类别+摘要)合并后的值进行分组,示例4中可以看到“a,

a2001,

13”为“a,

a2001,

11”和“a,

a2001,

2”两条记录的合并。

SQL

Server中虽然支持“group

by

all”,但Microsoft

SQL

Server

的未来版本中将删除

GROUP

BY

ALL,避免在新的开发工作中使用

GROUP

BY

ALL。Access中是不支持“Group

By

All”的,但Access中同样支持多列分组,上述SQL

Server中的SQL在Access可以写成

select

类别,

摘要,

sum(数量)

AS

数量之和

from

A

group

by

类别,

摘要

6、Group

By与聚合函数

在示例3中提到group

by语句中select指定的字段必须是“分组依据字段”,其他字段若想出现在select中则必须包含在聚合函数中。

示例5:求各组平均值

select

类别,

avg(数量)

AS

平均值

from

A

group

by

类别;

示例6:求各组记录数目

select

类别,

count(*)

AS

记录数

from

A

group

by

类别;

示例7:求各组记录数目

8、Having与Where的区别

?where

子句的作用是在对查询结果进行分组前,将不符合where条件的行去掉,即在分组之前过滤数据,where条件中不能包含聚组函数,使用where条件过滤出特定的行。

?having

子句的作用是筛选满足条件的组,即在分组之后过滤数据,条件中经常包含聚组函数,使用having

条件过滤出特定的组,也可以使用多个分组标准进行分组。

示例8

select

类别,

sum(数量)

as

数量之和

from

A

group

by

类别

having

sum(数量)

18

示例9:Having和Where的联合使用方法

select

类别,

SUM(数量)from

A

where

数量

gt;8

group

by

类别

having

SUM(数量)

gt;

10

9、Compute

Compute

By

select

*

from

A

where

数量

8

执行结果:

示例10:Compute

select

*from

A

where

数量8

ompute

max(数量),min(数量),avg(数量)

执行结果如下:

compute子句能够观察“查询结果”的数据细节或统计各列数据(如例10中max、min和avg),返回结果由select列表和compute统计结果组成。

示例11:Compute

By

select

*from

A

where

数量8

order

by

类别

compute

max(数量),min(数量),avg(数量)

by

类别

执行结果如下:

示例11与示例10相比多了“order

by

类别”和“...

by

类别”,示例10的执行结果实际是按照分组(a、b、c)进行了显示,每组都是由改组数据列表和改组数统计结果组成,另外:

?compute子句必须与order

by子句用一起使用

?compute...by与group

by相比,group

by

只能得到各组数据的统计结果,而不能看到各组数据

在实际开发中compute与compute

by的作用并不是很大,SQL

Server支持compute和compute

by,而Access并不支持

mysql 分组之后如何统计记录条数, gourp by 之后的 count

需要准备的工具:电脑,sql数据库。

1、首先新建一个test表,有id,name,second三个字段,其中name字段有重复数据。

2、输入“select name,max(second) from test group by name”语句,点击运行。

3、可以看到已经查询出按name分组后取出的second最大的一条记录。

4、以输入“select name,max(second) from test group by name order by max(second) desc”语句,按分组后second最大值进行降序。

5、如果想查询mysql分组后最小的一条记录,输入“select name,min(second) from test group by name”语句,点击运行即可。

(责任编辑:IT教学网)

更多

相关服务器空间文章

推荐服务器空间文章