awk统计文件文本出现的次数,awk统计文件列数

http://www.itjxue.com  2023-01-08 12:23  来源:未知  点击次数: 

关于AWK的一个问题!如何对文件分组进行统计?!见补充问题

用shell脚本。

#!/bin/bash

myfile="1.txt"

touch tmp

while read line

do

info=`echo "$line"|awk '{print $2}'`

grep "$info" tmp /dev/null 21

if [ $? -eq 0 ]; then

num=`awk '{print $NF}' tmp`

num=`expr $num + 1`

sed -i "s/^\($info\t\)[0-9]*$/\1$num/" tmp

else

echo "$line"|awk '{print $2"\t"1}' tmp

fi

done $myfile

exit 0

只需从头到尾遍历文件一次。与下面链接里的问题类似。

——————————————————————————————————

楼上shuguangbo的方法非常简洁,学习了!

awk怎么统计ID重复次数

#! /bin/bash #统计1分钟前log所在行 start=`wc -l log` start=${start%% *} sleep 60 #统计1分钟后log所在行 end=`wc -l log` end=${end%% *} #输出开始行到结束行直接的work统计 awk ' NR"'$start'" NR

Linux awk 命令详解(二) if 分支 数组

一、awk if分支结构

二、awk数组 for循环

一、awk if分支结构

案例1

awk过滤中的if分支结构

1)单分支

统计/etc/passwd文件中UID小于或等于1000的用户个数:

统计/etc/passwd文件中UID大于1000的用户个数:

统计/etc/passwd文件中登录Shell是“/bin/bash”的用户个数:

2)双分支

分别统计/etc/passwd文件中UID小于或等于1000、UID大于1000的用户个数:

分别统计/etc/passwd文件中登录Shell是“/bin/bash”、 登录Shell不是“/bin/bash”的用户个数:

二、awk数组

注意,awk数组的下标除了可以使用数字,也可以使用字符串,字符串需要使用双引号:

案例3:awk扩展应用

1)awk统计Web访问排名

在分析Web日志文件时,每条访问记录的第一列就是客户机的IP地址,其中会有很多重复的IP地址。因此只用awk提取出这一列是不够的,还需要统计重复记录的数量并且进行排序。

通过awk提取信息时,利用IP地址作为数组下标,每遇到一个重复值就将此数组元素递增1,最终就获得了这个IP地址出现的次数。

针对文本排序输出可以采用sort命令,相关的常见选项为-r、-n、-k。其中-n表示按数字顺序升序排列,而-r表示反序,-k可以指定按第几个字段来排序

实现此案例需要按照如下步骤进行。

步骤一:统计Web访问量排名

分步测试、验证效果如下所述。

1)提取IP地址及访问量

2)对第1)步的结果根据访问量排名

案例4:编写监控脚本

本案例要求编写脚本,实现计算机各个性能数据监控的功能,具体监控项目要求如下:

CPU负载

网卡流量

内存剩余容量

磁盘剩余容量

计算机账户数量

当前登录账户数量

计算机当前开启的进程数量

本机已安装的软件包数量

步骤

实现此案例需要按照如下步骤进行。

步骤一:准备工作

1)查看性能数据的命令

步骤二:编写参考脚本

1)脚本内容如下:

linux shell脚本中如何统计某一行中某字符出现的个数

1、统计某个字符的个数,以a为例

grep -o a urifle

awk -F "" '{for(i=1;i=NF;++i) if($i=="a") ++sum}END{print sum}' urfile

#-F ""中间必须要有空格 "a"必须使用双引号,字符串

awk -F "" '{for(i=1;i=NF;i++)a[$i]++}END{for(j in a) if(j=="c") print a[j]}' urfile

#

2、储存在变量里

echo "0001111" |tr -cd 1 |wc -c

如果有时间可以看看《Linux就该这么学》,里面有各种Linux相关知识

linux 统计某个单词出现多少次

使用这个命令查出文本中的单词出现频率按照由高到底排序

cat words.txt |tr -cs "[a-z][A-Z]" "[\012*]"|tr A-Z a-z|sort|uniq -c|sort -k1nr -k2|head -10

但是有时我们想查找出某一个单词的出现频率这时我们可以使用如下几个命令

文件名称:file ?查找单词名称:word

操作命令:

(1)more file | grep -o word | wc -l

(2)cat file | grep -o word | wc -l

(3) grep -o test word | wc -l

如果这些还是不能满足需求,那只能写linux脚本进行实现了。可以使用awk哦

1.命令格式:

wc [选项]文件...

2.命令功能:

统计指定文件中的字节数、字数、行数,并将统计结果显示输出。该命令统计指定文件中的字节数、字数、行数。如果没有给出文件名,则从标准输入读取。wc同时也给出所指定文件的总统计数。

3.命令参数:

-c 统计字节数。

-l 统计行数。

-m 统计字符数。这个标志不能与 -c 标志一起使用。

-w 统计字数。一个字被定义为由空白、跳格或换行字符分隔的字符串。

-L 打印最长行的长度。

--help 显示帮助信息

--version 显示版本信息

4.值得注意的是,-c,c应该是count的缩写,统计的是文件的字节数,而不是通常我们想要的“字数”,字数的统计应该用-w,所以上面提到那个问题,可以怎么做呢?wc并没有提供给我们统计特定一个单词的选项,只能查找呗~所以结合grep就可以这样简单写:

grep cout hello.cpp | wc -l

5.上面命令通过管道串联起来,意思是,查找hello.cpp里所有出现过cout的行,统计行数。

但是,问题来了,如果不只想统计行数,而是想精确到个数(一行里可能会出现多次),应该怎么办呢?

这就是grep的作用了2,-o选项(only的意思)表示只选中那些匹配的地方,比如a cout yes, and b cout no.,匹配cout,结果是两行,每行一个cout。所以要想统计出现次数的话,简单加一个选项就好了:

(责任编辑:IT教学网)

更多