Linux文本处理三剑客(grep，sed，awk)-白红宇

Linux文本处理三剑客(grep，sed，awk)

阅读量：6770 次

发布时间：2019-06-26

本文共 3291 字，大约阅读时间需要 10 分钟。

grep 文本过滤工具

grep (Global search REgular expression and Print out the line)

文本搜索工具，根据用户指定的“模式”对目标文本逐行进行匹配检查，打印匹配到的行

模式：由正则表达式字符及文本字符所编写的过滤条件

grep [OPTIONS] PATTERN [FILE...]

grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]

--color=auto 高亮显示

-i：忽略大小写

-o：只显示匹配到的行

-w：匹配整个单词（数字字母下划线算单词一部分）

-v：只显示不被模式匹配到的行

-n：显示行号

-c：统计匹配到的行数

-e：多个选项之间是逻辑或or关系

-q：静默模式，不显示任何信息

-A #：After，前#行

-B #：Before，后#行

-C #：Context，前后#行

-E：使用扩展正则表达式Egrep

-F：使用Fgrep

正则表达式REGEXP

由一类特殊字符及文本字符所编写的模式，其中有些字符（元字符）不表示字符字面意义，而表示控制或通配功能

分类：

基本正则表达式：BRE

扩展正则表达式：ERE

元字符分类 man 7 regex

字符匹配次数匹配位置锚定分组

基本正则表达式元字符

字符匹配

.：匹配任意字符

.*：任意字符任意次

[ ]：匹配指定范围内的字符

[^]：匹配指定范围外的字符

[[:digit:]]：数字

[[:lower:]]：小写字母

[[:upper:]]：大写字母

[[:alpha:]]：字符

[[:alnum:]]：字符和数字

[[:space:]]：水平和垂直的空白字符

[[:blank:]]：水平空白字符

[[:punct:]]：标点符号

匹配次数

*：匹配其前面字符任意次，包括0次

贪婪模式：尽可能长的匹配

\+：匹配其前面字符至少1次

\?：匹配其前面字符0或1次

\{m,n\}：匹配其前面字符至少m次至多n次

\{n\}：匹配其前面字符n次

\{n,\}：匹配其前面字符至少n次

\{,n\}：匹配其前面字符至多n次

位置锚定

^：行首锚定，用于模式最左侧

$：行尾锚定，用于模式最右侧

^PATTERN$ 匹配整行

^$空行 ^[[:space:]]*$ 空白行

\<或\b：词首锚定

\>或\b：词尾锚定

\<PATTERN\> 匹配整个单词

分组

\（\）将一个或多个字符捆绑到一起，当作一个整体进行处理 $liu$\+

分组括号中模式匹配到的内容会被正则表达式引擎记录到内部变量中，这些变量的命名方式是\1，\2，\3...

\1表示从左侧起第一个左括号与之右括号之间模式所匹配到的字符

$string1\+\(string2$*\)

\1：string1\+$string2$*

\2：string2

后向引用：引用前面分组括号中模式所匹配到的字符，而非模式本身

或者：\|

a\|b a或b C\|cat C或cat $C\|c$at Cat或cat

egrep及扩展正则表达式

egrep [OPTIONS] PATTERN [FILE...]

扩展正则表达式元字符

字符匹配

.：任意单个字符

[ ]：指定范围内

[^]：指定范围外

次数匹配

*：匹配其前面字符任意次

+：至少1次

?：0或1次

{m}:匹配m次

{m,n}：至少m次，至多n次

位置锚定

^：行首

$：行尾

\<或\b：词首

\>或\b：词尾

分组

( ) 后向引用：\1，\2，\3，...

或者

a|b：a或b c|Cat：c或Cat (C|c)at：Cat或cat

grep正则表达式经典练习题

1、显示/proc/meminfo文件中以大小s开头的行(要求：使用两种方法)

2、显示/etc/passwd文件中不以/bin/bash结尾的行

3、显示用户rpc默认的shell程序

4、找出/etc/passwd中的两位或三位数

5、显示CentOS7的/etc/grub2.cfg文件中，至少以一个空白字符开头的且后面有非空白字符的行

6、找出“netstat -tan”命令结果中以LISTEN后跟任意多个空白字符结尾的行

7、显示CentOS7上所有系统用户的用户名和UID

8、添加用户bash、testbash、basher、sh、nologin(其shell为/sbin/nologin),找出/etc/passwd用户名和shell同名的行

9、利用df和grep，取出磁盘各分区利用率，并从大到小排序

10、取出当前OS主版本号

sed Stream EDitor 行编辑器

工作机制：sed是一种流编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”(pattern space)，接着用sed命令处理缓冲区的内容，处理完成后，把缓冲区的内容送往屏幕。然后读入下行，执行下一个循环。如果没有使用诸如“D”的特殊命令，那会在两个循环之间清空模式空间，但不会清空保留空间。这样不断重复，直到文件末尾。文件内容并没有改变，除非使用重定向存储输出。

功能：实现便捷的查看及修改文件

语法：

sed [OPTION]... 'script' inputfile...

常用选项

-n：不输出模式空间内容到屏幕

-e：多点编辑

-f /path/to/script_file：从指定文件中读取编辑脚本

-r：支持使用扩展正则表达式

-i.bak：备份文件并原处编辑

script '地址命令'

地址定界

(1)不给地址：对全文进行处理