跳至主要内容

awk学习笔记

awk学习笔记

redraiment, 2010-01-05

看完sed部分之后





  花了几个晚上看完后面 awk 部分。awk 不同于 sed,它是一门模式匹配的程序设计语言。学习 sed 和 awk 时,正则表达式可能是一大障碍。但事有凑巧,去年我暑假我一个人出去散心时,顺带看完了《精通正则表达式(第三版)》,另外我还掌握一些 Bash、Perl 等脚步编程的经验,因此很快就能适应 awk 的风格。
  写到此处,我突然联系到《倚天屠龙记》中的张无忌,他经常说“我有九阳神功护体,学什么武功都很快”;那我们程序员也可以牛气地喊“我掌握了正则表达式,UNIX下工具上手都很快”,哈哈。

环境的问题

  比起 sed,使用 awk 时让我有点小意外,哈哈
  、Debian 5.0 默认安装的 awk 是 mawk。我一开始以为是 GNU awk,直到测试“gensub”函数(gawk特有)时才发现不对,于是通过 CD 盘安装了 GNU awk。到目前为止,gawk 的最新版本是 3.1.7,但 Debian 5.0 的软件包中提供的是 v3.1.5。而 fedora 默认安装的是 gawk v3.1.5,另外我在 Windows 下也使用 gawk.exe v3.1.5。
  、在上文《sed单行脚本学习笔记》中已经提到用模式“[ -~]”来匹配任意可打印字符,这个特性在 mawk 中也可使用。理论上在 GNU gawk 中不能使用,但在 Windows 平台下的 gawk 却也具备此特性。为保持脚本的可移植性,应该用“[:print:]”来代替。
  、gawk 支持扩展的正则表达式,在文档中指出操作符“\B”可以匹配单词中字符与字符之间的空白位置。例如模式“/\Bour/”可以匹配“course”,不能匹配“our”。但这一特性在 gawk v3.1.5 中实现有问题。
$ cat data 
ABCDE
ABCD
ABC
AB
A
$ awk --version | head -1
GNU Awk 3.1.5
$ awk '{gsub(/\B/,"-")}1' data 
A-B-C-DE
A-B-CD
A-BC
A-B
A
  如上所示,当单词长度大于二,在 gsub 中“\B”不能匹配最后一个空白位置。这个问题在 gawk v3.1.6 版本被修复。
$ gawk-3.1.6/gawk --version | head -1
GNU Awk 3.1.6
$ gawk-3.1.6/gawk '{gsub(/\B/,"-")}1' data 
A-B-C-D-E
A-B-C-D
A-B-C
A-B
A
  这到底算不算 bug,也只有 gawk 的维护者说了算,哈哈。

awk单行脚本

  较少的设施总能给人带来更多的快乐。awk 作为一门编程语言,它的能力比原作者预期的更多,一些 sed 很费劲要完成的事情它能轻易完成。这造成的结果是,在大多数情况下用 awk 完成任务后,不会像 sed 一样让你兴奋不已,因为杀鸡用了牛刀,显得理所当然。
  另一方面,一门抽象的语言不仅拥有丰富的表达能力,也有更具可读性的语句,使得语句不会过分精练。同样是输出,awk 中是“print”、sed 中只需一个字符“p”。
  综上原因,用 awk 来编写只要 65 个字符的单行脚本显得勉强,下面罗列《AWK单行脚本快速参考》中几段精练的脚本。
# 删除所有空白行 (类似于 "grep '.' ")
awk NF
  这段脚本使用了 awk 的隐含动作:“{print $0}”。awk 中只要当值为 0 或空("")时才为“False”,否则都是“True”,而 NF 只有在空行上才为 0。因此整个语句的意思就是“但当前行的字段数大于0时,显示该行”。
# 删除重复的、非连续的行
awk '! a[$0]++'
  这段脚本同样使用了隐含的打印动作。awk 的数组是一种关联数组,允许用字符串或数值做下标(事实上数值会先根据 CONVFMT 规则来转换成字符串),因此所谓的数组其实更像是键/值映射。通过关联数组来记录每一行的出现次数,且仅在第一次出现时输出。

单行脚本中的错误

# 倒置每行并打印
awk '{for (i=NF; i>0; i--) printf("%s ",i);printf ("\n")}' file
  其中“printf("%s",i)”应该是“printf("%s",$i)”。这是译文中的错误,原文中正确。
# 删除重复连续的行 (模拟 "uniq")
awk 'a !~ $0; {a=$0}'
  运算符“!~”为“不匹配”,运算符右边可以是 awk 中任意表达式,awk 将它作为一个字符串并用来指定一个正则表达式。由此,这段代码不能正确处理以下数据:
$ cat data 
ABCDE
ABCD
ABC
AB
A
$ awk 'a !~ $0; {a=$0}' data 
ABCDE
  需要将匹配改成比较,即“awk 'a != $0; {a=$0}'”。

评论

此博客中的热门博文

AutoHotKey 新手入门教程

AutoHotKey 真是一个好玩的工具!短短几行代码就是先了“窗口置顶”、“窗口透明”等功能,之前我还特意为此装了好几个小工具,现在都可以卸掉了。闲来无事,就把 Quick Start 翻译了一下,我没有逐字逐句地翻译,有时候我嫌原文罗嗦就用自己的话概括地描述了一下。 原文地址:http://www.autohotkey.com/docs/Tutorial.htm 教程目录 创建脚本 启动程序 模拟鼠标键盘 操纵窗口 输入 变量与剪切板 循环 操纵文件 其他特性 创建脚本 每个脚本都是一个纯文本文件,由一些能被 AutoHotKey.exe 执行的命令组成。一个脚本可能还包含 热键 和 热字符串 。如果没有热键和热字符串,脚本在启动的时候就会从头依次执行到尾。 创建一个新的脚本: 下载 并安装 AutoHotkey。 右击鼠标,选择 新建 -> 文本文档 。 输入文件名并确保以 .ahk 结尾。例如:Test.ahk。 右击文件,选择 编辑脚本 。 输入以下内容:#space::Run www.google.com 上一行的第一个字符 "#" 代表键盘上的 Windows 键;所以 #space 表示在按住 Windows 键后再按空格键。"::" 后面的命令会在热键激活后执行,在本例中则会打开谷歌主页。继续按下面步骤操作,来执行这个脚本: 保存并关闭该文件。 双击该文件来启动它。在系统托盘里会出现一个新图标。 按下 Windows 和空格键,网页会在默认的浏览器里打开。 右击系统托盘里的绿色图标可以退出或编辑当前脚本。 注意: 可以同时启动多个脚本,并且在系统托盘里都会有一个相应的图标。 每个脚本都能定义多个 热键 和 热字符串 。 想让某个脚本开机即启动,可以将它的 快捷方式放到开始菜单的启动目录里 。 启动程序 命令 Run 可以运行程序、打开文档、网页链接或快捷键。请参看以下示例: Run Notepad Run C:\My Documents\Address List.doc Run C:\My Documents\My Shortcut.lnk Run www.yahoo.com Run mailto:someone@somedoma

DAO层测试

<dependency> <groupId>com.wix</groupId> <artifactId>wix-embedded-mysql</artifactId> <version>2.1.4</version> <scope>test</scope> </dependency> 利用 wix-embedded-mysql 把MySQL嵌入到进程中,作为内存型的MySQL来做单元测试。 脚本: resources/migrations/mysql/<database>/<timestamp>_<action>.sql 但多个项目需要共享数据库脚本,可能可以用 git submodule 共享。

Shell中同时读多个文件

Shell中同时读多个文件 redraiment, 2009-08-23 一个文件分割成多个文件   有时需要提取文件中的一个或多个列元素生成新的文件,这一操作在 Shell 里很容易实现。比如有一个数据文件 data,有三列信息:姓名、学号、班级。 redraiment 0612800134 0601 christine 0612800136 0601 zb 0612800229 0602   现在需要这个文件的第一列和第二列信息分别存到文件 f1 和 f2 中,可以用 awk 提取,也可以用下面这个简单 shell 程序: #!/bin/sh while read f1 f2 f3 do      echo $f1 >> f1      echo $f2 >> f2 done 多个文件合并成一个文件   如果想把多个文件重新合并成一个多列文件,而不是追加到文件尾处。例如把上列中生成的 f1 和 f2 重新组成 join.txt 。这时需要同时操作多个文件,就像 C 语言中用 fopen 同时打开多个文件,在 shell 里也是类似的。只是在 shell 里叫做“文件描述符”,用“0-9”十个数字表示。其中 0、1、2 分别是系统的标准输入、输出、错误。“3-9”则由用户只有使用。我们就可以任选两个来重定向输入。脚本如下: #!/bin/sh exec 3< f1 exec 4< f2 while read f1 < & 3 && read f2 < & 4 do      echo $f1 $f2 >> join.txt done