网站建设资讯

NEWS

网站建设资讯

linux中文本处理命令 linux 文本编辑命令

linux常用的命令有哪些

Linux运维人员必会的120个命令

成都创新互联专注于企业成都全网营销、网站重做改版、岷县网站定制设计、自适应品牌网站建设、成都h5网站建设商城网站开发、集团公司官网建设、外贸网站制作、高端网站制作、响应式网页设计等建站业务,价格优惠性价比高,为岷县等各大城市提供网站开发制作服务。

来自《跟老男孩学Linux运维:核心系统命令实战》一书

前言

第1章 Linux命令行简介 / 1

1.1Linux命令行概述 / 1

1.2在Linux命令行下查看命令帮助 / 4

1.3Linux shutdown reboot halt / 9

关机:

shutdown -h now

halt

init 0

第2章 文件和目录操作命令 / 13

2.1pwd:显示当前所在的位置 / 13

2.2cd:切换目录 / 16

2.3tree:以树形结构显示目录下的内容 / 18

2.4mkdir:创建目录 / 22

2.5touch:创建空文件或改变文件的时间戳属性 / 27

2.6ls:显示目录下的内容及相关属性信息 / 30

2.7cp:复制文件或目录 / 39

2.8mv:移动或重命名文件 / 42

2.9rm:删除文件或目录 / 45

2.10rmdir:删除空目录 / 48

2.11ln:硬链接与软链接 / 49

2.12readlink:查看符号链接文件的内容 / 54

2.13find:查找目录下的文件 / 55

2.14xargs:将标准输入转换成命令行参数 / 68

2.15rename:重命名文件 / 71

2.16basename:显示文件名或目录名 / 72

2.17dirname:显示文件或目录路径 / 72

2.18chattr:改变文件的扩展属性 / 73

2.19lsattr:查看文件扩展属性 / 75

2.20file:显示文件的类型 / 76

2.21md5sum:计算和校验文件的MD5值 / 77

2.22chown:改变文件或目录的用户和用户组 / 80

2.23chmod:改变文件或目录权限 / 81

2.24chgrp:更改文件用户组 / 85

2.25umask:显示或设置权限掩码 / 86

2.26老男孩从新手成为技术大牛的心法 / 90

第3章 文件过滤及内容编辑处理命令 / 91

3.1cat:合并文件或查看文件内容 / 91

3.2tac:反向显示文件内容 / 103

3.3more:分页显示文件内容 / 104

3.4less:分页显示文件内容 / 107

3.5head:显示文件内容头部 / 109

3.6tail:显示文件内容尾部 / 111

3.7tailf:跟踪日志文件 / 114

3.8cut:从文本中提取一段文字并输出 / 115

3.9split:分割文件 / 117

3.10paste:合并文件 / 118

3.11sort:文本排序 / 123

3.12join:按两个文件的相同字段合并 / 127

3.13uniq:去除重复行 / 129

3.14wc:统计文件的行数、单词数或字节数 / 131

3.15iconv:转换文件的编码格式 / 133

3.16dos2unix:将DOS格式文件转换成UNIX格式 / 134

3.17diff:比较两个文件的不同 / 135

3.18vimdiff:可视化比较工具 / 138

3.19rev:反向输出文件内容 / 139

3.20tr:替换或删除字符 / 140

3.21od:按不同进制显示文件 / 143

3.22tee:多重定向 / 145

3.23vi/vim:纯文本编辑器 / 147

3.24老男孩逆袭思想:做Linux运维的多个好处 / 152

第4章 文本处理三剑客 / 153

4.1grep:文本过滤工具 / 153

4.2sed:字符流编辑器 / 159

4.3awk基础入门 / 165

第5章 Linux信息显示与搜索文件命令 / 176

5.1uname:显示系统信息 / 176

5.2hostname:显示或设置系统的主机名 / 178

5.3dmesg:系统启动异常诊断 / 179

5.4stat:显示文件或文件系统状态 / 181

5.5du:统计磁盘空间使用情况 / 183

5.6date:显示与设置系统时间 / 186

5.7echo:显示一行文本 / 190

5.8watch:监视命令执行情况 / 193

5.9which:显示命令的全路径 / 195

5.10whereis:显示命令及其相关文件全路径 / 196

5.11locate:快速定位文件路径 / 197

5.12updatedb:更新mlocate数据库 / 199

5.13老男孩逆袭思想:新手在工作中如何问问题不会被鄙视 / 200

第6章 文件备份与压缩命令 / 201

6.1tar:打包备份 / 201

6.2gzip:压缩或解压文件 / 208

6.3zip:打包和压缩文件 / 211

6.4unzip:解压zip文件 / 212

6.5scp:远程文件复制 / 214

6.6rsync:文件同步工具 / 216

6.7老男孩逆袭思想:新手如何高效地提问 / 220

第7章 Linux用户管理及用户信息查询命令 / 222

7.1 useradd:创建用户 / 222

7.2usermod:修改用户信息 / 227

7.3userdel:删除用户 / 229

7.4groupadd:创建新的用户组 / 230

7.5groupdel:删除用户组 / 231

7.6passwd:修改用户密码 / 232

7.7chage:修改用户密码有效期 / 237

7.8chpasswd:批量更新用户密码 / 238

7.9su:切换用户 / 240

7.10visudo:编辑sudoers文件 / 242

7.11sudo:以另一个用户身份执行命令 / 244

7.12id:显示用户与用户组的信息 / 248

7.13w:显示已登录用户信息 / 249

7.14who:显示已登录用户信息 / 250

7.15users:显示已登录用户 / 252

7.16whoami:显示当前登录的用户名 / 253

7.17last:显示用户登录列表 / 253

7.18lastb:显示用户登录失败的记录 / 254

7.19lastlog:显示所有用户的最近登录记录 / 255

第8章 Linux磁盘与文件系统管理命令 / 257

8.1fdisk:磁盘分区工具 / 257

8.2partprobe:更新内核的硬盘分区表信息 / 265

8.3tune2fs:调整ext2/ext3/ext4文件系统参数 / 266

8.4parted:磁盘分区工具 / 268

8.5mkfs:创建Linux文件系统 / 272

8.6dumpe2fs:导出ext2/ext3/ext4文件系统信息 / 274

8.7resize2fs:调整ext2/ext3/ext4文件系统大小 / 275

8.8fsck:检查并修复Linux文件系统 / 278

8.9dd:转换或复制文件 / 281

8.10mount:挂载文件系统 / 284

8.11umount:卸载文件系统 / 288

8.12df:报告文件系统磁盘空间的使用情况 / 289

8.13mkswap:创建交换分区 / 293

8.14swapon:激活交换分区 / 294

8.15swapoff:关闭交换分区 / 295

8.16sync:刷新文件系统缓冲区 / 296

第9章 Linux进程管理命令 / 298

9.1ps:查看进程 / 298

9.2pstree:显示进程状态树 / 305

9.3pgrep:查找匹配条件的进程 / 306

9.4kill:终止进程 / 307

9.5killall:通过进程名终止进程 / 310

9.6pkill:通过进程名终止进程 / 311

9.7top:实时显示系统中各个进程的资源占用状况 / 313

9.8nice:调整程序运行时的优先级 / 320

9.9renice:调整运行中的进程的优先级 / 323

9.10nohup:用户退出系统进程继续工作 / 324

9.11strace:跟踪进程的系统调用 / 325

9.12ltrace:跟踪进程调用库函数 / 332

9.13runlevel:输出当前运行级别 / 334

9.14init:初始化Linux进程 / 335

9.15service:管理系统服务 / 335

第10章 Linux网络管理命令 / 338

10.1ifconfig:配置或显示网络接口信息 / 338

10.2ifup:激活网络接口 / 343

ifup eth0

10.3ifdown:禁用网络接口 / 343

ifdown eth0

service network restart(/etc/init.d/network restart) 激活整个网络,所有网卡。

10.4route:显示或管理路由表 / 344

10.5arp:管理系统的arp缓存 / 350

10.6ip:网络配置工具 / 351

10.7netstat:查看网络状态 / 358

10.8ss:查看网络状态 / 362

10.9ping:测试主机之间网络的连通性 / 363

10.10traceroute:追踪数据传输路由状况 / 366

10.11arping:发送arp请求 / 367

10.12telnet:远程登录主机 / 369

10.13nc:多功能网络工具 / 370

10.14ssh:安全地远程登录主机 / 373

10.15wget:命令行下载工具 / 376

10.16mailq:显示邮件传输队列 / 379

10.17mail:发送和接收邮件 / 381

10.18nslookup:域名查询工具 / 386

10.19dig:域名查询工具 / 389

10.20host:域名查询工具 / 393

10.21nmap:网络探测工具和安全/端口扫描器 / 394

10.22tcpdump:监听网络流量 / 398

第11章 Linux系统管理命令 / 407

11.1lsof:查看进程打开的文件 / 407

11.2uptime:显示系统的运行时间及负载 / 411

11.3free:查看系统内存信息 / 411

11.4iftop:动态显示网络接口流量信息 / 413

11.5vmstat:虚拟内存统计 / 415

11.6mpstat:CPU信息统计 / 419

11.7iostat:I/O信息统计 / 420

11.8iotop:动态显示磁盘I/O统计信息 / 423

11.9sar:收集系统信息 / 425

11.10chkconfig:管理开机服务 / 430

11.11ntsysv:管理开机服务 / 433

11.12 setup:系统管理工具 / 434

11.13ethtool:查询网卡参数 / 436

11.14mii-tool:管理网络接口的状态 / 437

11.19rpm:RPM包管理器 / 443

11.20yum:自动化RPM包管理工具 / 446

top命令

第12章 Linux系统常用内置命令 / 450

12.1Linux内置命令概述 / 450

12.2Linux内置命令简介 / 450

12.3Linux常用内置命令实例 / 452

linux:文本处理系列-1.行截取

(自己)常用的文本文件的行处理命令

示例文件:test.vcf

1、head -n 10 test.vcf

head : 默认是提取文件的前10行,-n 参数可以设定选择文件的前n行

2、tial -n 10 test.vcf

tail : 默认是提取文件的末尾10行, -n 参数可以设定选择文件末尾的n行

3、sed -n '10,20p' test.vcf

sed -n : 随意选择需要查看的行

sed命令是一个面向行处理的编辑器,可以和正则表达式配合使用,附上较全面的sed命令使用教程。

4、awk 截取行的指定长度字符串

less test.gz |awk '{if(NR%2==1){print}else{print substr($1,1,75)}}' | gzip -c test.part.gz

说明:对test.gz文件指定行截取75bp,原来是150bp

5、对n行的第三列求和,求平均值

grep -v ‘#’ test.vcf |sed -n '20,35p' |awk -F '\t' '{sum+=$3;n++}END{print sum,sum/n}'

(linux 一行命令计算速度比Python快,简单计算喜欢用linux命令)

记得随时整理使用过的命令,没学过linux,靠着各种帖子,随时需要随时补给,有点懒。

linux之文本内容替换命令sed

sed简介:流编辑工具,用来对文本进行过滤与替换操作。

sed流程:sed通过一次仅读取一行内容来对某些指令进行处理后输出。

1、sed通过文件或管道读取文件内容,但sed默认并不直接修改源文件,而是将读入的内容复制到缓冲区中,称之为模式空间。

2、所有的指令操作都是在模式空间找那个进行

3、sed根据相应的指令对模式空间中的内容进行处理并输出结果,默认输出至标准输出(即屏幕上)。

sed基本语法格式:

用法:sed[选项]...{脚本指令}[输入文件]...

选项: -version 显示sed版本

-help :显示帮助文档

-n,-quiet,-silent静默输出,默认情况下,sed程序在所有的脚本指令执行完毕后,将自动打印模式空间中的内容。

-e script允许多个脚本指令被执行

-f script-file从文件中读取脚本指令,对编写自动化脚本程序很实用

-i ,-in-place 该选项直接修改源文件

-l N 该选项指定l指令可以输出的行长度,l指令为输出非打印字符。

-posix 禁用GNU sed扩展功能。

-r 在脚本指令中使用扩展正则表达式。

-s,-separate 默认情况下,sed将把输入的多个文件名作为一个长的连续的输入流。而GNU sed则允许把它们当作单独的文件。

-u,-unbuffered 最低限度的缓存输入与输出

a,append表示追加指令;

i,insert表示插入指令;

d,delete表示删除指令;

s,substitution表示替换指令。

sed脚本指令的基本格式是:

[地址,即路径]命令(有些命令仅可以对一行操作,有些可以对多行操作),命令也可以用花括号进行组合,使命令序列可以作用于同一个地址。

address{

command1

command2

command3

}

sed的基本工作方式是:

sed的替换命令s:

1、全局替换 : s/old/new/g ,其中g为全局替换,用于替换所有出现的次数; /如果和正则匹配的内容冲突可以使用其他符号,如 : s@old@new@g

2、标志位

为什么要有多行模式: 配置文件一般有单行出现,但也有使用json或XML格式的配置文件,为多行出现。

多行模式处理命令N、D、P

Linux文本匹配命令grep与fgrep使用全解

Linux中grep与fgrep命令的使用,两个命令的使用都与文本的搜索与匹配相关,是Linux入门学习中的基础知识,接下来是我为大家收集的Linux文本匹配命令grep与fgrep使用全解,希望能帮到大家。

Linux文本匹配命令grep与fgrep使用全解

grep

grep (global search regular expression(RE) and print out the line,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。Unix的grep家族包括grep、egrep和fgrep。egrep和fgrep的命令只跟grep有很小不同。egrep是grep的扩展,支持更多的re元字符, fgrep就是fixed grep或fast grep,它们把所有的字母都看作单词,也就是说,正则表达式中的元字符表示回其自身的字面意义,不再特殊。Linux使用GNU版本的grep。它功能更强,可以通过-G、-E、-F命令行选项来使用egrep和fgrep的功能。

grep的工作方式是这样的,它在一个或多个文件中搜索字符串模板。如果模板包括空格,则必须被引用,模板后的所有字符串被看作文件名。搜索的结果被送到屏幕,不影响原文件内容。

grep可用于shell脚本,因为grep通过返回一个状态值来说明搜索的状态,如果模板搜索成功,则返回0,如果搜索不成功,则返回1,如果搜索的文件不存在,则返回2。我们利用这些返回值就可进行一些自动化的文本处理工作。

grep --help

匹配模式选择:

-E, --extended-regexp 扩展正则表达式egrep

-F, --fixed-strings 一个换行符分隔的字符串的集合fgrep

-G, --basic-regexp 基本正则

-P, --perl-regexp 调用的perl正则

-e, --regexp=PATTERN 后面根正则模式,默认无

-f, --file=FILE 从文件中获得匹配模式

-i, --ignore-case 不区分大小写

-w, --word-regexp 匹配整个单词

-x, --line-regexp 匹配整行

-z, --null-data 一个 0 字节的数据行,但不是空行

杂项:

-s, --no-messages 不显示错误信息

-v, --invert-match 显示不匹配的行

-V, --version 显示版本号

--help 显示帮助信息

--mmap use memory-mapped input if possible

输入控制:

-m, --max-count=NUM 匹配的最大数

-b, --byte-offset 打印匹配行前面打印该行所在的块号码。

-n, --line-number 显示的加上匹配所在的行号

--line-buffered 刷新输出每一行

-H, --with-filename 当搜索多个文件时,显示匹配文件名前缀

-h, --no-filename 当搜索多个文件时,不显示匹配文件名前缀

--label=LABEL print LABEL as filename for standard input

-o, --only-matching 只显示一行中匹配PATTERN 的部分

-q, --quiet, --silent 不显示任何东西

--binary-files=TYPE 假定二进制文件的TYPE 类型;

TYPE 可以是`binary', `text', 或`without-match'

-a, --text 匹配二进制的东西

-I 不匹配二进制的东西

-d, --directories=ACTION 目录操作,读取,递归,跳过

-D, --devices=ACTION 设置对设备,FIFO,管道的操作,读取,跳过

-R, -r, --recursive 递归调用

--include=PATTERN 只查找匹配FILE_PATTERN 的文件

--exclude=PATTERN 跳过匹配FILE_PATTERN 的文件和目录

--exclude-from=FILE 跳过所有除FILE 以外的文件

-L, --files-without-match 匹配多个文件时,显示不匹配的文件名

-l, --files-with-matches 匹配多个文件时,显示匹配的文件名

-c, --count 显示匹配了多少次

-Z, --null 在FILE 文件最后打印空字符

文件控制:

-B, --before-context=NUM 打印匹配本身以及前面的几个行由NUM控制

-A, --after-context=NUM 打印匹配本身以及随后的几个行由NUM控制

-C, --context=NUM 打印匹配本身以及随后,前面的几个行由NUM控制

-NUM 根-C的用法一样的

--color[=WHEN],

--colour[=WHEN] 使用标志高亮匹配字串;

-U, --binary 使用标志高亮匹配字串;

-u, --unix-byte-offsets 当CR 字符不存在,报告字节偏移(MSDOS 模式)

例:

测试文件

复制代码

代码如下:

root:x:0:0:root:/root:/bin/bash

bin:x:1:1:bin:/bin:/bin/false,aaa,bbbb,cccc,aaaaaa

DADddd:x:2:2:daemon:/sbin:/bin/false

mail:x:8:12:mail:/var/spool/mail:/bin/false

ftp:x:14:11:ftp:/home/ftp:/bin/false

nobody:$:99:99:nobody:/:/bin/false

zhangy:x:1000:100:,,,:/home/zhangy:/bin/bash

http:x:33:33::/srv/http:/bin/false

dbus:x:81:81:System message bus:/:/bin/false

hal:x:82:82:HAL daemon:/:/bin/false

mysql:x:89:89::/var/lib/mysql:/bin/false

aaa:x:1001:1001::/home/aaa:/bin/bash

ba:x:1002:1002::/home/zhangy:/bin/bash

test:x:1003:1003::/home/test:/bin/bash

@zhangying:*:1004:1004::/home/test:/bin/bash

policykit:x:102:1005:Po

a,匹配含有root的行

复制代码

代码如下:

[root@krlcgcms01 test]# grep root test

root:x:0:0:root:/root:/bin/bash

b,匹配以root开头或者以zhang开头的行,注意反斜杠

复制代码

代码如下:

[root@krlcgcms01 test]# cat test |grep '^\(root\|zhang\)'

root:x:0:0:root:/root:/bin/bash

zhangy:x:1000:100:,,,:/home/zhangy:/bin/bash

c,匹配以root开头或者以zhang开头的行,注意反斜杠,根上面一个例子一样,-e默认是省去的

[root@krlcgcms01 test]# cat test |grep -e '^\(root\|zhang\)'

root:x:0:0:root:/root:/bin/bash

zhangy:x:1000:100:,,,:/home/zhangy:/bin/bash

d,匹配以zhang开头,只含有字母

复制代码

代码如下:

[root@krlcgcms01 test]# echo 'zhangying' |grep '^zhang[a-z]*$'

zhangying

e,匹配以bin开头的行,用的egrep,在这里可以换成-F,-G

复制代码

代码如下:

[root@krlcgcms01 test]# cat test |grep -E '^bin'

bin:x:1:1:bin:/bin:/bin/false,aaa,bbbb,cccc,aaaaaa

f,在匹配的行前面加上该行在文件中,或者输出中所在的行号

复制代码

代码如下:

[root@krlcgcms01 test]# cat test|grep -n zhangy

7:zhangy:x:1000:100:,,,:/home/zhangy:/bin/bash

13:ba:x:1002:1002::/home/zhangy:/bin/bash

15:@zhangying:*:1004:1004::/home/test:/bin/bash

g,不匹配以bin开头的行,并显示行号

复制代码

代码如下:

[root@krlcgcms01 test]# cat test|grep -nv '^bin'

root:x:0:0:root:/root:/bin/bash

DADddd:x:2:2:daemon:/sbin:/bin/false

mail:x:8:12:mail:/var/spool/mail:/bin/false

ftp:x:14:11:ftp:/home/ftp:/bin/false

nobody:$:99:99:nobody:/:/bin/false

zhangy:x:1000:100:,,,:/home/zhangy:/bin/bash

http:x:33:33::/srv/http:/bin/false

dbus:x:81:81:System message bus:/:/bin/false

hal:x:82:82:HAL daemon:/:/bin/false

mysql:x:89:89::/var/lib/mysql:/bin/false

aaa:x:1001:1001::/home/aaa:/bin/bash

ba:x:1002:1002::/home/zhangy:/bin/bash

test:x:1003:1003::/home/test:/bin/bash

@zhangying:*:1004:1004::/home/test:/bin/bash

policykit:x:102:1005:Po

h,显示匹配的个数,不显示内容

复制代码

代码如下:

[root@krlcgcms01 test]# cat test|grep -c zhang

3

i,匹配system,没有加-i没有匹配到东西。

复制代码

代码如下:

[root@krlcgcms01 test]# grep system test

[root@krlcgcms01 test]# grep -ni system test

9:dbus:x:81:81:System message bus:/:/bin/false

j,匹配zhan没有匹配到东西,匹配zhangy能匹配到,因为在test文件中,有zhangy这个单词

复制代码

代码如下:

[root@krlcgcms01 test]# cat test|grep -w zhan

[root@krlcgcms01 test]# cat test|grep -w zhangy

zhangy:x:1000:100:,,,:/home/zhangy:/bin/bash

ba:x:1002:1002::/home/zhangy:/bin/bash

k,在这里-x后面东西,和输出中的整行相同时,才会输出

[root@krlcgcms01 test]# echo "aaaaaa" |grep -x aaa

[root@krlcgcms01 test]# echo "aaaa" |grep -x aaaa

aaaa

l,最多只匹配一次,如果把-m 1去掉的话,会有三个

复制代码

代码如下:

[root@krlcgcms01 test]# cat test |grep -m 1 zhang

zhangy:x:1000:100:,,,:/home/zhangy:/bin/bash

m,匹配行的前面显示块号,这个块号是干什么的,不知道,有谁知道可否告诉我一下

复制代码

代码如下:

[apacheuser@krlcgcms01 test]$ cat test |grep -b zha

241:zhangy:x:1000:100:,,,:/home/zhangy:/bin/bash

480:ba:x:1002:1002::/home/zhangy:/bin/bash

558:@zhangying:*:1004:1004::/home/test:/bin/bash

n,多文件匹配时,在匹配的行前面加上文件名

复制代码

代码如下:

[apacheuser@krlcgcms01 test]$ grep -H 'root' test test2 testbak

test:root:x:0:0:root:/root:/bin/bash

test2:root

testbak:root:x:0:0:root:/root:/bin/bash

o,多文件匹配时,在匹配的行前面不加上文件名

复制代码

代码如下:

[apacheuser@krlcgcms01 test]$ grep -h 'root' test test2 testbak

root:x:0:0:root:/root:/bin/bash

root

root:x:0:0:root:/root:/bin/bash

p,多文件匹配时,显示匹配文件的文件名

复制代码

代码如下:

[apacheuser@krlcgcms01 test]$ grep -l 'root' test test2 testbak DAta

test

test2

testbak

q,没有-o时,有一行匹配,这一行里面有3个root,加上-o后,这个3个root就出来了

复制代码

代码如下:

[apacheuser@krlcgcms01 test]$ grep 'root' test

root:x:0:0:root:/root:/bin/bash

[apacheuser@krlcgcms01 test]$ grep -o 'root' test

root

root

root

r,递归显示匹配的内容,在test目录下面建个mytest目录,copy test目录下面的test文件到mytest下面,能看到上面的结果

复制代码

代码如下:

[root@krlcgcms01 test]# grep test -R /tmp/test/mytest

/tmp/test/mytest/test:test:x:1003:1003::/home/test:/bin/bash

/tmp/test/mytest/test:@zhangying:*:1004:1004::/home/test:/bin/bash

s,显示匹配root后面的3行

复制代码

代码如下:

[root@krlcgcms01 test]# cat test |grep -A 3 root

root:x:0:0:root:/root:/bin/bash

bin:x:1:1:bin:/bin:/bin/false,aaa,bbbb,cccc,aaaaaa

daemon:x:2:2:daemon:/sbin:/bin/false

mail:x:8:12:mail:/var/spool/mail:/bin/false

fgrep

用法: fgrep [选项]... PATTERN [FILE]...

在每个 FILE 或是标准输入中查找 PATTERN。

PATTERN 是一组由断行符分隔的定长字符串。

例如: fgrep -i 'hello world' menu.h main.c

正则表达式选择与解释:

-e, --regexp=PATTERN 用 PATTERN 来进行匹配操作

-f, --file=FILE 从 FILE 中取得 PATTERN

-i, --ignore-case 忽略大小写

-w, --word-regexp 强制 PATTERN 仅完全匹配字词

-x, --line-regexp 强制 PATTERN 仅完全匹配一行

-z, --null-data 一个 0 字节的数据行,但不是空行

杂项:

-s, --no-messages 不显示错误信息

-v, --invert-match 选中不匹配的行

-V, --version 显示版本信息并退出

--help 显示此帮助并退出

--mmap 忽略向后兼容性

Output control:

-m, --max-count=NUM 匹配的最大数

-b, --byte-offset 打印匹配行前面打印该行所在的块号码

-n, --line-number 显示的加上匹配所在的行号

--line-buffered 刷新输出每一行

-H, --with-filename 当搜索多个文件时,显示匹配文件名前缀

-h, --no-filename 当搜索多个文件时,不显示匹配文件名前缀

--label=LABEL use LABEL as the standard input file name prefix

-o, --only-matching 只显示一行中匹配PATTERN 的部分

-q, --quiet, --silent 不显示所有输出

--binary-files=TYPE 假定二进制文件的TYPE 类型;

TYPE 可以是`binary', `text', 或`without-match'

-a, --text 等同于 --binary-files=text

-I 等同于 --binary-files=without-match

-d, --directories=ACTION 操作目录的方式;

ACTION 可以是`read', `recurse',或`skip'

-D, --devices=ACTION 操作设备、先入先出队列、套接字的方式;

ACTION 可以是`read'或`skip'

-R, -r, --recursive 等同于 --directories=recurse

--include=FILE_PATTERN 只查找匹配FILE_PATTERN 的文件

--exclude=FILE_PATTERN 跳过匹配FILE_PATTERN 的文件和目录

--exclude-from=FILE 跳过所有除FILE 以外的文件

--exclude-dir=PATTERN 跳过所有匹配PATTERN 的目录。

-L, --files-without-match 只打印不匹配FILEs 的文件名

-l, --files-with-matches 只打印匹配FILES 的文件名

-c, --count 只打印每个FILE 中的匹配行数目

-T, --initial-tab 行首tabs 分隔(如有必要)

-Z, --null 在FILE 文件最后打印空字符

文件控制:

-B, --before-context=NUM 打印以文本起始的NUM 行

-A, --after-context=NUM 打印以文本结尾的NUM 行

-C, --context=NUM 打印输出文本NUM 行

-NUM 等同于 --context=NUM

--color[=WHEN],

--colour[=WHEN] 使用标志高亮匹配字串;

WHEN 可以是`always', `never'或`auto'

-U, --binary 不要清除行尾的CR 字符(MSDOS 模式)

-u, --unix-byte-offsets 当CR 字符不存在,报告字节偏移(MSDOS 模式)

‘fgrep’已不再使用了;请用 ‘grep -F’代替。

不带 FILE 参数,或是 FILE 为 -,将读取标准输入。如果少于两个 FILE 参数

就要默认使用 -h 参数。如果选中任意一行,那退出状态为 0,否则为 1;

如果有错误产生,且未指定 -q 参数,那退出状态为 2。

例:

复制代码

代码如下:

[root@linux test]# cat abc.sh |fgrep a #匹配含有a的

看了“Linux文本匹配命令grep与fgrep使用全解”还想看:

1. linux grep命令详解

2. 全面解析Linux的grep命令中正则表达式的用法

3. Linux下如何使用grep命令搜索多个单词

4. 开发人员常用什么linux命令

Linux系统基础操作指令

摘要:Linux指令常用结构 :Command [-option] [argument]

Command:即是要运行的命令的本身,说白了就是一个程序;

Option:是选项(可选),选项是控制命令运行状态和行为的(可多个选项一起,如ls -al);

Argument:是参数(可选),是命令要操作对象如文件、路径、数据、目录等;

在指令的第一部分按[tab]键一下为[命令补全],两下为所有命令选择;

一、 Linux系统操作指令

1、开关机

2、查看系统信息

3、查看系统性能

4、查看磁盘指标

二、 Linux目录文件操作指令

1、目录文件

2、文件相关权限

3、文本处理

三、Linux用户权限操作指令

四、Linux压缩解压指令

五、Linux软件安装指令

文本处理|专项】Linux数据文本处理工具(3)'>【shell笔记>文本处理|专项】Linux数据文本处理工具(3)

sed 命令从文本或者标准输入中每次读入一行数据。

我们先从简单的实例出发,看下该命令怎么将一列中的 chrm12 , chrom2 等转换成 chr12 , chr2 的格式。

虽然示例文件处理仅仅只有三行,但我们可以将这种处理方式运用到上G甚至更大的数据文件中,而不用打开整个文件进行处理。并且,可以借助重导向实现对数据处理结果的输出。

sed 替换命令采用的格式是

sed 会自动搜索符合 pattern 的字符串,然后修改为 replacement (我们想要修改后的样子)。一般默认 sed 只替换第一个匹配的 pattern ,我们可以通过添加全局标识 g 将其应用到数据的所有行中。

如果我们想要忽略匹配的大小写,使用 i 标识

默认 sed 命令支持基本的POSIX正则表达式(BRE),可以通过 -E 选项进行拓展(ERE)。很多的Linux命令都这种方式,像常用的 grep 命令。

再看一个实例,如果我们想把 chr1:28647389-28659480 这样格式的文字转换为三列,可以使用:

我们聚焦在第二个命令 sed 上。初看杂乱无章,但是从最大的结构看依旧是

先看 pattern 部分,这是由几个简单正则表达式组成的复合体,几个 () 括起来的字符串可以单独看。第一个匹配 chr 加上一个非冒号的字符,第二个和第三个都是匹配多个数字。最开始的 ^ 表示以 chr 起始(前面没有字符),各个括号中间的是对应的字符。整体的 pattern 的目的就是为了找到文本中符合这种模式的字符串,如果只是想把这个模式找出来的话,几个括号可以不用加。显然这几个括号的作用就是将它们划分成多个域,帮助 sed 进行处理。可以看到 replacement 部分存在 \1 , \2 , \3 ,它恰好对应 () 的顺序。这样我们在中间插入 \t 制表符,就可以完成我们想要的功能:将原字符串转换为三列。

我本身对字符串并不是非常熟悉,懂一些元字符,可能讲解的不是很到位。不熟悉正则表达式的朋友,可以学习和参考下 学习正则表达式 ,是我从Github上Copy到的非常好的学习资料,有兴趣也可以Fork学习。

上山的路总是有很多条,我们下面看下其他实现该功能的办法:

这三种方式看起来都非常简单有效。它处理字符串的思路不是从匹配pattern然后替换入手,不对,应该说是不是从匹配所有pattern然后替换入手。处理的关键是只处理字符串中看似无用的连字符 : 与 - ,将其替换成制表符从而轻松完成分割。

sed 's/:/\t/' | sed 's/-/\t/' 可以通过 -e 选项写为 sed -e 's/:/\t/' -e 's/-/\t/' ,效果等价。

默认 sed 命令支持基本的POSIX正则表达式(BRE),可以通过 -E 选项进行拓展(ERE)。很多的Linux命令都这种方式,像常用的 grep 命令。

再看一个实例,如果我们想把 chr1:28647389-28659480 这样格式的文字转换为三列,可以使用:

我们聚焦在第二个命令 sed 上。初看杂乱无章,但是从最大的结构看依旧是

先看 pattern 部分,这是由几个简单正则表达式组成的复合体,几个 () 括起来的字符串可以单独看。第一个匹配 chr 加上一个非冒号的字符,第二个和第三个都是匹配多个数字。最开始的 ^ 表示以 chr 起始(前面没有字符),各个括号中间的是对应的字符。整体的 pattern 的目的就是为了找到文本中符合这种模式的字符串,如果只是想把这个模式找出来的话,几个括号可以不用加。显然这几个括号的作用就是将它们划分成多个域,帮助 sed 进行处理。可以看到 replacement 部分存在 \1 , \2 , \3 ,它恰好对应 () 的顺序。这样我们在中间插入 \t 制表符,就可以完成我们想要的功能:将原字符串转换为三列。

我本身对字符串并不是非常熟悉,懂一些元字符,可能讲解的不是很到位。不熟悉正则表达式的朋友,可以学习和参考下 学习正则表达式 ,是我从Github上Copy到的非常好的学习资料,有兴趣也可以Fork学习。

上山的路总是有很多条,我们下面看下其他实现该功能的办法:

这三种方式看起来都非常简单有效。它处理字符串的思路不是从匹配pattern然后替换入手,不对,应该说是不是从匹配所有pattern然后替换入手。处理的关键是只处理字符串中看似无用的连字符 : 与 - ,将其替换成制表符从而轻松完成分割。

sed 's/:/\t/' | sed 's/-/\t/' 可以通过 -e 选项写为 sed -e 's/:/\t/' -e 's/-/\t/' ,效果等价。

默认, sed 会输出每一行的结果,用 replacement 替换 pattern ,但实际中我们可能会因此得到不想要的结果。比如下面的这个例子。

如果我们想要抓出 gtf 文件第九列的转录名,可能会使用以下命令

我们可以发现一些没有转录名行的结果是输出整行,这可不是我们想要的。一种解决办法是在使用 sed 之前先抓出有 transcript_id 的行。其实 sed 命令本身也可以通过选项和参数设定解决这个问题,这里我们可以用 -n 选项关闭 sed 输出所有行,在最末的 / 后加 p 只输出匹配项。

注意方括号内 ^ 是非(取反)的意思。

解释如下:

+ 号的使用是一种非贪婪的方法。很多新手会用 * ,这是贪婪操作,往往会得不偿失,需要注意喔。

使用 * 时它会尽量多地去匹配符合要求的模式。

我们也可以用 sed 命令来获取特定范围的行,比如说我要取出头10行,可以使用

20到50行

当然 sed 的功能特性远远不止这些,有待于大家更多地挖掘。不过需要注意的是,尽量让工具干它最擅长的事情。如果是复杂地大规模计算,还是最好写个Python脚本。

首先需要记住 连续 命令和 管道 命令的区别:前者是简单地一个一个按顺序运行程序(一般用 或者 ; );后者前一个程序的输出结果会直接传到下一个命令程序的输入中(这不就是流程化操作么,用 | 分隔)。

子shell可以让我们在一个独立的shell进程中执行连续命令。

首先看个例子

发现仅仅加了个括号,结果就不同了。第二个命令就用了子shell,它把两个 echo 命令放进单独的空间执行后将结果传给下游。

子shell在对 gtf 文件进行操作时有个非常有意思有用的用处。我们如果想对 gtf 文件排序,但是又想要保留文件头部注释信息,我们就能够用两次 grep 操作分别抓出注释和非注释信息,然后又把它结合在一起。下面看看效果,用 less 进行检查:

可以看到,子shell确实能够给我们提供非常有用的操作去组合命令实现想要的功能。

很多生信命令行工具需要提供多个输入和输出参数,这用在管道命令里可能会导致非常低效的情形(管道只接受一个标准输入和输出)。幸好,我们可以使用命令管道来解决此类问题。

命名管道 ,也成为FIFO(先入先出,额,这不是队列么:smile:)。它是一个特殊的排序文件,命名管道有点像文件,它可以永久保留在你的文件系统上(估计本质就是文件吧~)。

我们用 mkfifo 来生成它

可以它看它权限的第一个字符是p,指代是pipe。说明是个特殊文件。

我们像文件一样对它进行一些操作

比如当使用一个生信命令行工具

in1.fq in2.fq 就可以上游输出数据到 processing_tool 的命名管道;同理 out1.fq out2.fq 可以是命名管道用来写进输出数据。

但这样我们每次都得不停地创建和删除这些文件,解决办法是使用匿名管道,也叫进程替换。

不能光说,看看例子就知道和理解了。

echo 命令运行后使用了进程替换,产生匿名文件,然后匿名文件被重导向 cat 命令。

把它用到工具上,就变成了(假定上游zcat下游执行grep命令)

关于Linux数据处理工具内容全部整理发布在我的博客上。 详情点击


本文标题:linux中文本处理命令 linux 文本编辑命令
文章位置:http://njwzjz.com/article/docpide.html