协慌网

登录 贡献 社区

正则表达式匹配不包含单词的行?

我知道可以匹配一个单词,然后使用其他工具(例如grep -v )反转匹配。但是,我想知道是否可以使用正则表达式匹配包含特定单词的行(例如 hede)。

输入:

hoho
hihi
haha
hede

码:

grep "<Regex for 'doesn't contain hede'>" input

期望的输出:

hoho
hihi
haha

答案

正则表达式不支持逆匹配的概念并不完全正确。您可以使用负面外观来模仿此行为:

^((?!hede).)*$

上面的正则表达式将匹配任何字符串,或没有换行符的行, 包含(子)字符串'hede'。如上所述,这不是正则表达式(或应该做的)“好” 的东西,但仍然可能的。

如果您还需要匹配换行符,请使用DOT-ALL 修饰符 (以下模式中的尾随s ):

/^((?!hede).)*$/s

或者内联使用:

/(?s)^((?!hede).)*$/

(其中/.../是正则表达式分隔符,即不是模式的一部分)

如果 DOT-ALL 修饰符不可用,则可以使用字符类[\s\S]模仿相同的行为:

/^((?!hede)[\s\S])*$/

说明

字符串只是n字符的列表。在每个字符之前和之后,都有一个空字符串。因此, n字符的列表将具有n+1空字符串。考虑字符串"ABhedeCD"

┌──┬───┬──┬───┬──┬───┬──┬───┬──┬───┬──┬───┬──┬───┬──┬───┬──┐
S = │e1│ A │e2│ B │e3│ h │e4│ e │e5│ d │e6│ e │e7│ C │e8│ D │e9│
    └──┴───┴──┴───┴──┴───┴──┴───┴──┴───┴──┴───┴──┴───┴──┴───┴──┘

index    0      1      2      3      4      5      6      7

e是空字符串。正则表达式(?!hede).展望未来,看看是否没有子串"hede"可以看到,如果是这种情况(所以看到别的东西),那么. (点)将匹配除换行符之外的任何字符。环视也称为零宽度断言,因为它们不消耗任何字符。他们只断言 / 验证某些东西。

所以,在我的例子中,每个空字符串首先被验证,以确定在字符被消费之前是否没有"hede" . (点)。正则表达式(?!hede).只做一次,所以它被包裹在一个组中,重复零次或多次: ((?!hede).)* 。最后,输入的开始和结束被锚定以确保消耗整个输入: ^((?!hede).)*$

正如你所看到的,输入"ABhedeCD"将失败,因为在e3 ,正则表达式(?!hede)失败( "hede"了未来!)。

请注意,解决方案不是 “hede” 开头

^(?!hede).*$

通常比包含 “hede”的解决方案更有效:

^((?!hede).)*$

前者仅在输入字符串的第一个位置而不是在每个位置检查 “hede”。

如果您只是将它用于 grep,则可以使用grep -v hede来获取所有不包含 hede 的行。

ETA 哦,重读这个问题, grep -v可能就是你所说的 “工具选项”。