shell脚本之正则表达式的简单应用

zayki 2024-08-26

281

在Shell脚本中使用正则表达式来过滤日志文件中的IP地址、URL地址、端口号和时间戳等信息，可以使用grep、awk、sed等命令。以下是一个基本的示例脚本，用于从日志文件中提取这些信息。

#!/bin/bash
# 日志文件路径
LOG_FILE="/path/to/your/logfile.log"
# 使用grep和正则表达式匹配IP地址
echo "IP地址:"
grep -oE "\b([0-9]{1,3}\.){3}[0-9]{1,3}\b" $LOG_FILE
# 使用grep和正则表达式匹配URL地址
echo "URL地址:"
grep -oE "http[s]?://[^ \"\'>]+" $LOG_FILE
# 使用grep和正则表达式匹配端口号
echo "端口号:"
grep -oE ":([0-9]{1,5})" $LOG_FILE | grep -oE "[0-9]{1,5}"
# 使用grep和正则表达式匹配时间戳
# 假设时间戳格式为YYYY-MM-DD HH:MM:SS
echo "时间戳:"
grep -oE "\b[0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]{2}:[0-9]{2}:[0-9]{2}\b" $LOG_FILE

请确保将/path/to/your/logfile.log替换为实际的日志文件路径。
这个脚本的工作原理如下：

grep -oE：使用grep的扩展正则表达式选项（-E）和仅输出匹配部分选项（-o）。
\b([0-9]{1,3}\.){3}[0-9]{1,3}\b：正则表达式用于匹配标准的IPv4地址。
http[s]?://[^ \"\'>]+：正则表达式用于匹配以http或https开头的URL地址。
:([0-9]{1,5})：正则表达式用于匹配冒号后面的最多5位数字，即端口号。
\b[0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]{2}:[0-9]{2}:[0-9]{2}\b：正则表达式用于匹配常见的时间戳格式。
请注意，这个脚本假设了一些格式，实际的日志格式可能会有所不同，需要相应地调整正则表达式。如果你的日志文件中的时间戳格式不同，或者IP、URL和端口号的表示方式有所不同，你需要修改正则表达式以匹配实际的格式。

使用awk来完成提取日志文件中的IP地址、URL地址、端口号和时间戳的任务，可以编写一个awk脚本或者直接在命令行中使用awk。以下是一个使用awk命令行来完成这些任务的示例：

#!/bin/bash
# 日志文件路径
LOG_FILE="/path/to/your/logfile.log"
# 使用awk提取IP地址
echo "IP地址:"
awk 'match($0, /(\b([0-9]{1,3}\.){3}[0-9]{1,3}\b)/, a) {print a[1]}' $LOG_FILE
# 使用awk提取URL地址
echo "URL地址:"
awk 'match($0, /http[s]?:\/\/[^"\'\'>]+/, a) {print a[1]}' $LOG_FILE
# 使用awk提取端口号
echo "端口号:"
awk 'match($0, /:([0-9]{1,5})/, a) {print a[1]}' $LOG_FILE
# 使用awk提取时间戳
# 假设时间戳格式为YYYY-MM-DD HH:MM:SS
echo "时间戳:"
awk 'match($0, /\b([0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]{2}:[0-9]{2}:[0-9]{2})\b/, a) {print a[1]}' $LOG_FILE

确保将/path/to/your/logfile.log替换为实际的日志文件路径。
在这个脚本中，awk的match函数用于在每一行中查找匹配正则表达式的字符串。match函数会返回匹配的字符串，并可以通过数组a来引用。a[1]包含了第一个匹配的子字符串，这就是我们打印的内容。
请根据实际的日志格式调整正则表达式。这个脚本同样假设了一些格式，如果日志文件的格式有所不同，需要修改正则表达式以正确匹配。

使用sed来提取日志文件中的IP地址、URL地址、端口号和时间戳，可以编写一系列sed命令来匹配和打印所需的信息。下面是一个使用sed来完成这些任务的脚本示例：

#!/bin/bash
# 日志文件路径
LOG_FILE="/path/to/your/logfile.log"
# 使用sed提取IP地址
echo "IP地址:"
sed -nE 's/.*\b([0-9]{1,3}\.){3}[0-9]{1,3}\b.*/\1/p' $LOG_FILE
# 使用sed提取URL地址
echo "URL地址:"
sed -nE 's/.*http[s]?://;s/[^ ">\']*//;p' $LOG_FILE
# 使用sed提取端口号
echo "端口号:"
sed -nE 's/.*:\([0-9]{1,5}\).*/\1/p' $LOG_FILE
# 使用sed提取时间戳
# 假设时间戳格式为YYYY-MM-DD HH:MM:SS
echo "时间戳:"
sed -nE 's/.*\b([0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]{2}:[0-9]{2}:[0-9]{2})\b.*/\1/p' $LOG_FILE

请确保将/path/to/your/logfile.log替换为实际的日志文件路径。
解释一下这些命令：

-n 选项告诉sed不要打印每一行，只打印匹配的行。
-E 选项启用扩展正则表达式，类似于grep -E。
以下是每个sed命令的解释：
提取IP地址：sed匹配整个行，然后只打印出匹配的IP地址部分。
提取URL地址：这个命令稍微复杂一些。它首先用http[s]?://来定位URL的起始部分，然后删除后面的非URL字符直到行尾。
提取端口号：匹配行中的端口号部分并打印出来。
提取时间戳：匹配整个行，然后只打印出匹配的时间戳部分。
这些命令都假设日志文件的格式是特定的。如果日志格式不同，你需要根据实际情况调整正则表达式。此外，由于sed的正则表达式处理能力可能不如awk或grep强大，某些复杂的日志格式可能需要更复杂的sed表达式或结合其他命令来处理。

shell

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

shell脚本之正则表达式的简单应用

评论