使用 shell 命令统计日志
通过使用 shell 命令可以很方便地对日志进行统计和分析,当服务有异常的时候,需要去排查日志,那么掌握一种统计日志的技巧就是必不可少的了。 假设有一个包含下面内容的日志文件 date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=something | status=200 | time=9.703 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML,like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-" date=2017-09-23 00:00:00 | ip=100.109.222.3 | method=HEAD | url=/api/foo/healthcheck | status=200 | time=0.337 | bytes=10 | referrer="-" | user-agent="-" | cookie="-" date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=anything | status=200 | time=8.829 | bytes=466 | referrer="-" | user-agent="GuzzleHttp/6.2.0 curl/7.19.7 PHP/7.0.15" | cookie="-" date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=everything | status=200 | time=9.962 | bytes=129 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML,like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-" date=2017-09-23 13:32:50 | ip=40.80.31.153 | method=GET | url=/api/foo/bar?params=nothing | status=200 | time=11.822 | bytes=121 | referrer="-" | user-agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML,like Gecko) Chrome/16.0.912.63 Safari/535.7" | cookie="-" 不同的服务对应的日志可能不一样,本文使用示例日志的格式是: date | ip | method | url | status | time | bytes | referrer | user-agent | cookie
排除特殊日志统计日志时,我们可能不关心 HEAD 请求,或者只关心 GET 请求,这里首先需要筛选日志,可以使用 grep GET access.log # 只统计 GET 请求 grep -v HEAD access.log # 不统计 HEAD 请求 grep -v 'HEAD|POST' access.log # 不统计 HEAD 和 POST 请求 查看接口耗时情况我们可以将每行的 awk '{ match($0,/time=([0-9]+.[0-9]+)/,result); print result[1]}' access.log awk 命令使用方法如下: awk '{pattern + action}' {filenames} 我们实际上只用到了 action:
注意这里的正则我没有使用 result 数组实际上和 javascript 里的结果数组很像了,所以我们打印出第二个元素,即匹配到的内容。执行完这行命令后结果如下: 9.703 0.337 8.829 9.962 11.822 当然实际上一天的日志可能是成千上万条,我们需要对日志进行排序,且只展示前 3 条。这里使用到
awk '{ match($0,result); print result[1]}' access.log | sort -rn | head -3 结果: 11.822 9.962 9.703 查看耗时最高的接口当然我们一般不会只查看接口耗时情况,还需要把具体日志也打印出来,上面的命令就不能满足要求了。 awk 的打印默认是按空格分隔的,意思是 根据日志特征,我们可以使用 awk 的 awk -F '|' '{print $6 $1 $4}' access.log 这样打出来结果为: time=9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something time=0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck time=8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything time=9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything time=11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing 因为我们想按 time 来排序,而 sort 可以按列来排序,而列是按空格分隔的,我们目前第一列是 awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}' 结果: 9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something 0.337 date=2017-09-23 00:00:00 url=/api/foo/healthcheck 8.829 date=2017-09-23 13:32:50 url=/api/foo/bar?params=anything 9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything 11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing 使用 awk -F '|' '{print $6 $1 $4}' access.log | awk -F 'time=' '{print $2}' | sort -k1nr | head -3 结果: 11.822 date=2017-09-23 13:32:50 url=/api/foo/bar?params=nothing 9.962 date=2017-09-23 13:32:50 url=/api/foo/bar?params=everything 9.703 date=2017-09-23 13:32:50 url=/api/foo/bar?params=something 统计请求次数最多的接口如果需要统计哪些接口每天请求量是最多的,只需要新引入 我们已经可以通过 所以我们先把 url 排序以让相同的 url 放在一起,然后使用 grep -v HEAD access.log | awk -F '|' '{print $4}' | sort | uniq -c 因为示例日志数量太少,我们假设日志里有多条,那么结果应该类似下面: 1 url=/api/foo/bar?params=anything 19 url=/api/foo/bar?params=everything 4 url=/api/foo/bar?params=nothing 5 url=/api/foo/bar?params=something 接下来再 sort 即可: grep -v HEAD access.log | awk -F '|' '{print $4}' | sort | uniq -c | sort -k1nr | head -10 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |