目前业界的日志生态,最常用的是 ELK,其次就是 ClickHouse,本文会演示如何使用 Vector + ClickHouse 来采集 Nginx 日志并做清洗,最终写入 ClickHouse。至于日志的可视化,后面再单独介绍,本文先把前半段完成,即日志的收集 + 传输 + 清洗 + 存储。存储显然是 ClickHouse,前面三个环节,使用 Vector 来完成。
配置 Nginx log
我们可以直接采集默认的 Nginx access log,不过我们可以走得更远一点,使用我们自定义的日志格式:
log_format track '$remote_addr - $time_iso8601 "$request_uri" '
'$status $body_bytes_sent "$http_user_agent"';
server {
location / {
access_log /var/log/track.log track;
return 200 'ok';
}
}
这个配置会把所有请求记录到 /var/log/track.log 文件中,样例如下:
127.0.0.1 - 2022-08-01T17:19:38+03:00 "/?test=1" 200 2 "curl/7.81.0"
这个日志是因为使用 curl 发起了一个如下请求:
curl "http://127.0.0.1/?test=1"
ClickHouse 表结构
下面我们创建一个 ClickHouse 表结构,用于存储 Nginx 日志,一般生产环境下,都是每个应用单独一个表,这样可以让不同的应用使用不同的日志字段,同时做了纵向切分,避免所有的日志存在一个表中导致表过大,影响查询性能。
CREATE TABLE log
(
`ip` String,
`time` Datetime,
`url` String,
`status` UInt8,
`size` UInt32,
`agent` String
)
ENGINE = MergeTree
ORDER BY date(time)
这个表基本够演示所用了。
安装 Vector
Vector 是一个用于构建数据传输 pipeline 的工具。它开箱即用支持 ClickHouse。使用 Vector Remap Language (VRL) 可以对日志进行清洗,把非结构化的数据清洗成结构化数据。
安装 Vector 较为简单,在 Ubuntu 上,可以使用如下命令:
curl -1sLf 'https://repositories.timber.io/public/vector/cfg/setup/bash.deb.sh' | sudo -E bash
sudo apt install vector
完事使用如下命令检查版本,如果正常输出,表示安装成功:
root@desktop:~# vector --version
vector 0.23.0 (x86_64-unknown-linux-gnu 38c2435 2022-07-11)
配置 pipeline
使用 Vector 配置日志流水线非常容易。整体上就是三步:采集 -> 处理 -> 输出,每个阶段都对应 Vector 配置中的 section,当然,采集可以有很多来源,处理也可以分多个环节,输出也可以有很多目的地。
配置文件:/etc/vector/vector.toml,基础步骤包括:
1.[sources.***] 配置数据从哪里采集
2.[transforms.***] 配置数据如何清洗处理
3.[sinks.***] 配置数据输出到哪里
*** 的位置,是一个自定义的名字,可以随便取,但是要保证唯一。无论是 sources、transforms 还是 sinks,都可以有多个。
采集数据
我们故意修改了 Nginx 的日志格式,需要手工配置 pipeline。/var/log/track.log 日志文件内容现在是非结构化的,首先我们要用 Vector 读取它。
[sources.track]
type = "file"
include = ["/var/log/track.log"]
read_from = "end"
这里我们让 Vector 读取指定的日志文件,从文件末尾读取,只要 Nginx 有新的日志写入,Vector 就会读取到。
清洗数据
为了得到结构化的数据,我们在 VRL 中使用带有捕获组的正则表达式来处理每一行日志,这部分配置到 transforms 中。
[transforms.process]
type = "remap"
inputs = ["track"]
source = '''
. |= parse_regex!(.message, r'^(?P\d+\.\d+\.\d+\.\d+) \- (?P\d+\-\d+\-\d+)T(?P