Telegraf简介
Telegraf是一个基于插件的开源指标采集工具。本身是为InfluxDB(一款时序数据库)量身打造的数据收集器,但是它过于优秀,能够将抓取的数据写到很多地方,尤其在时序数据库领域,很多时序数据库都能够与它配合使用。通常,它每隔一段时间抓取一批指标数据(比如机器的CPU使用情况,磁盘的IO,网络情况,MySQL服务端的的会话数等等)并将他们发送到时序数据库、消息队列中或者自定义导出到某个地方。供下游的应用处理(比如报警)。Telegraf也能够对外提供一个服务,等待客户端推送数据。
它与logstash类似,只不过logstash是收集日志的。telegraf是收集指标的。
官方提供了300多个可选的插件,另外Telegraf是易于拓展的,如果官方的插件无法满足你的需求,你随时可以在Telegraf的基础上写出自己的插件。
安装部署Telegraf
官方下载页面:https://portal.influxdata.com/downloads/
我的服务器是centos的,所以选择centos安装:
# influxdb.key GPG Fingerprint: 05CE15085FC09D18E99EFB22684A14CF2582E0C5
cat <<EOF | sudo tee /etc/yum.repos.d/influxdata.repo
[influxdata]
name = InfluxData Repository - Stable
baseurl = https://repos.influxdata.com/stable/\$basearch/main
enabled = 1
gpgcheck = 1
gpgkey = https://repos.influxdata.com/influxdb.key
EOF
sudo yum install telegraf -y
启动telegraf:
systemctl start telegraf
systemctl status telegraf
极简入门
示例1:收集cpu时序数据
创建一个目录,专门放telegraf的配置文件。
mkdir -p /opt/module/telegraf_conf
vim /opt/module/telegraf_conf/example01.conf
#输入以下内容
[agent]
interval = "3s"
[[inputs.cpu]]
percpu = true
totalcpu = true
collect_cpu_time = false
report_active = false
core_tags = false
[[outputs.file]]
files = ["stdout"]
配置文件内容是每隔3S采集一次CPU监控信息,并把信息输出到linux标准输出(控制台)中。
运行,观察控制台输出:
telegraf --config /opt/module/telegraf_conf/example01.conf
基本说明
配置文件:
example01.conf配置文件涉及到3个配置块。
[ agent ] 这里面是一些涉及全局的配置。此处我们设置interval="3s",意思是让配置文件中的所有input插件每隔3秒去采集一次指标。interval的默认值是10秒。
[[ inputs.cpu ]] 这是一个input输入组件,这里的配置是说我们导出的指标会包含每一个CPU核的使用情况,而且还包含所有CPU总的使用情况。
[[ outputs.file ]] 这是一个output输出组件,这里我们用了一个名为file的输出组件,不过files参数设为了 stdout (标准输出)也就是控制台,这样程序运行起来我们应该可以看到数据打印在控制台上。
控制台输出内容:
首先输出的是Telegraf进程的描述信息:
(1)当前Telegraf的版本号为1.23.2
(2)加载的input插件列表(目前就1个):cpu
(3)加载的aggregator插件列表(目前没有)
(4)加载的processors插件列表(目前没有)
(5)加载的output插件列表(目前就1个):file
(6)Tags enable,开启了全局的标签集,全局的指标数据都会加上host=wj-server这个标签
(7)agent Config,全局配置
-
Interval : 3s,所有的input组件每3s采集一次指标数据,
-
Quiet:false,不使用安静模式运行。
-
Hostname:"wj-server",机器名称wj-server
-
Flush Interval:10s 所有的output组件每10s输出一次指标数据。所以,telegraf运行后,你应该每隔10秒,看到控制台上有一批输出。
数据输出:
在Telegraf的配置内容输出完毕后,我们可以看到一堆密密麻麻的数据。你会发现它不像json,也不像csv。这其实是Telegraf内置的数据结构,叫做InfluxDB行协议。
关于InflushDB行协议可参考:InfluxDB(2):行协议
示例2:启用处理插件
接下来,我们在example01.conf的基础上稍作改进,编写一个新的配置文件example02.conf。
vim /opt/module/telegraf_conf/example02.conf
[agent]
interval = "3s"
flush_interval = "5s"
[global_tags]
user="wj"
[[inputs.cpu]]
percpu = true
totalcpu = true
collect_cpu_time = false
report_active = false
core_tags = false
[[processors.converter]]
[processors.converter.tags]
measurement = ["cpu"]
[[outputs.file]]
files = ["stdout"]
运行telegraf:
telegraf --config /opt/module/telegraf_conf/example02.conf
可以观察到,输出的行的测量名称变了。(CPU标签里面的值替换成测量名称)
插件文档:Plugin directory | Telegraf 1.24 Documentation (influxdata.com)
首先注意,如果你正在使用Telegraf的1.23版本,那么你看插件文档的时候,也应该去看1.23版本的文档。这是因为Go语言开发的项目,会把整个项目涉及的东西编译到一个单独的二进制可执行文件中。
而且这个可执行文件里面写的全部都是本地码(native-code),不需要专门的Go语言执行环境,操作系统环境直接可以让它运行起来。
介于此,Telegraf的插件和框架核心代码是编译在一块的,它们都在一个可执行文件中。
因此v1.23中特有的插件,前面的版本就不会有,除非把旧版本的Telegraf源码下下来,然后把想要的插件源码写进去再重新编译。
注意!上面说的是Telegraf的内置插件,Telegraf还为我们留了一个exec Input插件,通过这个插件,我们可以和外部的捕捉指标数据的插件进行集成.
Telegraf命令行用法
Telegraf安装好之后,就可以使用telegraf命令了。
用法:
telegraf [ 命令 ]
telegraf [ 选项 ]
命令
config : 将完整的示例配置打印到标准输出(stdout 控制台)
version : 将版本号打印到标准输出(stdout 控制台)
选项
参数 | 描述 |
---|---|
--aggregator-filter <filter> | 筛选要启用聚合器,分隔符为 |
--config <file> | 要加载的配置文件 |
--config-directory <directory> | 包含其他配置文件的目录。其中的配置文件名需要以.conf收尾 |
--deprecation-list | 打印所有已弃用的插件或插件选项。 |
--watch-config | 在本地的配置文件更改时,重启Telegraf进程,监听方式使用的是文件系统的通知或者轮询文件。--watch-config功能默认是关闭的。 |
--plugin-directory <directory> | 插件目录,会以递归的方式搜索这个目录,来找到可用的插件,找到的插件会被加载。插件文件的后缀是.so |
--debug | 启动debug级别的日志文件 |
--input-filter <filter> | 过滤要启用的输入插件,分隔符为 : 。 |
--input-list | 打印可用的输入插件 |
--output-filter | 过滤要启用的输出插件,分隔符为 : 。 |
--output-list | 打印可用的输出插件 |
--pidfile <file> | 要将pid写入到哪个文件。 |
--pprof-addr <address> | pprof地址,默认情况下禁用。pprof是Go中分析程序运行性的工具,它能够提供各种性能数据。比如,内存分配情况的采样信息、对上内存的使用情况采样信息等。 |
--processor-filter <filter> | 筛选要启用的filter插件,插件之间使用 : 分隔。 |
--quiet | 在安静模式下运行 |
--section-filter <filter> | 这个参数和config命令一起使用才有意义。过滤要打印的配置段(agent,global_tags,outputs,processors,aggregators和inputs)。配置段之间用 : 分隔。 |
--sample-config | 打印完整的示例配置(和config命令的作用一样) |
--once | 收集一次指标,写出,然后退出进程。 |
--test | 收集一次指标并打印一次,然后退出进程。 |
--test-wait | telegraf进程在test或once模式下,进行一次input所需要的秒数。 |
--usage <plugin> | 打印插件的用法。(比如:telegraf --usage mysql) |
--version | 打印Telegraf的版本号 |
运行单个的Telegraf配置文件并打印到控制台:(只打印一次,测试配置文件内容)
telegraf --config /opt/module/telegraf_conf/example02.conf --test
生成仅定义了CPU输入和InfluxDB输出的配置文件:
telegraf --input-filter cpu --output-filter influxdb config
运行一个配置文件中的所有插件:
telegraf --config telegraf.conf
运行Telegraf时开启pprof:
telegraf --config /opt/module/telegraf_conf/example02.conf --pprof-addr localhost:6060
使用远程配置:
Telegraf的--cofnig参数还能指定一个URL,让telegraf通过网络远程获取配置文件。
telegraf --config http://localhost:8080/example01.conf
获取配置文件,而且数据也能够正常输出,但是不能监听配置的变化。
输出示例配置文件:
telegraf --input-filter cpu:mem --processor-filter converter --aggregator-filter minmax --output-filter file config
配置文件参数
Agent配置
配置名 | 直 译 | 解释 |
---|---|---|
interval | 间隔 | 所有的input组件采集数据的间隔时间 |
round_interval | 间隔取整 | 将采集的间隔时间取整。比如,如果interval设置为10s,但我们在1分02秒启动了telegraf服务,那么采集的时间会取整到1分10秒,1分20秒,1分30秒 |
metric_batch_size | 指标 批大小 | telegraf一批次从output组件向外发送数据的大小,网络不稳定时可以减小此参数。 |
metric_buffer_limit | 指标 缓冲区 | telegraf会为每个output插件创建一个缓冲区,来缓存指标数据,并在output成功将数据发送后,将成功发送的数据从缓冲区删除。所以,metriac_buffer_limit参数应该至少是metric_batch_size参数的两倍 |
collection_jetter | 采集抖动 | 这个参数会在采集的时间点上加一个随机的抖动,这样可以避免很多插件同时查询一些消耗资源的指标,从而对被观测的系统产生不可忽视的影响。 |
flush_interval | 刷新间隔 | 所有output的输出间隔,这个参数不应该设的比interval(所有input组件的采集间隔)小。最大的实际发送间隔将会是 |
flush_jitter | 刷新抖动 | 对output的输出时间加上一个随机的抖动,这主要是为了避免大量的Telegraf实例在同样的时间同时执行写入操作,出现较大的写入峰值。比如,flush_jitter设为5s,flush_interval设为10s意味着会在10~15秒的时候进行一次输出。 |
precision | 精度 | 精度配置确定从输入插件接收的点中保留多少时间戳精度。所有传入的时间戳都被阶段为给定的精度。然后Telegraf用零填充截断的时间戳以创建纳秒时间戳,输出插件将以纳秒为单位发出时间戳。有效的精度为ns,us,ms和s。 例如:如果精度设置为ms,则纳秒时间戳1480000000123456789将被截断为1480000000123毫秒精度,然后用0填充以生成新的,不太精确的纳秒时间戳1480000000123000000。输出插件不会进一步更改时间戳。如果是服务型的输出插件会忽略这个设置。 |
logfile | 日志文件 | 自定义的日志名称, |
debug | 调试 | 使用debug模式运行Telegraf |
quiet | 安静 | 安静地运行Telegraf,只会提示错误信息 |
logtarget | 日志目标 | 该配置用来空值日志的目标。它可以是"file","stderr"之一,如果是在Windows系统上,它还可以设为"eventlog"。设置为"file"时,输入文件由 logfile 配置项决定。 |
logfile | 日志文件 | 指定logtarget指定为"file"时的日志文件名。如果设置为空,那么日志会输出到stderr上。 |
logfile_rotation_interval | 日志轮转间隔 | 日志轮转间隔,多长时间开启一个新的日志文件,如果设置为0,那么就不按时间进行轮转。 |
logfile_rotation_max_size | 日志轮转大小 | 当正在使用的日志文件的大小超过该值时,开启一个新的日志文件。当设置为0,表示不按照日志文件的大小进行日志轮转。 |
logfile_rotation_max_archives | 最大轮转存档数 | 最大的日志归档数量,每一次日志轮转发生时,都会产生一个新的正在使用的日志文件,和一个归档(旧的不再使用的日志文件) |
log_with_timezone | 日志时区 | 设置日志记录要使用的时区,或者设为"local"即为本地时间。 |
hostname | 主机名 | 覆盖默认的主机名,如果不设该值,那么os.Hostname( )的返回值。(os.Hostname)是Go语言标准库中的方法,可以获取当前机器的名称。 |
omit_hostname | 忽略主机名 | telegraf输出的指标数据中,有一个默认的 |
Input 输入插件通用配置
配置名 | 直译 | 解释 |
---|---|---|
alias | 别名 | 给一个input插件实例进行命名。 |
interval | 间隔 | 单个Input组件收集指标的间隔时间,插件中的interval配置比全局的interval配置的优先级要高。 |
precision | 精度 | 单个Input组件的时间精度,覆盖[agent]中的配置。精度配置确定从输出插件接收的点中保留多少时间戳精度。所有传入的时间戳都被阶段为给定的精度。然后Telegraf用零填充截断的时间戳以创建纳秒时间戳,输出插件将以纳秒为单位发出时间戳。有效的精度为ns,us,ms和s。 例如:如果精度设置为ms,则纳秒时间戳1480000000123456789将被截断为1480000000123毫秒精度,然后用0填充以生成新的,不太精确的纳秒时间戳1480000000123000000。输出插件不会进一步更改时间戳。如果是服务型的输出插件会忽略这个设置。 |
collection_jitter | 采集抖动 | 单个Input组件的采集抖动 |
name_override | 重命名 | 覆盖原来的指标名称,默认值为input组件的名称 |
name_prefix | 名称前缀 | 指定要附加到度量值名称的前缀 |
name_suffix | 名称后缀 | 指定要附加到度量值名称的后缀 |
tags | 标签集 | 给当前input数据添加新的标签集。 |
Output 输出插件通用配置
配置名 | 直译 | 解释 |
---|---|---|
alias | 别名 | 给一个output插件起一个别名 |
flush_interval | 刷新间隔 | 单个output插件的输出间隔(覆盖全局配置) |
flush_jitter | 刷新抖动 | 单个output插件的输出时间抖动(覆盖全局配置) |
metric_batch_size | 指标批次大小 | 一次最多发送多少条数据(会覆盖全局配置) |
metric_buffer_limit | 指标缓冲区上限 | 未发送数据的缓冲区(会覆盖全局配置) |
name_override | 重命名 | 覆盖原来的指标名称,默认值为output的名称(我怀疑官网说错了) |
name_prefix | 名称前缀 | 指标名称的前缀 |
name_suffix | 名称后缀 | 指标名称的后缀 |
Aggregator 聚合插件通用配置
配置名 | 直译 | 解释 |
---|---|---|
alias | 别名 | 给一个Aggregator插件的实例命名 |
period | 期间 | 聚合器对从now-period 到now 之间的数据进行聚合。 |
delay | 延迟 | 聚合时进行一个小的延迟,防止在对时间戳为1000的数据进行聚合时,上游还在正在发送时间戳为1000的数据 |
grace | 宽限 | 迟到多久的数据可以进入下一个聚合周期。 |
drop_original | 删除源 | 默认为false,如果设置为true,袁术的指标数据就会从流水线上删除,不会发给下游的output插件 |
name_override | 名称覆盖 | 给数据的指标名称重新命名 |
name_prefix | 名称前缀 | 给指标名称加一个前缀 |
name_suffix | 名称后缀 | 给指标名称加一个后缀 |
tags | 标记 | 添加额外的标签集 |
Processor 处理插件通用配置
配置名 | 直译 | 解释 |
---|---|---|
alias | 别名 | 给Processor插件的示例起一个名字 |
order | 顺序 | 这是处理器的执行顺序,如果没有制定,那么执行器的顺序就是随机的。注意!不是按照配置文件的先后顺序来的,而是随机。 |
Metric filtering 指标过滤器通用配置
配置名 | 直译 | 解释 |
---|---|---|
namepass | 名称通过 | 一个glob模式的字符串数组,仅有measurement名称与这个配置的参数能匹配的指标数据可以进入此插件。 |
namedrop | 名称删除 | 一个glob模式的字符串数组,能匹配上measurement的数据直接删除。 |
fieldpass | 字段通过 | 一个glob模式的字符串数组,只有能匹配上的字段才能通过 |
fielddrop | 字段删除 | 一个glob模式的字符串数组,如果匹配上了就删除这个资源。 |
tagpass | 标签通过 | 一个glob模式的字符串数组,tag能匹配上的数据才能通过 |
tagdrop | 标签删除 | 一个glob模式的字符串数组,tag能匹配上的数据会被删除 |
taginclude | 标签包含 | 一个glob模式的字符串数据,能匹配到其中一个的整条数据才能通过。 |
tagexclude | 标签不含 | tageinclude的反函数 |
配置文件与环境变量
vi /opt/module/telegraf_conf/example3.conf
[agent]
interval = "3s"
[global_tags]
user = "${USER}"
[[inputs.cpu]]
percpu = true
totalcpu = true
collect_cpu_time = false
report_active = false
core_tags = false
[[outputs.file]]
files = ["stdout"]
Telegraf默认的变量声明文件:
/etc/default/telegraf 是Telegraf的默认变量声明文件,你也可以直接在这个文件中声明变量。但优先级不如环境变量高。
vim /etc/default/telegraf
USER=HAHA
运行telegraf程序(需要重启机器)。
或者直接在命令行中生命变量:
USER=HAHA
telegtelegraf --config /opt/module/telegraf_conf/example3.conf --test
Exec插件
官方文档:telegraf/README.md at release-1.24 · influxdata/telegraf · GitHub
exec可以执行命令,并把命令执行的输出当作数据的输入。
示例:
编写一个shell:
vi /tmp/test.sh
#!/bin/sh
echo 'example,tag1=a,tag2=b i=42i,j=43i,k=44i'
编写telegraf配置文件:
vi /opt/module/telegraf_conf/example4.conf
[agent]
interval = "3s"
[[inputs.exec]]
commands = ["sh /tmp/test.sh"]
timeout = "5s"
data_format = "influx"
[[outputs.file]]
files = ["stdout"]
执行,观察结果:
telegraf --config /opt/module/telegraf_conf/example4.conf
标签:基本,Telegraf,配置文件,插件,--,telegraf,InfluxDB,conf
From: https://www.cnblogs.com/wwjj4811/p/16915673.html