错误现象
日志平台使用的是Loki + Promtail
组合,这边有个服务日志量很大。当我使用Grafana
请求这个 pod 的服务日志时,grafana显示timeout
或 504 报错。
故障排查
(1)调整Grafana的超时设置
具体设置可参考Grafana从Loki查询大量日志时超时问题,我也尝试通过调整grafna --> 数据源 --> Loki中HTTP栏目中的timeout数值,但是报错依旧。
(2)更新 loki 配置
查看loki日志时,发现如下报错:rpc error: code = ResourceExhausted desc = trying to send message larger than max(4953579 vs 4194304)
。
这是因为 gRPC 或类似的 RPC 框架设置了消息大小的上限,以确保系统的稳定性和性能。
解决方法:
server:
http_listen_port: 3100
## 在loki的server配置中添加如下:
grpc_server_max_recv_msg_size: 1572864000
grpc_server_max_send_msg_size: 1572864000
这里限制的大小是1500MB
,实际限制100MB即104857600,应该就够了。
最后,重启loki。