首页 > 系统相关 >理解Postgres的IOPS:为什么数据即使都在内存,IOPS也非常重要

理解Postgres的IOPS:为什么数据即使都在内存,IOPS也非常重要

时间:2023-10-26 23:01:01浏览次数:51  
标签:stat Postgres IOPS pg IO shared 磁盘 内存

理解Postgres的IOPS:为什么数据即使都在内存,IOPS也非常重要

磁盘IOPS(每秒输入/输出操作数)是衡量磁盘系统性能的关键指标。代表每秒可以执行的读写操作数量。对于严重依赖于磁盘访问的PG来说,了解和优化磁盘IOPS对实现最佳性能至关重要。本文讨论IOPS相关主题:IOPS是什么、如何影响PG、如何衡量它以及需要如何调优。

1、PG的IOPS是什么

从高层次看,一个IO操作要么是读数据(“Input”)请求,要么是写数据到磁盘的请求(“Output”),通常以每秒操作数来衡量。

你可能看到WOPS(每秒写操作数)或者ROPS(每秒读操作数)。一般来说,当谈论IOPS时,我们指特定磁盘卷上的读和写操作的综合。这是由操作系统处理的低级操作,应用程序(包括PG)不比担心单个操作可以读取或写入多少数据,甚至不比担心涉及哪种磁盘。事实上,就磁盘而言,操作系统本身通常处理一个抽象 - 它看到一个附加的块设备,该块设备处理读取或写入数据的请求,并且不必担心它是如何实现的。

理解Postgres的IOPS:为什么数据即使都在内存,IOPS也非常重要_PostgreSQL

我们数据流介绍:https://www.crunchydata.com/blog/postgres-data-flow中:数据存储在内存,一些读写请求会达到磁盘。即上图中“Hardware”层,任何数据跨越该层都意味着发生磁盘操作(IOPS)。

当访问数据库时,数据库服务有两种操作选择:

1)返回PG内部cache的数据,即shared_buffers中的数据

2)如果数据不在cache,则需要让操作系统从磁盘读取

当从磁盘读取数据时,操作系统负责处理读取请求并将数据返回给请求进程。所有现代操作系统对性能的影响会更大。

2、即使数据在内存,也会使用IOPS

读写磁盘时发生Input和output。如果整个数据都在内存中,还会有IOPS吗?有几个PG操作可能会使用IO,这里列出几点包括:

1)检查点:表文件的脏页需要写到磁盘

2)写WAL日志,以及相关事务控制文件

3)备份

4)读数据到buffer cache中

5)创建或刷新物化视图

6)手动vacuum或者autovacuum:读并且可能修改数据

7)创建索引

8)查询产生临时文件

9)PG15之前版本,数据库统计操作

3、IOPS容量及突发IOPS

磁盘本身将具有,这是操作系统基本配置和硬件限制。

许多基于云的系统允许IOPS爆发,以便可以在一天中某些时间或繁重工作负载时超出基本I/O。通常,突发系统可以让您在一天或一周内累积积分,然后如果您的系统需要超出基本 I/O,您可以使用更多 I/O,直到您完成已建立的突发。

突发I/O允许根据典型使用情况而不是峰值使用情况来配置

即使您使用不具有突发使用提供一致、有保证性能的磁盘,各个云提供商上的某些实例类型也具有其他。

4、IOPS和PG

IOPS可以衡量系统的繁忙程度,但当您接近系统使用限制时,请求可能需要更长时间才能完成,甚至开始排队,这称为 I/O 等待。查询变得更慢,最终用户会遇到延迟。

I/O 限制意味着系统的性能受到 I/O 容量的限制。不同的应用程序工作负载具有不同的查询模式和性能限制,因此您的数据库可能会受到 CPU 限制或内存限制。了解哪些系统资源正在限制性能非常重要,这样当问题始终是磁盘 I/O 性能限制时,您就不会花费时间和金钱升级到具有更多

5、磁盘IO等待

判断系统是否达到IO瓶颈的一个最佳指标是观察系统的CPU指标中是否出现IO等到。IO等到时间(通常写为iowait)是在有待处理的IO请求时,CPU的空闲时间,即当前运行进程还有可用的CPU容量,但是进程正在等到磁盘请求响应。如果这种情况频繁发生,就意味着磁盘子系统无法跟上请求,因此CPU在本可以工作时却处于空闲状态。

可以使用PG插件pg_proctab从数据库内部访问 /proc 虚拟文件系统下内核公开的各种统计信息。使用pg_cputime()函数可以找到百分之一秒内的IO等待。通常,您可以从服务器上的 shell 运行命令 getconf CLK_TCK 来检查确切的resolution。要获取系统花费在 I/O 等待上的时间百分比的时间点值,您可以运行:

SELECT
    to_char (
        iowait / (idle + "user" + system + iowait)::float * 100,
        '90.99%'
    ) AS iowait_pct
FROM
pg_cputime ();

这会返回一个百分比数字,如下所示:

iowait_pct
------------
   0.07%
(1 row)

此处的数字非常小是正常的,除非系统负载很重,正在执行某种

6、track_io_timing和pg_stat_database

track_io_timing 控制服务器是否收集 I/O 性能指标。这个是PG向操作系统发出的请求,和实际磁盘IO略有不同,实际磁盘IO可能发生IO合并。track_io_timing 与 EXPLAIN 命令的 BUFFERS 选项结合使用特别有用,这样您就可以看到执行查询时在磁盘 I/O 上花费了多少时间。这对性能调优很有用。默认情况下会禁用收集,因为某些系统配置对计时调用的开销很高,这意味着收集这些数据可能会对性能产生负面影响。

开启前可以使用pg_test_timing工具来检查下开启后对性能影响,开启后IO数据会写入pg_stat_database和explain plan buffers。

以下是大量IO的示例:

EXPLAIN (ANALYZE, BUFFERS)
SELECT
    COUNT(id)
FROM
pages;

QUERY PLAN
----------------------------------------------
 Finalize Aggregate  (cost=369672.42..369672.43 rows=1 width=8) (actual time=6041.280..6044.729 rows=1 loops=1)
   Buffers: shared hit=12855 read=326149 dirtied=580
   I/O Timings: shared/local read=15953.695
   ->  Gather  (cost=369672.21..369672.42 rows=2 width=8) (actual time=6040.119..6044.696 rows=3 loops=1)
         Workers Planned: 2
         Workers Launched: 2
         Buffers: shared hit=12855 read=326149 dirtied=580
         I/O Timings: shared/local read=15953.695
         ->  Partial Aggregate  (cost=368672.21..368672.22 rows=1 width=8) (actual time=6019.362..6019.364 rows=1 loops=3)
               Buffers: shared hit=12855 read=326149 dirtied=580
               I/O Timings: shared/local read=15953.695
               ->  Parallel Seq Scan on pages  (cost=0.00..362738.57 rows=2373457 width=71) (actual time=2.644..5770.110 rows=1878348 loops=3)
                     Buffers: shared hit=12855 read=326149 dirtied=580
                     I/O Timings: shared/local read=15953.695
 Planning:
   Buffers: shared hit=30 dirtied=1
 Planning Time: 0.216 ms
 JIT:
   Functions: 11
   Options: Inlining false, Optimization false, Expressions true, Deforming true
   Timing: Generation 1.166 ms, Inlining 0.000 ms, Optimization 0.669 ms, Emission 19.474 ms, Total 21.309 ms
 Execution Time: 6067.862 ms

下面是数据从共享缓冲读取的示例:
 QUERY PLAN
--------------------------------------------------------------------------------------------
 Aggregate  (cost=746.64..746.65 rows=1 width=8) (actual time=5.224..5.225 rows=1 loops=1)
   Buffers: shared hit=508
   ->  Seq Scan on nyc_streets  (cost=0.00..698.91 rows=19091 width=11) (actual time=0.003..1.428 rows=19091 loops=1)
         Buffers: shared hit=508
 Planning:
   Buffers: shared hit=72
 Planning Time: 0.238 ms
 Execution Time: 5.308 ms
(8 rows)


track_io_timing还将开始收集多个视图的统计信息,包括pg_stat_database、pg_stat_all_tables、pg_stat_user_tables。此数据显示块读取(使用的)。数据持续更新,通常会找与块命中相比读取块非常高的用户表。

SELECT
    *
FROM
pg_statio_user_tables;
relid  |     schemaname     |                         relname                          | heap_blks_read | heap_blks_hit | idx_blks_read | idx_blks_hit | toast_blks_read | toast_blks_hit | tidx_blks_read | tidx_blks_hit
--------+--------------------+----------------------------------------------------------+----------------+---------------+---------------+--------------+-----------------+----------------+----------------+---------------
  16716 | segment_production | tracks                                                   |          50209 |       5295312 |          1380 |        67935 |               4 |            313 |              5 |           319
  16836 | segment_production | access_token_created                                     |          25354 |        489153 |            66 |        31543 |               0 |              0 |              0 |             0
  16590 | production         | access_token_created                                     |           2765 |         63595 |             2 |          318 |               0 |              0 |              0 |             0
  16626 | production         | api_key_created                                          |              4 |           136 |             2 |          318 |               0 |              0 |              0 |             0

将这些统计信息转换为字节而不是使用块单位会很有帮助,特别是当统计信息进入全堆栈分析工具时。虽然有适用于某些统计数据的可变块大小设置,但大多数个数(包括EXPLAIN BUFFERS)将基于数据库的固定页面大小 8192。

7、PG16中的pg_stat_io

包含一个名为pg_stat_io的新系统视图 ,它提供磁盘 I/O 的每个集群视图。与大多数系统视图一样,这些统计数据是累积的,记录自上次在此服务器上重置统计数据以来的所有 I/O 活动。这看起来像:

SELECT
    *
FROM
    pg_stat_io
WHERE
    reads > 0
OR writes > 0;

    backend_type    |  object  | context  | reads | read_time | writes | write_time | writebacks | writeback_time | extends | extend_time | op_bytes | hits  | evictions | reuses | fsyncs | fsync_time |          stats_reset
--------------------+----------+----------+-------+-----------+--------+------------+------------+----------------+---------+-------------+----------+-------+-----------+--------+--------+------------+-------------------------------
 autovacuum worker  | relation | normal   |    29 |         0 |      0 |          0 |          0 |              0 |      14 |           0 |     8192 | 10468 |         0 |        |      0 |          0 | 2023-09-06 14:32:36.930008-05
 autovacuum worker  | relation | vacuum   |    13 |         0 |      0 |          0 |          0 |              0 |       0 |           0 |     8192 |   379 |         0 |      0 |        |            | 2023-09-06 14:32:36.930008-05
 client backend     | relation | bulkread |   926 |         0 |      0 |          0 |          0 |              0 |         |             |     8192 |    14 |         0 |    137 |        |            | 2023-09-06 14:32:36.930008-05
 client backend     | relation | normal   |   105 |         0 |      0 |          0 |          0 |              0 |       3 |           0 |     8192 |  7110 |         0 |        |      0 |          0 | 2023-09-06 14:32:36.930008-05
 checkpointer       | relation | normal   |       |           |   1031 |          0 |          0 |              0 |         |             |     8192 |       |           |        |    320 |          0 | 2023-09-06 14:32:36.930008-05
 standalone backend | relation | normal   |   535 |         0 |   1019 |          0 |          0 |              0 |     673 |           0 |     8192 | 88526 |         0 |        |      0 |          0 | 2023-09-06 14:32:36.930008-05
 standalone backend | relation | vacuum   |    10 |         0 |      0 |          0 |          0 |              0 |       0 |           0 |     8192 |   918 |         0 |      0 |        |            | 2023-09-06 14:32:36.930008-05


请注意reads,虽然此视图中的和列中的数字writes确实对应于 PostgreSQL 发出的各个 I/O 操作,但如果您有单独的指标,这些数字可能与存储系统记录的值不匹配。操作系统甚至存储层可能会合并或拆分I/O请求,因此实际记录的数量可能会有所不同,具体取决于您查看的位置。因此,在调整或查看活动随时间的变化时,比较来自同一来源的数字非常重要。

pg_stat_io 表的另一个非常酷的事情是它将显示活动的“上下文”。因此 pg_stat_io 会将 I/O 使用情况分解为批量读取、批量写入、vacuum或正常工作活动等类别。如果您试图找出

pg_stat_io 还为自动启动者构建内部 I/O 跟踪并将其随着时间的推移存储在您自己的数据库中敞开了大门。

要重置所有服务器统计信息,请运行:SELECT pg_stat_reset();

pg_stat_statements 模块重置,运行:SELECT pg_stat_statements_reset;

原文

https://www.crunchydata.com/blog/understanding-postgres-iops


标签:stat,Postgres,IOPS,pg,IO,shared,磁盘,内存
From: https://blog.51cto.com/yanzongshuai/8043932

相关文章

  • 每天5分钟复习OpenStack(七)内存虚拟化
    标题中的存储虚拟化,涉及到两个方面,分别是内存和磁盘的虚拟化技术。内存的虚拟化就不得不提EPT和VPID技术.首先申明下本人其实不想写一些纯理论的东西,但是架不住面试经被问,为此特将一些特别复杂的技术底层都隐去,尽量将技术讲的简单,我个人信奉一句话'Ifyoucan'texplainits......
  • Android使用Profiler查看应用内存分析
    内存分析是Profiler中的一个组件,可以帮助我们识别可能会导致应用卡顿、冻结甚至崩溃的内存泄露和内存抖动。可以显示应用内存使用情况实时图表,帮助我们捕获堆转储、强制执行垃圾回收以及跟踪内存的分配情况。打开内存分析步骤:1、依次点击View→ToolWindow→Profiler2、从Profile......
  • sprintf函数内存越界
    最近在做项目的时候遇到sprintf函数内存越界的问题,现在分享给大家,希望对大家有用。首先介绍了sprintf这个函数。函数原型: intsprintf(char*str,constchar*format,...);函数功能:将数据写入到str的内存空间去,可以把任何数据格式化存放到数组中。返回实际输出到str中的......
  • 影驰HOF PRO DDR5-8000 24GB内存评测:延迟不到55ns 游戏最低帧暴涨37%
    一、前言:低延迟低电压的单条24GB内存对于高端玩家来说,现在32GB(16GBx2)内存的确有点拿不出手,而64GB内存(32GBx2)虽然容量够了,但是单条32GB不仅价格昂贵,内存的时序和频率都要做妥协,整体性能与16GB版本相差甚远。相比之下,单条24GB内存能在容量和性能之间获得一个完美的平衡,因此现在越......
  • [C语言]整数在内存中的存储
    1、......
  • 由遍历二维数组的方式引出缓存内存cpu
    对于二维数组,想要遍历的话,一行一行读和一列一列都读可以,但是大多数情况都选择一行一行,为什么呢?涉及到一个缓存的概念,一般都是cpu去计算,它会先去缓存找,如果找不到才去内存,先说缓存,一般缓存就是类似于一行一行,有个临近效应,顺便把旁边的也读了,十分方便,这就是缓存,入股一列一列,读完......
  • 内存泄漏常见情况及处理方法
    内存泄漏可以被视为你家中的水泄漏;虽然一开始小滴水可能看起来不是什么大问题,但随着时间的推移,它们可能会造成重大损失。同样,在JavaScript中,当不再需要的对象没有从内存中释放时,就会发生内存泄漏。随着时间的推移,这种累积的内存使用可以减慢甚至崩溃应用程序。定义:当不再用到的对......
  • linux中执行uefi runtime service call的内存上下文切换
    当linuxkernel从UEFI启动之后尽管bootservice退出了但是仍然可以使用runtimeservice。这就引发了一个问题:存在于uefi内存空间的code如何被kernel调用。首先找一个调用efiruntimeservice的例子:staticvoidefi_call_rts(structwork_struct*work){...switch(e......
  • linux 内存盘的使用方式与验证
    linux内存盘的使用方式与验证背景某些情况下,硬盘的写入是一个很大的瓶颈使用内存文件系统的方式应该能够极大的提高IO的速度.内存盘的优点是比较快,缺点就是数据不是持久化的.其实还是有很多可以持续优化的方式与方法的.可以最大化的磁盘的IO速度等.内存盘的多种模......
  • 五大内存分区
    c/c++:五大内存分区(笔记)_内存有那5部分_深海中的咸鱼的博客-CSDN博客java:Java5大内存区域-CSDN博客......