标签：osd ceph 集群 PG node1 维护 root OSD

一、通过sock文件单机管理(很少用)

root@node1:~# ceph --admin-socket /var/run/ceph/ceph-osd.0.asok status
root@node1:~# ceph --admin-socket /var/run/ceph/ceph-osd.0.asok --help
root@node1:~# ceph --admin-daemon /var/run/ceph/ceph-mon.node1.asok config show
root@node1:~#  ceph --admin-daemon /var/run/ceph/ceph-mon.node1.asok help

二、ceph集群的停止或重启

重启之前，要提前设置ceph集群不要将osd标记为out，避免node节点关闭服务后被踢出出ceph集群。

root@node1:~# ceph osd set noout
root@node1:~# ceph osd unset noout

停止顺序： 关闭服务前设置noout 关闭存储客户端停止读写数据如果使用了RGW，关闭RGW 关闭cephfs元数据服务关闭ceph OSD 关闭ceph manager 关闭ceph monitor 启动顺序： 启动ceph monitor 启动ceph manager 启动ceph OSD 启动cephfs MDS 启动RGW 启动存储客户端启动服务后取消noout

三、添加osd

同部署时添加osd

root@node3:~# ceph-volume lvm create --data /dev/nvme0n2
root@node3:~# systemctl status ceph-osd@3

四、下线osd服务器

#把osd踢出集群

root@node1:~# ceph osd out 2  #剔除2这个osd
root@node1:~# ceph osd in 2

# 等待一段时间后 # 停止osd.2这个进程

root@node3:~# systemctl stop ceph-osd@2

# 删除osd

root@node1:~# ceph osd rm 2

## 把进程启动起来后自动加入 # 剔除需下线主机的其他osd # 下线主机

五、存储池、PG与CRUSH

副本池：relicated，定义每个对象在集群中保存为多少个副本，默认为三个副本，一主两备，实现高可用，副本池是ceph默认的存储池类型。纠删码池：用的不多。 副本池IO 将一个数据对象存储为多个副本。在客户端写入操作时，ceph使用crush算法计算出与对象响应的PG id和primary OSD，主osd根据设置的副本数、对象名称、存储池名称和集群运行图计算出PG的各辅助OSD，然后由主OSD将数据同步给辅助OSD。读取数据：1、客户端发送读请求，RADOS将请求发送到主OSD；2、主OSD从本地磁盘读取数据并返回数据，最终完成读请求。写入数据：1、客户端请求写入数据，RADOS发送数据到主OSD；2、主OSD识别副本OSDs，并发送数据到各副本OSD；3、副本OSDs写入数据，并发送写入完成信号成主OSD；4、主OSD发送写入完成信号给客户端。 PG和PGP PG（Placement Group）：归置组。PG的数量是2的N次方的倍数，官方建议每个OSD的PG不要超过250个，建议100个。把数据拆分到多少份，比如5G数据，两个pg，则每个pg 2.5G数据，存3副本，当该pg对应的osd之一挂了，副本同步就需要同步2.5G数据。单个PG的计算，假如集群共100个osd，3副本，20个pool，则每个pool的PG=100*100/3/20。 PGP（Placement Group for placement purpose）：归置组的组合，pgp相当于pg对应osd的一种排列组合关系。官方建议，pg和pgp数量一致。相对于存储池pool来说，PG是虚拟的，它是对象映射到存储池时使用的虚拟层。可以自定义存储池中的归置组数量. ceph 出于规模伸缩及性能方面的考虑，ceph将存储池细分为多个归置组，把海个单独的对象映射到归置组，并为归置组分配一个主OSD。存储池由一系列的归置组组成，而CRUSH算法则根据集群运行图和集群状态，将个PG均匀、伪随机(基于hash 映射每次的计算结果够样的分布到集群中的OSD之上。如果某个OSD失败或需要对集群进行重新平衡，ceph则移动或复制整个归置组而不需要单独对每个镜像进行寻址。 PG的常见状态：Peering，Activating，Clean，Active，Degraded，Stale过期状态，undersized等等 依据PG当前的工作特性或工作进程所处的阶段，它总是处于某个或某些个状态中，最为常见的状态应该为：“active+clean”，还有一个Peering状态； Active：主OSD和各辅助OSD均处于就绪状态，可正常服务于客户端的IO请求；一般，Peering 操作过程完成后即会转入Active 状态； Clean：主OSD和各辅助OSD均处于就绪状态，所有对象的副本数均符合期望，并且PG的活动集和上行集是为同一组OSD；活动集（Acting Set）:由PG当前的主OSD和所有的处于活动状态的辅助OSD组成，这组OSD负责执行此PG上数据对象的存取操作IO；上行集（UP Set）：根据CRUSH的工作方式，集群拓扑架构的变动将可能导致PG相应的OSD变动或扩展至其它的OSD之上，这个新的OSD集也称为PG的上行集，其映射到新的OSD集可能部分与原有OSD集重合，也可能会完全不相干；上行集OSD需要从当前的活动集OSD上复制数据对象，在所有对象同步完成后，上行集便成为新的活动集，而PG也将转为Active状态； Peering：一个PG中的所有OSD必须就它们持有的数据对象状态达成一致，而对等（Peering）即为让其OSD从不一致转为一致的过程，数据复制的中间过程，即对等状态； Degraded：降级状态，在某OSD标记为down时，所有映射到些OSD的PG即转入降级状态，在此OSD重新启动并完成Peering操作后，PG将重新转回Clean状态，一旦OSD标记为Down状态时间超过5分钟，它将被标记出集群，而后Ceph将对降级状态的PG启动恢复操作，直到所有因此而降级的PG重回clean状态；在其内部OSD上某对象不可用或悄然崩溃时，PG也会被标记为降级状态，直到对象从某个权威副本上正确恢复； Stale：每个主OSD都要周期性的向RADOS集群中的监视器报告其作为主OSD所持有的所有PG的最新统计数据，因任何原因导致某个主OSD无法正常向监视器发送此类报告，或者由其它OSD 报告某个OSD已经down掉，则所有以此OSD为主OSD的PG将立即被标记为state状态；处于此状态的话，会重新选举主OSD； Undersized：PG中的副本数少于其存储池定义的个数时，即转入Undersized状态，恢复和回填操作在随后会启动以修复其副本数为期望值； Scrubbing 状态：各OSD还需要周期性地检查其所持有的数据对象的完整性，以确保所有对等OSD上的数据一致，处于此类检查过程中的PG便会被标记为Scrubbing状态，这也通常被称为light scrubs（经量一直性检测）、shallow scrubs或者 simply scrubs；另外，PG还偶尔需要进行deep scrubs（深度一直性检测，按位进行匹配）检查以确保同一对象在相关的各OSD上能按位匹配，此时PG将处于Scrubbing+deep状态； Recovering：添加一个新的OSD至存储集群中或者OSD宕掉时，PG则有可能会被CRUSH重新映射，进而将持有与此不同的OSD集，而这些处于内部数据同步过程中的PG则被标记为Recovering状态； Backfilling 状态：新OSD加入存储集群后，Ceph则会进入数据重新均衡的状态，即一些数据对象会在进程后台从现有OSD移动到新的OSD之上，此操作过程即为backfill状态，回填操作；

六、ceph存储池操作

创建查看pool root@node1:~# ceph osd pool create mypool root@node1:~# ceph osd lspools root@node1:~# ceph osd pool ls root@node1:~# ceph osd pool ls detail root@node1:~# ceph df 删除pool

root@node1:~# ceph osd pool get  mypool nodelete  #存储池默认配置为可以删除
nodelete: false

mon默认是不允许删除pool的，如需删除，需修改配置，删完一定记得配置改回去。

root@node1:/var/log/ceph# vim /etc/ceph/ceph.conf  
[mon]
mon allow pool delete = true
#重启ceph-mon
root@node1:~# systemctl restart ceph-mon@node1 
或
root@node1:~# ceph tell mon.node1 injectargs --mon_allow_pool_delete=true
{}
mon_allow_pool_delete = 'true'
root@node1:/var/log/ceph# ceph osd pool rm myrbd myrbd --yes-i-really-really-mean-it
pool 'myrbd' removed

存储池配额，默认不限制

root@node1:~# ceph osd pool get-quota mypool
quotas for pool 'mypool':
  max objects: N/A
  max bytes  : N/A
root@node1:~# ceph osd pool set-quota mypool max_bytes 10485760

存储池可用参数

root@node1:~# ceph osd pool -h
root@node1:~# ceph osd pool get mypool size  #副本数
root@node1:~# ceph osd pool set  mypool size   4 #副本数
root@node1:~# ceph osd pool get mypool min_size #提供服务所需要的最小副本数
root@node1:~# ceph osd pool get mypool pg_num
root@node1:~# ceph osd pool get mypool noscrub
noscrub: false

noscrub和nodeep-scrub：控制是否不进行轻量扫描或是否深层扫描存储池

七、Cephx认证机制

Ceph使用cephx协议对客户端进行身份认证 cephx用于对ceph保存的数据进行认证访问和授权，用于对访问ceph的请求进行认证和授权检测，与mon通信的请求都要经过ceph认证通过，但是也可以在mon节点关闭cephx认证，但是关闭认证之后任何访问都将被允许，因此无法保证数据的安全性。 授权流程: 每个mon 节点都可以对客户端进行身份认证并分发秘钥、因此多个mon节点就不存在单点故障和认证性能瓶颈。 mon节点会返回用于身份认证的数据结构，其中包含获取ceph服务时用到的session key，session key通过客户端秘钥进行加密，秘钥是在客户端提前配置好的 /etc/ceph/ceph.client.admin.keyring 客户端使用session key向mon请求所需要的服务，mon向客户端提供一个ticket，用于向实际处理数据的OSD等服务验证客户端身份，MON和OSD共享同一个secret，因此OSD会信任所有MON发放的ticket。 ticket存在有效期。注意：Cephx身份验证功能仅限制在ceph的各组件之间，不能扩展到其他非ceph组件。ceph只负责认证授权，不能解决数据传输的加密问题。

ceph用户管理 通常点号来分割用户类型和用户名，格式为TYPE.ID，可管理的用户都是client类型。 ceph基于使能/能力(Capabilities, 简称caps)来描述用户可针对MON/OSD或MDS使用的授权范围或级别，通用的语法格式:daemon-type 'allow caps'] r：向用户授予读取权限，访问监视器(mon)以检索CRUSH运行图时需具有此能力。 w：向用户授予对象的写入权限。 x：授予用户调用类法(包括读取和写入)的能力以及在监视器中执行auth操作的能力。 *：用户对特定守护进程/存储池的读取、写入和执行权限，以执行管理命令的能力。

root@node1:~# ceph auth list    
root@node1:~# ceph auth get client.admin
root@node1:~# ceph auth --help
root@node1:~# ceph auth add client.test01 mon 'allow r' osd 'allow rwx pool=mypool'     
root@node1:~# ceph auth get client.test01
root@node1:~# ceph auth get-or-create client.test01 mon 'allow r' osd 'allow rwx pool=mypool'
root@node1:~# ceph auth print_key client.test01
root@node1:~# ceph auth caps client.test01 mon 'allow rx' osd 'allow rwx pool=mypool' #修改权限
root@node1:~# ceph auth rm client.test01

秘钥环管理 #导出用户认证信息到keyring文件

root@node1:~# ceph auth get client.test01 -o /etc/ceph/ceph.client.test01.keyring

#从keyring文件恢复用户认证信息

root@node1:~# ceph auth import -i /etc/ceph/ceph.client.test01.keyring

八、rbd使用

rbd镜像回收站机制

rbd镜像删除无法恢复，但可以先移动到回收站，后期再从回收站删除镜像。
root@node1:~# rbd status --pool myrbd disk01
root@node3:~# rbd --pool myrbd unmap disk01
root@node1:~# rbd help trash
root@node1:~# rbd trash move --pool myrbd disk01
root@node1:~# rbd trash ls --pool myrbd
root@node1:~# rbd trash restore --pool myrbd 1e7254a5b2505
root@node1:~# rbd ls myrbd

rbd镜像快照

root@node1:~# rbd help snap create
root@node1:~# rbd snap list --pool myrbd disk01
root@node1:~# rbd help snap rollback

九、cephfs mds的高可用

支持多个主mds同时工作，即不同的主mds负责不同的元数据；同时支持主拥有备服务器，即主挂后备服接管主继续提供服务，如果没有备服务器，则会在剩余的主服务器间重新分配管理的元数据。 Ceph mds(etadata service)作为ceph的访问入口，需要实现高性能及数据备份，假设启动4个MDS进程，设置2个Rank，这时候有2个MDS进程会分配给两个Rank，还剩2个MDS进程分别作为另外两个的备份。

root@node1:~# ceph mds stat
root@node1:~# ceph fs status
root@node1:~# ceph auth get-or-create mds.node3 osd "allow rwx" mds "allow" mon "allow profile mds"
root@node1:~# ceph auth get mds.node3 -o /etc/ceph/ceph.mds.node3.keyring
root@node1:~# scp /etc/ceph/ceph.mds.node3.keyring  node3:/var/lib/ceph/mds/ceph-node3/keyring
root@node3:~# apt install -y ceph-mds
root@node3:~# systemctl start ceph-mds@node3
root@node3:~# systemctl enable ceph-mds@node3
root@node3:~# systemctl status ceph-mds@node3

root@node1:~# ceph fs set cephfs max_mds 2  #cephfs为name，设置处于激活状态的mds数量
root@node1:~# ceph fs status cephfs

设置每个Rank的备份MDS，也就是如果此Rank当前的MDS出现同题马上切换到另一个MDS。设置备份的方法有很多，常用选项如下： mds_standby_replay:值为true或false， true表示开启replay模式，这种模式下主MDS内的数量将实时与从MDS同步，如果主宕机，从可以快速的切换。如果为 false，只有宕机的时候才去同步数据，这样会有一段时间的中断。 mds standby_ for name:设置当前MDS进程只用于备份于指定名称的MDS。 mds_standby_for_rank: 设置当前MDS进程只用于备份于哪个Rank，通常为Rank编号。另外在存在多个CephFS文件系统中，还可以使用mds standby for_fscid参数来为指定不同的文件系统。 mds_ standby_for_fscid:指定 CephFS文件系统ID.需要联合mds standby_for_rank生效，如果设置mds standby for _rank.那么就是用于指定文件系统的指定Rank，如果没有设置，就是指定文件系统的所有Rank。

十、对象存储网关RadosGw

启动RGW 做好RGW的高可用：再部署一个rgw，然后使用负载均衡器等实现高可用。创建bucket 创建用户并授权监控

root@node1:~# radosgw-admin zone get --rgw-zone=default #查看zone
配置文件修改：
root@node1:~# vim /etc/ceph/ceph.conf
[client.rgw.node1]  #指定节点
host = node1
rgw frontends = "beast port=80"  
rgw dns name = node1

对象存储可用测试工具：s3cmd

十一、ceph监控

通过prometheus 监控ceph 服务： Ceph manager内部的模块中包含了 prometheus 的监控模块并监听在每个manager节点的9283端口，该端口用于将采集到的信息通过http接口prometheus提供数据。 https://docs.ceph.com/en/mimic/mgr/prometheus 启用prometheus监控模块:

root@node1:~# ceph mgr module enable prometheus
root@node1:~# ceph mgr module ls | grep prometheus
root@node1:~# ss -autpl | grep 9283

在Prometheus配置中添加采集的配置http://192.168.42.140:9283/即可。

标签：osd,ceph,集群,PG,node1,维护,root,OSD
From： https://www.cnblogs.com/cmxu/p/17978616

3、ceph集群的管理和维护