首页 > 系统相关 >索引构建磁盘IO太高,巧用tmpfs让内存来帮忙

索引构建磁盘IO太高,巧用tmpfs让内存来帮忙

时间:2024-02-06 12:22:58浏览次数:51  
标签:-- mnt IO emptyDir 磁盘 spark tmpfs 巧用

在文本索引构建这种需要大量占用磁盘IO的任务,如果正巧你的内存还有点余粮,是否可以先索引存储到内存,然后再顺序写入到磁盘呢?,需要大量占用磁盘IO,如果正巧你的内存还有点余粮,是否可以先索引存储到内存,然后再顺序写入到磁盘呢?

将Linux的内存变为磁盘,可以通过tmpfs文件系统实现。

tmpfs介绍

以下是ChatGPT的介绍:

tmpfs文件系统是Linux内核自带的一种内存文件系统,它可以将内存空间作为虚拟磁盘使用。使用tmpfs文件系统将内存变为磁盘,可以通过以下步骤实现:

创建一个tmpfs文件系统:

sudo mkfs.tmpfs -m 100M -o size=100M /dev/shm/mydisk  

这条命令将在/dev/shm/mydisk设备上创建一个大小为100MB的tmpfs文件系统。

挂载tmpfs文件系统:

sudo mount -t tmpfs /dev/shm/mydisk /mnt/mydisk  

这条命令将/dev/shm/mydisk设备上的tmpfs文件系统挂载到/mnt/mydisk目录。

此时,/mnt/mydisk目录就可以像普通磁盘一样使用了。可以将文件写入到该目录,也可以从该目录读取文件。

docker使用tmpfs

在docker容器环境如何使用呢?是否需要在container里去挂载?

其实在docker里,tmpfs是默认支持的,可以通过 在启动命令里,加上类似--mount type=tmpfs,destination=/mnt/tmpfs,tmpfs-mode=1770,tmpfs-size=12G来实现挂载。

注意tmpfs挂载的,是container容器独享的,不能和其他容器共享,有效期就是容器的生命周期。

我们来实验:

[root@dev ~]#docker run -it --rm --mount type=tmpfs,destination=/mnt/tmpfs,tmpfs-mode=1770,tmpfs-size=12G gcc:12 bash
root@87b86fe9a4d0:/# df -h 
Filesystem      Size  Used Avail Use% Mounted on
overlay         182G  160G   13G  93% /
tmpfs            64M     0   64M   0% /dev
tmpfs            63G     0   63G   0% /sys/fs/cgroup
shm              64M     0   64M   0% /dev/shm
/dev/sda2       182G  160G   13G  93% /etc/hosts
tmpfs            12G     0   12G   0% /mnt/tmpfs
tmpfs            63G     0   63G   0% /proc/acpi
tmpfs            63G     0   63G   0% /proc/scsi
tmpfs            63G     0   63G   0% /sys/firmware
  • 首先通过docker run 挂载,制定大小12G
  • 在容器里,通过df -h 可以看到挂载的/mnt/tmpfs 类型为tmpfs,大小12G

K8S 使用tmpfs

在K8S里,tmpfs对应的是 emptyDir Volume,将emptyDir.medium 指定为Memory,可以让 Kubernetes 挂载 tmpfs(基于 RAM 的文件系统)。

emptyDir 的一些用途:

  • 缓存空间,例如基于磁盘的归并排序。
  • 为耗时较长的计算任务提供检查点,以便任务能方便地从崩溃前状态恢复执行。
  • 在 Web 服务器容器服务数据时,保存内容管理器容器获取的文件。

emptyDir 配置示例

apiVersion: v1
kind: Pod
metadata:
  name: test-pd
spec:
  containers:
  - image: registry.k8s.io/test-webserver
    name: test-container
    volumeMounts:
    - mountPath: /cache
      name: cache-volume
  volumes:
  - name: cache-volume
    emptyDir:
      sizeLimit: 500Mi
      medium: Memory

Spark on k8s

对于运行在K8S上的spark,也可以通过volumes参数来指定使用tmpfs。

spark提供下面几种类型的volume

  • hostPath: mounts a file or directory from the host node’s filesystem into a pod.
  • emptyDir: an initially empty volume created when a pod is assigned to a node.
  • nfs: mounts an existing NFS(Network File System) into a pod.
  • persistentVolumeClaim: mounts a PersistentVolume into a pod.

可以通过下面的参数来配置Volume:

--conf spark.kubernetes.driver.volumes.[VolumeType].[VolumeName].mount.path=<mount path>
--conf spark.kubernetes.driver.volumes.[VolumeType].[VolumeName].mount.readOnly=<true|false>
--conf spark.kubernetes.driver.volumes.[VolumeType].[VolumeName].mount.subPath=<mount subPath>

对于VolumeType的配置,可以通过下面的形式来做:

spark.kubernetes.driver.volumes.[VolumeType].[VolumeName].options.[OptionName]=<value>

因此,spark on k8s支持tmpfs, 假设VolumeNamespark-empty-dir, 挂载路径/mnt/cache-index, 大小限制12G,那么提供任务时可以指定参数:

--conf spark.kubernetes.executor.volumes.emptyDir.spark-empty-dir.mount.path=/mnt/cache-index
--conf spark.kubernetes.executor.volumes.emptyDir.spark-empty-dir.options.medium=Memory
--conf spark.kubernetes.executor.volumes.emptyDir.spark-empty-dir.options.sizeLimit=12G

优化后,文本索引构建时IO占用:

标签:--,mnt,IO,emptyDir,磁盘,spark,tmpfs,巧用
From: https://www.cnblogs.com/xiaoqi/p/18009519/tmpfs

相关文章

  • Solution - Hangar Hurdles
    Link。感谢苏泊尔的题解,一点补充。首先呢,可以处理出中心在每个格子\((x,y)\)上的最大边长\(d_{x,y}\)。这个用一下二维前缀和统计#的个数再简单二分一下就好了,注意不能出界。然后呢我们只能上下左右移动,考虑转化成一个图论问题(?)。所以就直接相邻的格子连边就好了,因为是双......
  • 打包 iOS 的 IPA 文件
    摘要本篇博客将为您介绍如何打包iOS的IPA文件。从APP提交、创建应用程序、设置应用程序标识和证书、配置构建设置到构建应用程序、导出IPA,以及签名和导出等方面进行详细讲解。此外,我们还将介绍一些实用的代码案例,帮助您更好地理解和操作。引言打包iOS的IPA文件是发布应用程序的......
  • org.springframework.beans.factory.NoSuchBeanDefinitionException: No bean named '
    开发遇到一个问题:org.springframework.beans.factory.NoSuchBeanDefinitionException:Nobeannamed'ckhSynCardNumToMbhkJob'available这个报错可能是因为:1.spring的xml配置文件Bean中的id和getBean的id不一致2.是否是忘记加注解了,3.启动类包扫描路径是否正确经过测试发......
  • Nginx错误 open() "/usr/local/nginx/proxy_temp/x/xx/xxxxxxxx" failed (13: Permiss
    问题:设置client_max_body不起作用(notwroking)发现:nginxerror.log中有 open()"/usr/local/nginx/proxy_temp/x/xx/xxxxxxxx"failed(13:Permissiondenied)whilereadingupstream解决办法:首先查看psaux|grep"nginx:workerprocess"当前nginx的用户是谁:如nginx......
  • 【译】VisualStudio 17.9预览3带来了令人兴奋的代码搜索改变
    随着VisualStudio17.9预览版3的发布,我们为代码搜索(也称为All-In-OneSearch)带来了一些令人兴奋的增强。自从我们上次更新搜索体验以来,我们一直在努力改进体验,并想出增加体验的方法。现在,您可以在解决方案中搜索任何单词或字符串,补充来自代码库的文件和符号结果。现在可以......
  • Solution - Holes
    Link。暴力做是\(O(nm)\)的。怎么优化呢?I'venoslightestidea......
  • dremio cloud cache 简单说明
    dremiocloudcache实际上就是对于云文件系统的cache加速(比如hdfs,s3。。。),在处理的时候使用了ce包装的包,详细源码并没有开源我们可以通过一些代码整体看下实现参考处理dremio-ce-services-cachemanager中的处理cecaache管理配置dremio:{classpath.scan......
  • C++编程练习||实现分数类Fraction1、实现分数的+,-,*,/ 2、逻辑运算==、!=、<、<=、>、>
    题目:实现分数类Fraction  classFraction{   intnumerator,denominator;   public:   ....  };  要求:1、实现分数的+,-,*,/2、逻辑运算==、!=、<、<=、>、>=6种运输符号。3、实现输出<<,输入 >>操作符重载。  样例1输入:   12 ......
  • Android Studio 中使用uiautomatorviewer插件
    在Android设备中,各种的组件如何分布以及控件的具体信息如何查看呢。在AndroidStudio中有一个可以查看的插件,本篇文章就介绍这个插件的使用- uiautomatorviewer.bat1.综述  AndroidStudio是Google官方提供的一款用于开发Android应用程序的集成开发环境(IDE),它基于IntelliJIDEA......
  • Java NIO
    NIO简介在传统的JavaI/O模型(BIO)中,I/O操作是以阻塞的方式进行的。也就是说,当一个线程执行一个I/O操作时,它会被阻塞直到操作完成。这种阻塞模型在处理多个并发连接时可能会导致性能瓶颈,因为需要为每个连接创建一个线程,而线程的创建和切换都是有开销的。为了解决这个问题,在......