Checkpoint

2024-10-01kedro IncrementalDataset 简单说明
IncrementalDataset实现了一种增量数据处理的能力，基于了PartitionedDataset同时包含了checkpoint确保数据处理的准确性，对于checkpoint可以配置自己的函数参考定义参考catalog定义my_partitioned_dataset:type:partitions.IncrementalDatasetpath:
2024-09-25COMP2240/COMP6240 - Operating Systems
Schoolof InformationandPhysicalSciencesCOMP2240/COMP6240-OperatingSystemsAssignment2(15%)SubmitusingCanvasby 11:59pm,Friday27th September2024Tasks:Problem 1,and2arebothCOMP2240& COMP6240 students.Problem3isonlyfor COMP6
2024-09-20Flink 中 Checkpoint 的底层原理和机制
Flink的Checkpoint机制是ApacheFlink在流式处理中的一个核心特性，保证了分布式数据流处理系统的容错性。通过定期保存状态快照（checkpoint），即使在发生故障时，Flink也可以恢复到之前的状态，确保处理的正确性。为了全面解释Flink的Checkpoint底层实现
2024-09-14checkpoint 学习分析1 —— 1. SimPoint
背景现代计算机架构研究需要理解处理器在执行应用程序时的周期级行为。这需要模拟器模型化每一个周期。但是，这样做是以牺牲速度为代价的。更糟糕的是，为了在性能、复杂性、面积、和功耗之间做权衡，benchemark需要在不同的架构配置上模拟运行。做计算机架构研究就绕不过simpoint，为了
2024-09-12Flink底层核心
1.核心组件JobManagerJobManager是Flink集群的控制中心，负责调度、管理和协调整个作业的执行。它的主要职责包括：作业提交：接收用户提交的作业，生成执行计划。任务调度：将作业划分为子任务，并分配到不同的TaskManager执行。资源管理：与集群管理系统（如YARN、Kubernetes）交
2024-09-08欺诈文本分类检测（十三）：交叉训练验证
1.引言交叉验证主要讨论的是数据集的划分问题。通常情况下，我们会采用均匀随机抽样的方式将数据集划分成3个部分——训练集、验证集和测试集，这三个集合不能有交集，常见的比例是8:1:1（如同前文我们所作的划分)。这三个数据集的用途分别是：训练集：用来训练模型，去学习模型的权重
2024-08-21MongoDB系列之WiredTiger引擎
概述关系型数据库MySQL有InnoDB存储引擎，存储引擎很大程度上决定着数据库的性能。在MongoDB早期版本中，默认使用MMapV1存储引擎，其索引就是一个B-树（也称B树）。从MongoDB3.0开始引入WiredTiger（以下简称WT）存储引擎，在性能及稳定性上都有明显的提升。从MongoDB3.2开始，WT作为默认的引
2024-08-17Stable Diffusion概念
stablediffusionmodels：是一类神经网络模型的统称，主要是使用扩散过程来生成高质量图片controlNet：automatic1111：checkpoint：一般也称model，是必须的主模型，文件体积GB级别，文件后缀通常是ckpt或者safetensorslora：是一种stablediffusionmodel，是通过保存的少量的训练参数来微调
2024-08-11PostgreSQL的WAL日志详解
PostgreSQL的WAL日志详解1.WAL日志介绍1.1WAL介绍wal日志即writeaheadlog预写式日志，简称wal日志。wal日志可以说是PostgreSQL中十分重要的部分，相当于oracle中的redo日志。当数据库中数据发生变更时：change发生时：先要将变更后内容计入walbuffer中，再将变更后的数据写入data
2024-08-06Flink实战(10)-checkpoint容错保证
0前言程序在Flink集群运行，某个算子因为某些原因出现故障，如何处理在故障恢复后，如何保证数据状态，和故障发生之前的数据状态一致?1什么是checkpoint(检查点)?Checkpoint能生成快照(Snapshot)。若Flink程序崩溃，重新运行程序时可以有选择地从这些快照进行恢复。Checkpoin
2024-07-06摸鱼大数据——Spark Core——缓存和checkpoint
1、RDD的缓存当RDD被重复使用，或者计算该RDD比较容易出错，而且需要消耗比较多的资源和时间的时候，我们就可以将该RDD缓存起来。主要作用:提升Spark程序的计算效率注意事项:RDD的缓存可以存储在内存或者是磁盘上，甚至可以存储在Executor进程的堆外内存中。主要是放在内存
2024-07-06用StabilityMatrix一键安装Stable Diffusion
StableDiffusion是2022年发布的深度学习文字到图像生成模型，它既能免费使用，又能部署在本地端，又有非常多的模型可以直接套用，在使用体验上比Midjourney和DALL-E更加强大。StableDiffusion使用的模型有下列几大类，对照模型网站https://civitai.com以形成更直观的认识：BaseModel：Sta
2024-07-03从0到1Flink的成长之路(二十)-Flink 高级特性（二）之自动重启策略和恢复，固定延迟重启策略（开发中使用）
从0到1Flink的成长之路(二十)-Flink高级特性（二）之自动重启策略和恢复，，固定延迟重启策略（开发中使用）自动重启策略和恢复1）、重启策略配置方式配置文件在flink-conf.yml中可以进行配置，示例如下:restart-strategy:fixed-delayrestart-strategy.fixed-delay.attempts:3restart-strat
2024-07-02大数据面试题之Flink(1)
目录Flink架构 Flink的窗口了解哪些，都有什么区别，有哪几种?如何定义? Flink窗口函数，时间语义相关的问题介绍下Flink的watermark(水位线)，watermark需要实现哪个实现类，在何处定义?有什么作用? Flink的窗口(实现)机制说下Flink的CEP 说一说Flink的Checkpoint机制
2024-07-02大数据面试题之Flink(2)
Flink中Checkpoint超时原因 Flink的ExactlyOnce语义怎么保证? Flink的端到端ExactlyOnce Flink的水印(Watermark)，有哪几种? Flink的时间语义 Flink相比于其它流式处理框架的优点? Flink和Spark的区别?什么情况下使用Flink?有什么优点? FlinkbackPressure反压机
2024-07-02大数据面试题之Flink(3)
如何确定Flink任务的合理并行度? Flink任务如何实现端到端一致? Flink如何处理背(反)压? Flink解决数据延迟的问题 Flink消费kafka分区的数据时flink件务并行度之间的关系使用flink-client消费kafka数据还是使用flink-connector消费如何动态修改Flink的配置，前提
2024-06-24[本科项目实训] Hugging Face Transformers 模型部署与微调
TransformersHuggingFaceTransformer提供了模型的加载、推理、微调接口，使用该库可以轻松完成自然语言模型的部署微调工作，其有继承自AutoClass的四个最为常见的接口，且调用方式均为AutoClass.from_pretrain("model_name")：AutoTokenizer:用于文本分词AutoFeatureExtractor:用
2024-06-23大模型基本概念学习 - Checkpoint、PyTorch、 TensorFlow、Transformers、ModelScope
文章目录前言一、checkpoint二、TensorFlow1.简介2.主要特点3.示例代码三、PyTorch1.简介2.主要特点3.示例代码四、TensorFlow和PyTorch区别五、Transformers六、Transformers通过配置或自动检测来决定使用PyTorch或TensorFlow1.自动检测2.通过环境变量配
2024-06-20Flink状态(二)
Flink提供了不同的状态存储方式，并说明了状态如何存和存储在哪里。状态可以被存储在Jvm的堆和堆外。根据状态存储方式的不同，Flink也能代替应用管理状态，意思是Flink能够进行内存管理(有必要的时候,可能会溢出到硬盘),允许应用保存非常大的状态。默认情况下，在配置文件flink-conf.yam
2024-06-15gbase8s数据库阻塞检查点和非阻塞检查点的执行机制
1.检查点的描述为了便于数据库系统的复原和逻辑恢复，数据库服务器生成的一致性标志点，称为检查点，其是建立在数据库系统的已知和一致状态时日志中的某个时间点检查点的目的在于定期将逻辑日志中的重新启动点向前移动如果存在检查点，数据库只需要完成检查点之后的逻辑日志的恢复
2024-06-15【SPARK-CORE】checkpoint机制
本文主要介绍SPARKRDD的checkpoinnt机制 checkpoint机制介绍checkpoint是讲RDD保存到可靠的存储中的机制，主要目的是提高应用的容错能力和持久性。Checkpointing将数据从内存中转移到磁盘存储，使得在出现节点故障时，Spark可以从存储中恢复数据，而不需要重新计算所有的数据。这
2024-06-13实操教程｜PyTorch实现断点继续训练
作者丨HUST小菜鸡（已授权）编辑丨极市平台最近在尝试用CIFAR10训练分类问题的时候，由于数据集体量比较大，训练的过程中时间比较长，有时候想给停下来，但是停下来了之后就得重新训练，之前师兄让我们学习断点继续训练及继续训练的时候注意epoch的改变等，今天上午给大致整理了一下，不全面
2024-06-06使用CRaC为JVM创建checkpoint
CRaCCoordinatedRestoreatCheckpoint，缩写为CRaC，大致的原理是将JVM的当前运行状态进行持久化存储起来，再条件JDK版本:17及以上，建议17或21OpenJDK发行版，目前支持CRaC的JDK有两家：ZuluJDK:发行商为Azul，下载地址：https://www.azul.com/downloads/?version=java-17-lts&os=c
2024-06-03flink状态和容错
flink状态与容错容错:在服务器出现问题的情况下，还可以保证数据不丢失(在出错误的情况下，还能保证一个数据只被处理一次)checkpoint为了保证flink的容错，需要为状态添加checkpoint(检查点)。checkpoint使得flink能够恢复状态和在流中的位置，从而向应用提供和无故障执行时一样的语义
2024-05-31postgressql——事务提交会通过delayChkpt阻塞checkpoint（9）
事务提交会通过delayChkpt阻塞checkpointPostgresql事务在事务提交时（执行commit的最后阶段）会通过加锁阻塞checkpoint的执行，尽管时间非常短，分析为什么需要这样做：首先看提交堆栈#10x0000000000539175inCommitTransaction()atxact.c:2079#20x0000000000539e04in