DAG
  • 2024-07-03DAG上的DP
    DAG是有向无环图而DAG的dp主要是利用一些问题的二元关系构造DAG图建模,转化成在图上求最长/短路的问题https://www.luogu.com.cn/problem/UVA437Code点击查看代码#include<bits/stdc++.h>usingnamespacestd;//typedeflonglongll;#defineintlonglongtypedefuns
  • 2024-07-03有向无环图DAG
     有向无环图(DirectedAcyclicGraphs),简称为DAG.  用于SAT相关文献——查询DirectedAcyclicGraphsSAT结果Neng-FaZhou, RuiweiWang, RolandH.C.Yap:AComparisonof SAT Encodingsfor Acyclicityof Directed Graphs. SAT 2023: 30:1-30:9
  • 2024-07-01大数据面试题之Spark(6)
              Spark输出文件的个数,如何合并小文件?Spark的driver是怎么驱动作业流程的?SparkSQL的劣势?介绍下SparkStreaming和StructedStreamingSpark为什么比Hadoop速度快?DAG划分Spark源码实现?SparkStreaming的双流join的过程,怎么做的?Spark的Bl
  • 2024-06-21海豚调度调优 | 正在运行的工作流(DAG)如何重新拉起失败的任务(Task)
  • 2024-06-15Spark 面试题(九)
    1.简述Spark的DAG以及它的生成过程?在Spark中,DAG(有向无环图)是描述作业中所有RDD转换操作依赖关系的图。DAG的生成过程是Spark作业调度的关键步骤之一。以下是对SparkDAG的简述以及它的生成过程:DAG的概念节点:DAG中的每个节点代表一个RDD。边:边表示RDD之间的依赖关系,可以
  • 2024-06-12CSCI-UA.0480-051: Parallel Computing
    CSCI-UA.0480-051:ParallelComputingFinalExam(May 15th,2023)Total:100 pointsProblem 1Supposewehavethe followingtwo DAGs. Each DAG represents a process. That is, DAG 1 is a process and DAG 2 is another process. The two DAG
  • 2024-05-23CVE-2020-11978
    ApacheAirflow示例dag中的命令注入(CVE-2020-11978)ApacheAirflow是一款开源的,分布式任务调度框架。在其1.10.10版本及以前的示例DAG中存在一处命令注入漏洞,未授权的访问者可以通过这个漏洞在Worker中执行任意命令。漏洞复现cdvulhub/airflow/CVE-2020-11978#初始化数据库d
  • 2024-05-06通过API触发airflow的DAG任务
    背景以前编写的DAG都是通过定时触发的,当前有一个场景需要通过手动提交API来触发,这样能够在用户需要的时候,主动触发执行任务,于是就有了这篇内容的摸索。之前只知道airflow支持通过API来触发任务,但是具体如何操作是真不会,看了官方的API文档,也没找到具体方法,特别是认证这块一直没解
  • 2024-05-05AtCoder Grand Contest 001
    D.ArraysandPalindrome如果两个字符要求相同就给它们连边,对于一个长度为\(x\)的回文串,\(x\)是偶数会连\(x/2\)条边,奇数会连\(x/2-0.5\)条边。\(a\)和\(b\)两个序列总和为\(2n\),要让\(n\)个字符相同至少连\(n-1\)条边,也就是奇数个数超过\(2\)时一定无解
  • 2024-04-28保序回归问题小记
    问题有\(n\)个点,给出一张DAG。你需要给每个点设立权值\(w_{1...n}\),满足对于每条边\((u,v)\)都有\(w_u\lew_v\),求\(\min\{\sum\limits_{i=1}^nb_i|w_i-a_i|^p\}\),其中\(a_i,b_i,p\)是给出的。整体二分考虑二分\(mid\),把DAG划分为权值\(\lemid\)和\(>mid\)
  • 2024-04-25笔记:拓扑排序
    定义拓扑排序(Topologicalsorting),是对一个DAG排序的算法。对于排序后的序列\(s\),设\(t_i\)是节点\(i\)在\(s\)中的位置,那么该DAG上的每条边\(u\tov\),\(t_u<t_v\)。换句话说,就是每条边\(u\tov\),\(u\)不能在\(v\)的后面。模板link。考虑两种算法,分别基于广
  • 2024-04-24Airflow
    ApacheAirflowhttps://airflow.apache.org/ Airflow™isaplatformcreatedbythecommunitytoprogrammaticallyauthor,scheduleandmonitorworkflows. fromdatetimeimportdatetimefromairflowimportDAGfromairflow.decoratorsimporttaskfromairflow.
  • 2024-04-10CF1466H 做题记录
    link非常adhoc的题,但是值得一练的好题!一眼下去,我们会发现这个条件真的太过于抽象,根本无法想象。注意到题目给了我们一个关键信息:一个排列组\(\{b_1,b_2,...,b_n\}\)对应唯一的好的分配方案。考虑建立图论模型:每个人的编号向最喜欢的物品编号连边,形成一棵内向基环树森林。
  • 2024-04-08Airflow 搭建
    安装采用pip安装#下面的安装方式是通过pip采用清华源来安装,一般安装的版本比较低pipinstallapache-airflow-ihttps://pypi.tuna.tsinghua.edu.cn/simple采用anaconda安装--推荐anacoand/miniforge安装方式参考这里condainstallapache-airflow初始化数据库airflo
  • 2024-04-05DAG与拓扑排序
    现实生活中我们经常要做一连串事情,这些事情之间有顺序关系或依赖关系,做一件事情之前必须先做另一件事,如安排客人的座位、穿衣服的先后、课程学习的先后等。这些事情可以抽象为图论中的拓扑排序(TopologicalSorting)问题。例题:P4017最大食物链计数给出一个食物网,要求出这个食物
  • 2024-04-05二分图相关
    基础最小点覆盖=最大匹配我们假设最小点覆盖的集合为\(V\),最大匹配的集合为\(E\),因为最大匹配中的边都互相不交,所以我们可以让最大匹配中的边的端点任意选择一个点,就有:\[|V|\ge|E|\]于是另一边不太好证明,我们就记住这一边的证明,感性理解~最大独立集=总点数-最小点覆
  • 2024-04-02分词
     今天发现一个不用npl实现分词的方法jieba分词全自动安装:pipinstalljieba(window环境)pip3installjieba(Linux环境)首先进行将语句转换为UTF-8或者GBK。然后根据用户指定的模式,是否全模式,是否采用HMM隐马尔科夫,来设置cut方式。然后根据正则,将输入文本分为一个
  • 2024-03-14使用Python检测贝叶斯网络的因果关系检测
    在机器学任务中,确定变量间的因果关系(causality)可能是一个具有挑战性的步骤,但它对于建模工作非常重要。本文将总结有关贝叶斯概率(Bayesianprobabilistic)因果模型(causalmodels)的概念,然后提供一个Python实践教程,演示如何使用贝叶斯结构学习来检测因果关系。背景在许多领域,
  • 2024-03-14使用Python检测贝叶斯网络的因果关系检测
    在机器学任务中,确定变量间的因果关系(causality)可能是一个具有挑战性的步骤,但它对于建模工作非常重要。本文将总结有关贝叶斯概率(Bayesianprobabilistic)因果模型(causalmodels)的概念,然后提供一个Python实践教程,演示如何使用贝叶斯结构学习来检测因果关系。背景在许多领域,
  • 2024-03-10spark: dag调度器
    在spark中最重要的东西有一个超级重要的组件是:dag的调度器。上面的sql经过翻译之后,就变成了一个dag图,然后这个dag的调度器就开始对这个dag图中所代表的操作去做执行了。图计算是计算机领域中非常重要的一种计算模型了。计算机中基础的数据结构课中,有图计算相关的内容,有向无环图
  • 2024-03-10[省选联考 2024] 重塑时光 题解
    考虑这题是什么意思,其实就是让你把DAG划分成若干个集合,点之间连边转化为对应集合之间连边以后图仍然是一个DAG,然后需要知道划分成了多少个集合,每种集合的个数求出方案数,乘上对应的系数并求和。系数是很显然的,即:\[{k+1\choosei}\frac{i!k!}{n!\prod_{i=1}^k(n+i)}\]考虑怎
  • 2024-02-20spark为什么比mapreduce快?
    spark为什么比mapreduce快?首先澄清几个误区:1:两者都是基于内存计算的,任何计算框架都肯定是基于内存的,所以网上说的spark是基于内存计算所以快,显然是错误的2;DAG计算模型减少的是磁盘I/O次数(相比于mapreduce计算模型而言),而不是shuffle次数,因为shuffle是根据数据重组的次数而定,所
  • 2024-02-20DAG(有向无环图)易懂介绍
    目录1.Tip的概念2.交易到达率和网络延迟对DAG的影响3.新交易的Tip选择策略1.基于概率的策略2.非基于概率的策略4.DAG的优缺点DAG优点DAG缺点DAG看他的结构挺唬人的,但是原理还是蛮简单的。DAG改变的是传统区块链的数据结构。首先简单介绍一下什么是图。一个图(graph)是
  • 2024-02-162024/2/16学习进度笔记
    SparkStreaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。另外SparkStreaming也能和MLlib(机器学习)以及G
  • 2024-02-16P2597 [ZJOI2012] 灾难(DAG上的支配树)
    题目链接所谓支配树,就是将关系转为一棵树,使得将树上点\(x\)单独去掉其祖先的任意一个,\(x\)均不能选择,而非其父亲的点单独去掉对该点无影响。而其字树内的点则为去掉该点一定不能选择的点。对于本题,如何建树?将原图连边(被吃的向捕食者连),拓扑排序,若当前点为\(x\),则其所有儿子都