- 2024-11-21【淘汰9成NLP面试者的高频面题】BPE 分词器是如何训练的?
**【淘汰9成NLP面试者的高频面题】BPE分词器是如何训练的?**︎重要性:★★此题主要是考察面试者对分词的理解,一个好的分词器不仅能够降低词表的大小,减少OOV的出现,而且还能引入额外的先验知识,降低模型的学习难度。这是我常用的一个面试题。看似简单的基础题,但在面试中能准确回答
- 2024-11-18【tokenization分词】WordPiece, Byte-Pair Encoding(BPE), Byte-level BPE(BBPE)的原理和代码
目录前言1、word(词粒度)2、char(字符粒度)3、subword(子词粒度)WordPieceByte-PairEncoding(BPE)Byte-levelBPE(BBPE)总结前言Tokenization(分词)在自然语言处理(NLP)的任务中是最基本的一步,将文本处理成一串tokens用于后续的处理,把文本处理成token有一系列的
- 2024-11-16高维前缀和SOSDP
更新日志概念高维前缀和的名字已经很显然了,不做过多讲解。思路基本形式我们较为熟知的二维前缀和,通常情况下使用了容斥的思想。事实上,更通常的二维前缀和形式往往长下面这样:for(inti=0;i<n;i++){for(intj=0;j<n;j++){for(intk=1;k<n;k++){
- 2024-11-15轮廓线DP
更新日志概念类似于状态压缩DP,但我们储存的是轮廓线上的状态。有些时候,也不需要进行状态压缩,而可以用某一点的状态代表一个区域的状态。思路轮廓线就是已经决策的与尚未决策的部分的分界线,我们储存分界线上已经决策过的所有节点的状态。借图OI-wiki:图中最粗的那一条就
- 2024-11-12多校A层冲刺NOIP2024模拟赛21
多校A层冲刺NOIP2024模拟赛21\(T1\)A.送信卒\(90pts/100pts\)部分分\(90pts\)设最后的可能的最短路中左右共移动了\(d\)次,上下共移动了\(x\)次。则等价于求\(\min\{x_{i}k+d_{i}\}=s\)的解,观察到\(d\in[0,\min(\left\lceil\frac{nm}{2}\right\rce
- 2024-11-11牛客周赛 Round 67 F
F.小Z的树迁移思路赛事没想出来如何做,可以发现,对于一个节点u,走d步所走的最远距离即为深度为depthu+d且位于u的子树之中的节点距离根节点距离的最大值再减去节点u距离根节点的距离即为结果当我们查询时该如何做?第一步,我们先给每个节点按照dfs序进行编号,这样保证了同一子树的
- 2024-11-10C++之模板
C++模板是一种支持泛型编程的机制,允许开发者定义使用任意类型作为参数的函数和类。模板提供了代码复用和类型安全的抽象,使得同一段代码可以用于不同的数据类型。函数模板定义和使用函数模板是一种可以接受任意类型参数的函数。它通过在函数声明中使用模板参数(用尖括号<>包围
- 2024-11-09[lnsyoj1521/luoguP2292] 打鼹鼠
题意给定\(n\)个点\((x_i,y_i)\)和对应时间\(time_i\),求从任意点开始,每单位时间静止或四向移动,在\(time_i\)时停留的点数的最大值,保证\(time_i\)顺序输入sol线性dp记\(f_i\)表示停留在第\(i\)个点时,点数的最大值,则转移方程为\[f_i=\max_{j=1}^if_j+1(dist_{i,
- 2024-11-09[ARC158C] All Pair Digit Sums 题解
C-AllPairDigitSums题意:设\(f(x)\)为\(x\)的数字和。例如\(f(158)=1+5+8=14\)。给定一个长度为\(N\)的正整数序列\(A\),求\(\sum_{i=1}^{N}\sum_{j=1}^{N}f(A_i+A_j)\)。分析:首先明确\(f(x)\)为\(x\)的数位和。举例情况:若有两个数分别为:\(12,21\)。\[f(
- 2024-11-09Little Elephant and Interval
TF.LittleElephantandIntervalTheLittleElephantverymuchlovessumsonintervals.Thistimehehasapairofintegerslandr(l ≤ r).TheLittleElephanthastofindthenumberofsuchintegersx(l ≤ x ≤ r),thatthefirstdigitofinte
- 2024-11-08计蒜客:骑车比赛(Dijkstra)
学习堆优化的写法1#include<bits/stdc++.h>2usingnamespacestd;3intn,m,a,b,c;4typedefpair<int,int>pii;//first表示距离,second表示节点号5vector<pii>graph[1005];6set<pii>minHeap;7vector<int>dis(1005,INT32_MAX);
- 2024-11-08插入类DP
对于这类题目的特征:1.排列性质2.\(100\len\le5\times10^3\)3.答案和排列的上升下降的突变点有关套路:按照某个从小到大的顺序插入,有了这个顺序就能算贡献或者方案数贡献往往提前计算,存在每个元素有新开一段、合并两端、连在某一段后面的不同方案有的允许了\(A\),\(W\),\(
- 2024-11-08P7984 [USACO21DEC] Tickets P 题解
题目传送门前置知识线段树优化建图|最短路解法考虑对票建虚点,从\(c_{i}\)向\(i+n\)连一条权值为\(p_{i}\)的边,然后从\(i+n\)向\([a_{i},b_{i}]\)连一条权值为\(0\)的边。建出反图后\(1\toi\)和\(n\toi\)的路径集合会有重复统计的部分,不妨以\(dis_{1,i
- 2024-11-06牛客周赛 Round 66 G
G.小苯的数位MEX思路比较模板的数位dp,虽然我不会代码#include<bits/stdc++.h>usingnamespacestd;#defineendl'\n'usingll=longlong;usingull=unsignedlonglong;usingpii=pair<int,int>;usingpiii=pair<int,pii>;usingpll=pair&l
- 2024-11-04分层图求最短路
分层图求最短路速度限制题目描述在这个繁忙的社会中,我们往往不再去选择最短的道路,而是选择最快的路线。开车时每条道路的限速成为最关键的问题。不幸的是,有一些限速的标志丢失了,因此你无法得知应该开多快。一种可以辩解的解决方案是,按照原来的速度行驶。你的任务是计算两地间的
- 2024-11-03力扣题目解析--整数转罗马数
题目七个不同的符号代表罗马数字,其值如下:符号值I1V5X10L50C100D500M1000罗马数字是通过添加从最高到最低的小数位值的转换而形成的。将小数位值转换为罗马数字有以下规则:如果该值不是以4或9开头,请选择可以从输入中减去的最大值的符号,将该符号附加到结果,减去其值,然后将
- 2024-11-01Java-SE-泛型编程-总结/java
泛型一、泛型的定义和使用类定义:在定义一个泛型类时,需要在类名后加上<T>,以指示这是一个泛型类。例如:publicclassPair<T>{...}方法定义:在定义泛型方法时,需要在返回类型前加上<T>,这样编译器才会知道这是一个泛型方法。例如:public<T>Tadd(Pair<T>p){...}
- 2024-10-302024牛客暑期多校训练营10 - VP记录
A.SurrendertoMyWill直接判断当前是否不可翻盘。点击查看代码#include<cstdio>usingnamespacestd;intmain(){ charstr[10];scanf("%s",str); inty=0,n=0; for(inti=0;i<5;i++) { if(str[i]=='Y')y++; if(str[i]=='N')n++;
- 2024-10-30代码随想录——栈与队列8-前K个高频元素
法一、用数组排序思路用map保存元素和频率关系将元素和频率的键值对pair作为vector的基本元素,以频率为准进行从大到小的排序——O(nlogn)输出前K个pair的first,即数字本身代码classSolution{public:std::vector<int>topKFrequent(std::vector<int
- 2024-10-26【C++】map和set的使用
最好的,不一定是最合适的;最合适的,才是真正最好的。
- 2024-10-23C++ STL基本用法概述(简洁版)
vector变长数组,倍增思想基本函数 size() //返回元素个数,时间复杂度为o(1)empty() //返回a是否为空,时间复杂度为o(1)clear() //清空front()/back() //返回第一个数/最后一个数push_back() //最后插入一个数pop_back() //删掉最后一个数
- 2024-10-22梦熊 NOIP 十三连测模拟赛记录
\(\text{Byhhoppitree.}\)\(\textbf{Round1A.}\)Apair题目大意给定平面直角坐标系上的\(n\)个整点,求任意两个不同的点的曼哈顿距离与欧几里得距离的比的最大值,多组询问。数据范围:\(T\le10,n\le10^5\),\(\texttt{1s/512MB}\)。思路分析考虑我们就是要让连线段的角度
- 2024-10-21关于如何排序使得最终的答案最优的总结
关于如何排序使得最终的答案最优的总结例题LuoguP1012CF2024C分析就以先CF2024C来展开,题意是给定\(N\)个二元组,确定一个可行的排列使得最后的序列逆序对个数最少,注意二元组内部不可以交换顺序Solution1详情见“CF980Review”中对这道题的解法,这里不多赘述了。只
- 2024-10-16【题解】[2023 合肥蜀山初中] 旅行(travel)
题目传送门题目大意有一个\(n\)个点\(m\)条边的有向图组成的城市,每条边可以是骑行边或公共交通边,公共交通边只能走一条,边是从\(u_i\)到\(v_i\)的有向边,需要花费\(time_i\)的时间,求\(1\)到其他点的最短路径。思路分析有一个很巧妙的思路叫分层图,它的思路是因为只能
- 2024-10-16【C++】C++ STL 树形结构容器全解析:map、set、multimap、multiset 的使用与区别
C++语法相关知识点可以通过点击以下链接进行学习一起加油!命名空间缺省参数与函数重载C++相关特性类和对象-上篇类和对象-中篇类和对象-下篇日期类C/C++内存管理模板初阶String使用String模拟实现Vector使用及其模拟实现List使用及其模拟实现容器适配器Stack与QueuePriority