• 2024-11-21【淘汰9成NLP面试者的高频面题】BPE 分词器是如何训练的?
    **【淘汰9成NLP面试者的高频面题】BPE分词器是如何训练的?**︎重要性:★★此题主要是考察面试者对分词的理解,一个好的分词器不仅能够降低词表的大小,减少OOV的出现,而且还能引入额外的先验知识,降低模型的学习难度。这是我常用的一个面试题。看似简单的基础题,但在面试中能准确回答
  • 2024-11-19记录个Java/Groovy的小问题:空字符串调用split函数返回非空数组
    问题复现最近写了一个groovy替换程序增量流水线脚本(会Java也能看懂),示意脚本如下://获取文件列表方法deflistFiles(folder){defoutput=sh(script:"ls${folder}",returnStdout:true).trim()returnoutput.split('\n')asList}//调用以上方法获取lib目录下
  • 2024-11-18python课件
    第一二章如果用二进制binary表示,那么数字前必须加上0b或0B;如果用八进制octonary表示,那么数字前必须加上0o或0O;如果用十六进制hexadecimal表示,那么数字前必须加上0x或0X。5**2=25(幂运算)5//2=2(整除)innotin判断指定序列中是否包含某个值isisnot判断两个标识符是否引
  • 2024-11-18【tokenization分词】WordPiece, Byte-Pair Encoding(BPE), Byte-level BPE(BBPE)的原理和代码
    目录前言1、word(词粒度)2、char(字符粒度)3、subword(子词粒度)WordPieceByte-PairEncoding(BPE)Byte-levelBPE(BBPE)总结前言Tokenization(分词)在自然语言处理(NLP)的任务中是最基本的一步,将文本处理成一串tokens用于后续的处理,把文本处理成token有一系列的
  • 2024-11-13在 Windows 系统中,可以使用内置的命令行工具来分割和合并大文件,虽然没有专门的 split 命令(类似于 Linux 中的 split 命令),但可以通过一些其他方式实现这一功能。以下是一些常
    在Windows系统中,可以使用内置的命令行工具来分割和合并大文件,虽然没有专门的split命令(类似于Linux中的split命令),但可以通过一些其他方式实现这一功能。以下是一些常用方法:1.使用 fsutil 命令分割大文件fsutil是Windows提供的一个工具,可以用于管理文件系统,但并不直
  • 2024-11-11FFmpeg Filtering Introduction
    FilteringinFFmpegisenabledthroughthelibavfilterlibrary.Inlibavfilter,afiltercanhavemultipleinputsandmultipleoutputs.Toillustratethesortsofthingsthatarepossible,weconsiderthefollowingfiltergraph.[main]input-->split-
  • 2024-11-08CTF-MISC-split_all
    首页下载文件下载后显示一张图片,但是图片无法打开用010editor查看,文件头为png格式(89594E0D0A1A0A)文件尾为GIF格式(003B)猜测该文件为GIF格式,将文件头改为GIF格式(4749383961)保存GifCam无法打开换方法,修改文件头为474946,从474946开始到第三行383961之间字节删
  • 2024-11-08【LGBM】LightGBM sklearn API超参数解释与使用方法(优化)
            接下来我们进一步解释LGBM的sklearnAPI中各评估器中的超参数及使用方法。  在LGBM的sklearnAPI中,总共包含四个模型类(也就是四个评估器),分别是lightgbm.LGBMModel、LGBMClassifier和LGBMRegressor以及LGBMRanker:LGBMModel  LGBMModel是LightGBM的
  • 2024-11-02代码随想录算法训练营第九天|leetcode151.翻转字符串里的单词、卡码网55.右旋字符串、leetcode28.找出字符串中第一个匹配项的下标、leetcode459. 重复的子字符串
    1leetcode151.翻转字符串里的单词题目链接:151.反转字符串中的单词-力扣(LeetCode)文章链接:代码随想录视频链接:字符串复杂操作拿捏了!|LeetCode:151.翻转字符串里的单词哔哩哔哩bilibili自己的思路:直接将空格去掉,然后分割字符串为列表,在列表中进行翻转,不在字符串内部操作
  • 2024-10-31validation
    PreparetrainingandtestdataX=np.array([item["Image"]foritemindata])/255.0#Normalizeto[0,1]y=np.array([item["Label"]foritemindata])Splitintotrainingandvalidationsetssplit_idx=int(0.8*len(X))X_train,
  • 2024-10-30Normalized Mutual Information(NMI, 归一化互信息)
    NormalizedMutualInformation(NMI,归一化互信息)值域是$[0,1]$,值越高表示两个聚类结果越相似。归一化是指将两个聚类结果的相似性值定量到$0\sim1$之间。$$\text{NMI}=\frac{2\sum_i\sum_jn_{ij}ln\frac{n_{ij}N}{n_in_j}}{-\sum_in_iln\frac{n_i}{N}-\sum_jn_jln\fra
  • 2024-10-27python总结
    hell.py:defparse_data():withopen(r"G:/人民币货币对.txt",mode="r")asf:itle_list=f.readline().strip().split("\t")withopen(r"G:/人民币汇率中间价历史数据.txt",mode="r",encoding="utf-8")as
  • 2024-10-25[计划] CSP-S2 2024 考前复习
    怎么算空间???复习板子floydcrtecgcd单调队列prim(kruskal求最小生成树)并查集各种写法、复杂度区间加区间和BITBIT注意位置是否会到0FHQ-TreapFHQ-Treap勿把Split_Val和Split_Siz写混;FHQ-Treap记得Split时PushUp注意FHQ-Treap初值问题字符串哈希区间
  • 2024-10-24代码随想录算法训练营第九天|leetcode151.翻转字符串里的单词、卡码网55.右旋字符串
    1leetcode151.翻转字符串里的单词题目链接:151.反转字符串中的单词-力扣(LeetCode)文章链接:代码随想录视频链接:字符串复杂操作拿捏了!|LeetCode:151.翻转字符串里的单词_哔哩哔哩_bilibili自己的思路:直接将空格去掉,然后分割字符串为列表,在列表中进行翻转,不在字符串内部操作,
  • 2024-10-22珂朵莉树学习笔记
    区间操作\(1.\)\(\left[L,R\right]\)区间加上一个数\(2.\)\(\left[L,R\right]\)区间赋值适用范围\(1.\)数据随机\((因为容易被卡)\)\(2.\)有区间赋值操作\((核心操作不然和暴力没什么区别了)\)\(3.\)骗分小技巧习题CF896C\((起源)\)CF915EP1840P4979P434
  • 2024-10-22sicp每日一题[2.52]
    Exercise2.52MakechangestothesquarelimitofwaveshowninFigure2.9byworkingateachofthelevelsdescribedabove.Inparticular:a.AddsomesegmentstotheprimitivewavepainterofExercise2.49(toaddasmile,forexample).b.Changethe
  • 2024-10-17SciTech-AV-Video-DVP(Digital Video Processing)-CV/CG-ffmpeg-libavfilter:数字过滤器-
    Thisdocumentdescribesfilters,sources,andsinksprovidedbythelibavfilterlibrary.FiltergraphSyntaxFiltersinthesamelinearchainareseparatedbycommas,distinctlinearchainsoffiltersareseparatedbysemicolons.Thepointswherethelin
  • 2024-10-16FineReport 动态列切换统计维度
    目标:自己选择统计维度进行数据的汇总统计数据集参数实现动态列1、单维度切换1.1、数据库查询SELECT${统计维度}"统计维度",count(1)"人员总数"FROM人员花名册groupby${统计维度}1.2、内容配置$统计维度下拉框设置ARRAY("年龄段","学历","岗位职
  • 2024-10-15Split and Maximize
    SplitandMaximize根据常识可知,肯定是\(\sum_{i=1}^n2i(2i-1)\)最大,通俗来讲就是相邻两个数相乘是最优的。要达到这个得分,我们应该将\(2i\)和\(2i-1\)一个分给\(A\),一个分给\(B\),并且要保证先后顺序一样,保证\(2i\)可以与\(2i-1\)配对。把\(2i\)看作(,把\(2i-1
  • 2024-10-14Python决策树算法:面向对象的实现与案例详解
    目录Python决策树算法:面向对象的实现与案例详解引言一、决策树算法概述1.1决策树的基本思想1.2分类与回归树1.3决策树的构建过程1.4决策树的优缺点优点缺点二、面向对象的决策树实现2.1类的设计2.2Python代码实现2.3代码详解三、案例分析3.1案例一:鸢尾花分类
  • 2024-10-14sicp每日一题[2.44]
    我在这一章遇到了一个大问题,就是书上用的那些函数beside,wave,flip-vert我统统用不了。我用的是DrRacket这个软件,在网上查了半天,终于找到了解决办法。首先是官方教程,在DrRacket中依次打开File->PackageManager...,在弹出的页面中"DoWhatIMean"菜单页的输入:sicp,
  • 2024-10-13头歌测试 单词分割
    任务描述本关任务:将一段英语字符串进行单词分割。相关知识为了完成本关任务,你需要掌握:如何将字符串进行分割。String.split()拆分字符串lang包String类的split()方法publicString[]split(Stringregex)publicString[]split(Stringregex,intlimit)//limit参数控制
  • 2024-10-11珂朵莉树(ODT)
    ODT:优雅的暴力核心思想:set存储一段权值相同的区间以及权值,区间赋值暴力推平。要求:数据随机,有区间赋值操作,此时复杂度趋近于\(O(m\logn)\)。区间的定义:structnode{ intl,r;//左,右 mutableintv;//权值 booloperator<(constnode&n)const{//按左端点从小到大排序