- 2024-11-11[1076] Clauses with the pattern "prep + which"
Clauseswiththepattern"prep+which"areoftenusedtoaddadditionalinformationorclarifyarelationshipbetweentwopartsofasentence.Theseclausesareknownasrelativeclauses.Herearesomeexamplesandexplanations:Examples:In
- 2024-11-11人工智能模型训练:从不同格式文件中读取训练数据集
上一篇:《研发LLM模型,如何用数值表示人类自然语言?》序言:人工智能数据工程师在采集数据时往往会使用不同的工具,因此最终得到的原始数据结构各不相同。市场上已知的数据采集和分析工具所输出的文件格式大致有几种。前面我们介绍了如何从谷歌的TFDS中提取支持的格式数据,今天将为大家
- 2024-11-10ffmpeg Comments
UsetheJavaDoc/Doxygenformat(seeexamplesbelow)sothatcodedocumentationcanbegeneratedautomatically.Allnontrivialfunctionsshouldhaveacommentabovethemexplainingwhatthefunctiondoes,evenifitisjustonesentence.Allstructuresand
- 2024-11-09研发LLM模型,如何用数值表示人类自然语言?
上一篇:《人工智能——自然语言处理简介》序言:人工智能大语言模型(LLM)如何理解人类的自然语言?这个过程的核心在于将文本转化为计算机能处理的数值形式,经过计算,最终达到对语言的理解。起初,我们只是简单的随便用一个数字来表示一个单词或一个词根,但随着研究深入,我们发现,不同的数值表
- 2024-10-10<Project-8.1 pdf2tx-MM> Python Flask 用浏览器翻译PDF内容 2个翻译引擎 繁简中文结果 从P8更改
更新ProjectName:pdf2tx(P6)Date:5oct.24Function:在浏览器中翻译PDF文件Code:https://blog.csdn.net/davenian/article/details/142723144升级ProjectName:pdf2tx-mm(P8)7oct.24 加入多线程,分页OCR识别,提高性能与速度使用googletranslator, AzureAPI做
- 2024-09-26一个基于Transformer模型的中文问答系统926.1
这个代码实现了一个基于Transformer模型的中文问答系统。以下是代码的主要功能和可能的完善方向:主要功能数据处理:代码首先定义了处理中文文本的函数,包括分词、构建词汇表、将句子转换为张量等。数据加载:从.jsonl或.json文件中加载问题和答案数据,并进行数据增强。模型定
- 2024-09-262024.9.25 Python,单词替换,优美的排列 II,sort的用法前K个高频单词,广度优先搜索腐烂的橘子
1.单词替换在英语中,我们有一个叫做词根(root)的概念,可以词根后面添加其他一些词组成另一个较长的单词——我们称这个词为衍生词(derivative)。例如,词根help,跟随着继承词“ful”,可以形成新的单词“helpful”。现在,给定一个由许多词根组成的词典dictionary和
- 2024-09-19大模型-提示词工程-句子对语义匹配-03
目录1.提示工程2.代码1.提示工程[('现在你需要帮助我完成文本匹配任务,当我给你两个句子时,你需要回答我这两句话语义是否相似。只需要回答是否相似,不要做多余的回答。','好的,我将只回答”是“或”不是“。'),('句子一:公司ABC发布了季度财报,显示盈利增长。\n句子二
- 2024-09-09*Python*jieba库简单分词
jieba库是一个用Python编写的用于中文文本处理的开源库,它的主要功能是将连续的中文字符序列切分成一个个单独的词语。jieba分词支持多种分词模式,并且可以方便地加载自定义词典,以提高分词的准确率。1、安装jieba库pipinstalljieba2、精确模式精确模
- 2024-08-20Vue 项目 毒鸡汤 壮士可要来一碗!
项目灵感来自“聆听远方”的毒鸡汤非常简单适合Vue新童鞋按国际惯例先上图来不及解释了快把代码复制走poison-soup.html<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,
- 2024-08-20Vue 项目 毒鸡汤 壮士可要来一碗!
项目灵感来自“聆听远方”的毒鸡汤非常简单适合Vue新童鞋按国际惯例先上图来不及解释了快把代码复制走poison-soup.html<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,
- 2024-08-12【python学习】使用 jieba和 rank_bm25进行文本相似度计算
介绍如何使用jieba分词库和rank_bm25库中的BM25Okapi算法来计算文本相似度。我们将通过一个简单的示例,展示如何实现这一过程。准备句子列表首先,我们准备一个包含多个句子的列表:sentences=["这是一个测试句子","温格高赢得了2023环法冠军","北京奥
- 2024-08-03LLM 大模型文档语义分块、微调数据集生成
1、LLM大模型文档语义分块参考:https://blog.csdn.net/m0_59596990/article/details/140280541根据上下句的语义相关性,相关就组合成一个分块,不相关就当场两个快语义模型用的bert-base-chinese:https://huggingface.co/google-bert/bert-base-chinese代码:对水浒传的分
- 2024-07-09TextCNN: Convolutional Neural Networks for Sentence Classification
本文是CNN应用在NLP领域的开山之作。TextCNN的成功并不是网络结构的成功,而是通过引入已经训练好的词向量在多个数据集上达到了超越benchmark的表现,证明了构造更好的embedding,是提升NLP各项任务的关键能力。作者做了一系列实验,这些实验使用卷积神经网络(CNN)在预训练的词向量之上
- 2024-07-07基于Sentence Transformer微调向量模型
SentenceTransformer库升级到了V3,其中对模型训练部分做了优化,使得模型训练和微调更加简单了,跟着官方教程走了一遍,顺利完成向量模型的微调,以下是对官方教程的精炼和总结。一所需组件使用SentenceTransformer库进行向量模型的微调需要如下的组件:数据数据:用于训练和评估的数
- 2024-07-03LLM大模型: RAG的最优chunk方法 — 利用本地离线LLM的embedding实现Semantic Chunking
1、RAG整个流程的核心节点如下:第一个重要的节点就是chunk。chunk最核心的目的就是把相同语义的token聚集在一起,不同语义的token互相分开,利于后续的retrieve和rerank。举个例子:今天天气很好,我和小明在一起打篮球。隔壁老王在家里看电视。小明的妈妈在家里做晚饭,晚上我
- 2024-06-23价格减免(Lc2288)——模拟
句子 是由若干个单词组成的字符串,单词之间用单个空格分隔,其中每个单词可以包含数字、小写字母、和美元符号 '$' 。如果单词的形式为美元符号后跟着一个非负实数,那么这个单词就表示一个 价格 。例如 "$100"、"$23" 和 "$6" 表示价格,而 "100"、"$" 和 "$1e5 不是。
- 2024-06-205.21——❤经验❤
- 2024-06-13milvus入门使用
插入数据后的效果: 代码如下:importconfigparserfrompymilvusimportconnections,Collection,DataType,FieldSchema,CollectionSchemaimportnumpyasnpdefcreate_collection():#Definetheschemafields=[FieldSchema(name="sentence_id&quo
- 2024-06-07用 Sentence Transformers v3 训练和微调嵌入模型
SentenceTransformers是一个Python库,用于使用和训练各种应用的嵌入模型,例如检索增强生成(RAG)、语义搜索、语义文本相似度、释义挖掘(paraphrasemining)等等。其3.0版本的更新是该工程自创建以来最大的一次,引入了一种新的训练方法。在这篇博客中,我将向你展示如何使用它
- 2024-06-02Exercise 05
Exercise05Exercise05HowisitthatsomanyintergalacticspeciesinmoviesandTVjusthappentospeakperfectEnglish?Theshortansweristhatnoonewantstowatchastarshipcrewspendyears1compilinganaliendictionary.Buttokeepthingscons
- 2024-05-09Embedding Whitening
目录概主要内容BERT-FlowBERT-Whitening代码[1]LiB.,ZhouH.,HeJ.,WangM.,YangY.andLiL.Onthesentenceembeddingsfrompre-trainedlanguagemodels.ACL,2020.[2]SuJ.,CaoJ.,LiuW.andOuY.Whiteningsentencerepresentationsforbettersemant
- 2024-04-11Kaggle自然语言处理入门 推特灾难文本分类 Natural Language Processing with Disaster Tweets
和新闻按照标题分类差不多,用的朴素贝叶斯#导入必要的包importrandomimportsysfromsklearnimportmodel_selectionfromsklearn.naive_bayesimportMultinomialNBimportjoblibimportre,stringimportpandasaspdimportnumpyasnpdeftext_to_words(file_path)
- 2024-04-06如何爬取bcz的词汇
如何爬取BCZ的四级/六级词汇声明:以下内容仅供学习参考,切勿滥用,滥用与本作者无关!一,安装Charles抓包工具步骤:打开Charles查看主机地址配置手机端代理(主机地址:端口)安装证书信任抓取测试抓取数据包解析数据包查看csv数据关于下载安装Charles,安装证书,配置
- 2024-03-24Pedagogic Metalanguage
MyfavoriteEnglishmovieclipistheoneinwhichTrumanfinallyleavesSeahaveninTheTrumanShow.Inthelastscene,hesaysthesentencethatrunsthroughthewholemovie:incaseIdon'tseeyou,goodafternoon,goodevening,andgoodnight!Thi