Sentence

2024-11-11[1076] Clauses with the pattern "prep + which"
Clauseswiththepattern"prep+which"areoftenusedtoaddadditionalinformationorclarifyarelationshipbetweentwopartsofasentence.Theseclausesareknownasrelativeclauses.Herearesomeexamplesandexplanations:Examples:In
2024-11-11人工智能模型训练：从不同格式文件中读取训练数据集
上一篇：《研发LLM模型，如何用数值表示人类自然语言？》序言：人工智能数据工程师在采集数据时往往会使用不同的工具，因此最终得到的原始数据结构各不相同。市场上已知的数据采集和分析工具所输出的文件格式大致有几种。前面我们介绍了如何从谷歌的TFDS中提取支持的格式数据，今天将为大家
2024-11-10ffmpeg Comments
UsetheJavaDoc/Doxygenformat(seeexamplesbelow)sothatcodedocumentationcanbegeneratedautomatically.Allnontrivialfunctionsshouldhaveacommentabovethemexplainingwhatthefunctiondoes,evenifitisjustonesentence.Allstructuresand
2024-11-09研发LLM模型，如何用数值表示人类自然语言？
上一篇：《人工智能——自然语言处理简介》序言：人工智能大语言模型（LLM）如何理解人类的自然语言？这个过程的核心在于将文本转化为计算机能处理的数值形式，经过计算，最终达到对语言的理解。起初，我们只是简单的随便用一个数字来表示一个单词或一个词根，但随着研究深入，我们发现，不同的数值表
2024-10-10＜Project-8.1 pdf2tx-MM＞ Python Flask 用浏览器翻译PDF内容 2个翻译引擎繁简中文结果从P8更改
更新ProjectName：pdf2tx(P6)Date:5oct.24Function:在浏览器中翻译PDF文件Code:https://blog.csdn.net/davenian/article/details/142723144升级ProjectName:pdf2tx-mm(P8)7oct.24 加入多线程，分页OCR识别，提高性能与速度使用googletranslator, AzureAPI做
2024-09-26一个基于Transformer模型的中文问答系统926.1
这个代码实现了一个基于Transformer模型的中文问答系统。以下是代码的主要功能和可能的完善方向：主要功能数据处理：代码首先定义了处理中文文本的函数，包括分词、构建词汇表、将句子转换为张量等。数据加载：从.jsonl或.json文件中加载问题和答案数据，并进行数据增强。模型定
2024-09-262024.9.25 Python，单词替换，优美的排列 II，sort的用法前K个高频单词，广度优先搜索腐烂的橘子
1.单词替换在英语中，我们有一个叫做词根(root)的概念，可以词根后面添加其他一些词组成另一个较长的单词——我们称这个词为衍生词(derivative)。例如，词根help，跟随着继承词“ful”，可以形成新的单词“helpful”。现在，给定一个由许多词根组成的词典dictionary和
2024-09-19大模型-提示词工程-句子对语义匹配-03
目录1.提示工程2.代码1.提示工程[('现在你需要帮助我完成文本匹配任务，当我给你两个句子时，你需要回答我这两句话语义是否相似。只需要回答是否相似，不要做多余的回答。','好的，我将只回答”是“或”不是“。'),('句子一:公司ABC发布了季度财报，显示盈利增长。\n句子二
2024-09-09*Python*jieba库简单分词
jieba库是一个用Python编写的用于中文文本处理的开源库，它的主要功能是将连续的中文字符序列切分成一个个单独的词语。jieba分词支持多种分词模式，并且可以方便地加载自定义词典，以提高分词的准确率。1、安装jieba库pipinstalljieba2、精确模式精确模
2024-08-20Vue 项目毒鸡汤壮士可要来一碗！
项目灵感来自“聆听远方”的毒鸡汤非常简单适合Vue新童鞋按国际惯例先上图来不及解释了快把代码复制走poison-soup.html<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,
2024-08-20Vue 项目毒鸡汤壮士可要来一碗！
项目灵感来自“聆听远方”的毒鸡汤非常简单适合Vue新童鞋按国际惯例先上图来不及解释了快把代码复制走poison-soup.html<!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metaname="viewport"content="width=device-width,
2024-08-12【python学习】使用 jieba和 rank_bm25进行文本相似度计算
介绍如何使用jieba分词库和rank_bm25库中的BM25Okapi算法来计算文本相似度。我们将通过一个简单的示例，展示如何实现这一过程。准备句子列表首先，我们准备一个包含多个句子的列表：sentences=["这是一个测试句子","温格高赢得了2023环法冠军","北京奥
2024-08-03LLM 大模型文档语义分块、微调数据集生成
1、LLM大模型文档语义分块参考：https://blog.csdn.net/m0_59596990/article/details/140280541根据上下句的语义相关性，相关就组合成一个分块，不相关就当场两个快语义模型用的bert-base-chinese：https://huggingface.co/google-bert/bert-base-chinese代码：对水浒传的分
2024-07-09TextCNN: Convolutional Neural Networks for Sentence Classification
本文是CNN应用在NLP领域的开山之作。TextCNN的成功并不是网络结构的成功，而是通过引入已经训练好的词向量在多个数据集上达到了超越benchmark的表现，证明了构造更好的embedding，是提升NLP各项任务的关键能力。作者做了一系列实验，这些实验使用卷积神经网络（CNN）在预训练的词向量之上
2024-07-07基于Sentence Transformer微调向量模型
SentenceTransformer库升级到了V3，其中对模型训练部分做了优化，使得模型训练和微调更加简单了，跟着官方教程走了一遍，顺利完成向量模型的微调，以下是对官方教程的精炼和总结。一所需组件使用SentenceTransformer库进行向量模型的微调需要如下的组件：数据数据:用于训练和评估的数
2024-07-03LLM大模型: RAG的最优chunk方法 — 利用本地离线LLM的embedding实现Semantic Chunking
1、RAG整个流程的核心节点如下：第一个重要的节点就是chunk。chunk最核心的目的就是把相同语义的token聚集在一起，不同语义的token互相分开，利于后续的retrieve和rerank。举个例子：今天天气很好，我和小明在一起打篮球。隔壁老王在家里看电视。小明的妈妈在家里做晚饭，晚上我
2024-06-23价格减免(Lc2288)——模拟
句子是由若干个单词组成的字符串，单词之间用单个空格分隔，其中每个单词可以包含数字、小写字母、和美元符号 '$' 。如果单词的形式为美元符号后跟着一个非负实数，那么这个单词就表示一个价格。例如 "$100"、"$23" 和 "$6" 表示价格，而 "100"、"$" 和 "$1e5 不是。
2024-06-205.21——❤经验❤
2024-06-13milvus入门使用
插入数据后的效果：代码如下：importconfigparserfrompymilvusimportconnections,Collection,DataType,FieldSchema,CollectionSchemaimportnumpyasnpdefcreate_collection():#Definetheschemafields=[FieldSchema(name="sentence_id&quo
2024-06-07用 Sentence Transformers v3 训练和微调嵌入模型
SentenceTransformers是一个Python库，用于使用和训练各种应用的嵌入模型，例如检索增强生成(RAG)、语义搜索、语义文本相似度、释义挖掘(paraphrasemining)等等。其3.0版本的更新是该工程自创建以来最大的一次，引入了一种新的训练方法。在这篇博客中，我将向你展示如何使用它
2024-06-02Exercise 05
Exercise05Exercise05HowisitthatsomanyintergalacticspeciesinmoviesandTVjusthappentospeakperfectEnglish?Theshortansweristhatnoonewantstowatchastarshipcrewspendyears1compilinganaliendictionary.Buttokeepthingscons
2024-05-09Embedding Whitening
目录概主要内容BERT-FlowBERT-Whitening代码[1]LiB.,ZhouH.,HeJ.,WangM.,YangY.andLiL.Onthesentenceembeddingsfrompre-trainedlanguagemodels.ACL,2020.[2]SuJ.,CaoJ.,LiuW.andOuY.Whiteningsentencerepresentationsforbettersemant
2024-04-11Kaggle自然语言处理入门推特灾难文本分类 Natural Language Processing with Disaster Tweets
和新闻按照标题分类差不多，用的朴素贝叶斯#导入必要的包importrandomimportsysfromsklearnimportmodel_selectionfromsklearn.naive_bayesimportMultinomialNBimportjoblibimportre,stringimportpandasaspdimportnumpyasnpdeftext_to_words(file_path)
2024-04-06如何爬取bcz的词汇
如何爬取BCZ的四级/六级词汇声明:以下内容仅供学习参考,切勿滥用,滥用与本作者无关!一,安装Charles抓包工具步骤:打开Charles查看主机地址配置手机端代理(主机地址:端口)安装证书信任抓取测试抓取数据包解析数据包查看csv数据关于下载安装Charles,安装证书,配置
2024-03-24Pedagogic Metalanguage
MyfavoriteEnglishmovieclipistheoneinwhichTrumanfinallyleavesSeahaveninTheTrumanShow.Inthelastscene,hesaysthesentencethatrunsthroughthewholemovie:incaseIdon'tseeyou,goodafternoon,goodevening,andgoodnight!Thi