corpus

2024-10-08coca 搭配 in vs on vs at | page1
CAN'TDOCOMPAREWORDSON1-2LETTERWORDS;CREATESPROBLEMSWITHSCRIPT不能比只好手动比较了 Theword in occurs 16,541,741 timesinthecorpus.InCOCA,youcanusuallyfindthecollocatesforhigh-frequencywordslikethis,aslongas:1)yousearch
2024-08-13SciTech-BigDataAIML-LLM-Transformer Series系列: Word Embedding词嵌入详解: 用Corpus预训练出嵌入矩阵E→Input变长词序列→Oneho
SciTech-BigDataAIML-LLM-TransformerSeries系列:WordEmbedding词嵌入详解:1.用Corpus预训练出嵌入矩阵\(\largeE\)CorpusCollecting:非常重要的工作先收集一个常用的Corpus(语料库),能保障大多数的word都在corpus.有两个特别重要的作用:VocabularyExtracting:词
2024-06-05Python 全栈体系【四阶】（五十七）
第五章深度学习十三、自然语言处理（NLP）2.传统NLP处理技术2.4关键词提取关键词提取是提取出代表文章重要内容的一组词，对文本聚类、分类、自动摘要起到重要作用。此外，关键词提取还能使人们便捷地浏览和获取信息。现实中大量文本不包含关键词，自动提取关检测技术具有重要
2024-06-02【自然语言处理】中文垃圾邮件的分类代码
代码如下："""author:wangyilin"""importnumpyasnpfromsklearn.model_selectionimporttrain_test_splitdefget_data():'''获取数据:return:文本数据，对应的labels'''withopen("
2024-04-20http://ccl.pku.edu.cn:8080/ccl_corpus/CCLCorpus_Readme.html
北京大学CCL语料库简介语料库网址： http://ccl.pku.edu.cn:8080/ccl_corpusCCL语料库及其检索系统为纯学术非盈利性的。不得将CCL语料库检索系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。CCL语料库仅供语言研究参考之用。语料本身的正确性需要您自
2024-02-06句子嵌入: 交叉编码和重排序
这个系列目的是揭开嵌入的神秘面纱，并展示如何在你的项目中使用它们。第一篇博客介绍了如何使用和扩展开源嵌入模型，选择现有的模型，当前的评价方法，以及生态系统的发展状态。第二篇博客将会更一步深入嵌入并解释双向编码和交叉编码的区别。进一步我们将了解检索和重排序的理论。我
2023-10-09《动手学深度学习 Pytorch版》 8.3 语言模型和数据集
8.3.1学习语言模型依靠在8.1节中对序列模型的分析，可以在单词级别对文本数据进行词元化。基本概率规则如下：\[P(x_1,x_2,\dots,x_T)=\prod^T_{t=1}P(x_t|x_1,\dots,x_{t-1})\]例如，包含了四个单词的一个文本序列的概率是：\[P(deep,learning,is,fun)=P(deep)P(learning|deep)P(i
2023-10-09pytorch(8-2) 文本语言处理拆分成字符统计词频并从高到底分配ID
https://zh.d2l.ai/chapter_recurrent-neural-networks/language-models-and-dataset.html importcollectionsimportrefromd2limporttorchasd2l#@saved2l.DATA_HUB['time_machine']=(d2l.DATA_URL+'timemachine.txt',
2023-10-09《动手学深度学习 Pytorch版》 8.2 文本预处理
importcollectionsimportrefromd2limporttorchasd2l解析文本的常见预处理步骤：将文本作为字符串加载到内存中。将字符串拆分为词元（如单词和字符）。建立一个词表，将拆分的词元映射到数字索引。将文本转换为数字索引序列，方便模型操作。8.2.1读取数据集本文
2023-08-27循环神经网络
循环神经网络frommxnetimportndx,w_xh=nd.random.normal(shape=(3,1)),nd.random.normal(shape=(1,4))h,w_hh=nd.random.normal(shape=(3,4)),nd.random.normal(shape=(4,4))print(nd.dot(x,w_xh)+nd.dot(h,w_hh))print(nd.dot(nd.concat(x,h,dim=1
2023-06-23千万级中文公开免费聊天语料数据分享
分享一个包含千万级聊天语料的资源。地址：https://github.com/codemayq/chaotbot_corpus_Chinese 该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作该库搜集了包含 · chatterbot · 豆瓣多轮
2023-05-20 COMP3009J 信息检索编程
COMP3009J–InformationRetrievalProgrammingAssignmentThisassignmentisworth30%ofthefinalgradeforthemodule.DueDate:Sunday28thMay2023at23:55(i.e.beforebeginningofWeek15)Beforeyoubegin,downloadandextractthefiles``small_corpus
2023-05-17动手学深度学习(十) NLP 语言模型与数据集
语言模型一段自然语言文本可以看作是一个离散时间序列，给定一个长度为的词的序列，语言模型的目标就是评估该序列是否合理，即计算该序列的概率：本节我们介绍基于统计的语言模型，主要是元语法（-gram）。在后续内容中，我们将会介绍基于神经网络的语言模型。语言模型假设序列中的每个词是依次生
2023-04-11Android DataStore Proto框架存储接入AndroidStudio教程详解与使用
一、介绍通过前面的文字，我们已掌握了DataStore的存储，但是留下一个尾巴，那就是Proto的接入。Proto是什么？Protobuf，类似于json和xml，是一种序列化结构数据机制，可以用于数据通讯等场景，相对于xml而言更小，相对于json而言解析更快，支持多语言官网：LanguageGuide(proto3)|
2023-02-25按揭贷款计算器
分享一个之前看到的房贷按揭贷款计算器,也许某天能用上!!!原代码面是从招商银行某个网站上找到的. 源代码:1<!DOCTYPEhtml>23<html>
2023-02-06探索循环神经网络在构建语言模型中的演化历程
文章目录任务说明数据集数据集说明数据集读取建立字符索引时序数据采样随机采样：相邻采样评价指标
2022-11-23Jupyter笔记[3]-词向量
自然语言处理-词向量[https://www.paddlepaddle.org.cn/tutorials/projectdetail/3578658]在自然语言处理任务中，词向量（WordEmbedding）是表示自然语言里单词的一种方法，即
2022-11-14AI基础：特征工程-文本特征处理
0.导语特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。在此之前，我已经写了以下几篇AI基础的快速入门，本篇文章
2022-11-10词向量word2vec（图学习参考资料）
介绍词向量word2evc概念，及CBOW和Skip-gram的算法实现。项目链接：https://aistudio.baidu.com/aistudio/projectdetail/5009409在自然语言处理任务中，词向量（WordEmbedding
2022-11-10词向量word2vec（图学习参考资料）
介绍词向量word2evc概念，及CBOW和Skip-gram的算法实现。项目链接：https://aistudio.baidu.com/aistudio/projectdetail/5009409在自然语言处理任务中，词向量（WordEmbedding）
2022-11-05当corpus太大，无法直接存放成字典时怎么办
文件格式，一行一个json，每行代表corpus中的一个文件。frommultiprocessingimportManagerfromdatasetsimportload_datasetmanager=Manager()corpus_dataset=loa
2022-10-26公司名/机构名语料库（Company-Names-Corpus）
向AI转型的程序员都关注了这个号????????????机器学习AI算法工程公众号：datayx公司名语料库（Company-Names-Corpus）数据大小：480万。语料来源：多个词典汇总。数据清洗：已清洗
2022-08-28proto3学习
转自：https://colobu.com/2017/03/16/Protobuf3-language-guide/#指定字段类型1.消息message类型假设你想定义一个“搜索请求”的消息格式，每一个请求含有一个查询字符串、