• 2024-06-15【NLP-08】NLP的语料库整理
    史上最全开源中文NLP数据集:包括10大类、142条数据源,总有你钟意的那一款,后续将会对数据集进行动态更新;本项目中的NLP数据集囊括了NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等10大类共142个数据集。具体而言,对于每
  • 2024-06-11欢乐多 国际尬聊 语料库 keyword分析 23个视频
    Type  POS  Headword  Rankyou  None  None  1i  None  None  2okay  None  None  3yeah  None  None  4ha  None  None  5know  None  None  6oh  None  None  7like  Non
  • 2024-06-11欢乐多 国际尬聊 语料库 n-gram分析 23个视频
    hihellosize2Type  Rank  Freqim  1  202dont  2  181its  3  156idon  4  126haha  5  118thats  6  109youknow  7  104(youknowi)youre  8  95thankyou  9  84okayokay  1
  • 2024-06-01基于n-gram语言模型实现输入单词推荐功能(附源码及语料库)
    一、开发环境1.语言:python2.开源工具:nltk3.语料库:维基百科英文语料库二、环境配置关于pyhton项目对nltk的部署,我看了以下文章。NLTK库安装教程在安装nltk库的过程中,我又遇到了pip更新的问题,看了以下文章。PIP更新​​​​三、实验要求利用n-gram语言模型完成,输入文字
  • 2024-05-07中文语料库 没有类似https://www.english-corpora.org/里的 A/B compare的好用的
    BCC一旦用~,统计,就查不全CCL有个“搭配查询”但是很不好用,必须指明词性和词长/距离,coca里任意1-4距离,词性也是任意 搭配查询,用于查询(对比)不同动词前后的共现名词的频次差异。例如:查询表达式“刷(n,=2)|擦(n,=2)”,表示查询“刷”和“擦”后面的词长为2的名词。两个动词
  • 2024-04-20http://ccl.pku.edu.cn:8080/ccl_corpus/CCLCorpus_Readme.html
    北京大学CCL语料库简介语料库网址: http://ccl.pku.edu.cn:8080/ccl_corpusCCL语料库及其检索系统为纯学术非盈利性的。不得将CCL语料库检索系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。CCL语料库仅供语言研究参考之用。语料本身的正确性需要您自
  • 2024-04-12【论文笔记-5】多语言命名实体识别
    ~2011年WeaklySupervisedNamedEntityTransliterationandDiscoveryfromMultilingualComparableCorpora动机:命名实体识别中许多语言缺乏有监督的数据方法:提出一种(几乎)无监督的学习算法,通过预先给定的与资源丰富的语言弱时间对齐的双语语料库。相关工作:已经有其他工
  • 2024-04-09【论文笔记-4】Cross-lingual learning for text processing: A survey
    跨语言知识迁移学习分类:转移资源:“什么”正在帮助转移multilingualwordembeddings:即来自多种语言的词汇共享一个语义向量空间。已经提出了许多用于训练多语言词嵌入(MWE)的模型(Mikolov,Le,&Sutskever,2013;Ammaretal.,2016;Gouws&Søgaard,2015)。Ruder(2017)提
  • 2024-04-08基于SSE长连接的智能客服问答系统技术方案及完整项目源码
    如果有帮助到您还请动动手帮忙点赞,关注,评论转发,感谢啦!
  • 2024-04-02文心一言 vs GPT-4 —— 全面横向比较
    对于文心一言和GPT-4这两者之间的全面横向比较,我们可以从多个方面来看待它们的区别和优劣势。文心一言文心一言是一款基于深度学习的中文文本生成模型,专注于生成优美的古风诗句和语录。以下是它的一些特点:专注于古风诗句和语录:文心一言的主要特点是生成古风风格的诗
  • 2024-04-02中文自然语言处理小白教程(二)——语料库的安装与使用
    自20世纪80年代以来,随着计算机应用技术的不断发展,世界各大语言都建立了许多不同规模、不同类型的语料库。这些语料库经过深度加工,应用范围也变得越来越广泛,在自然语言处理(NLP)中发挥着越来越重要的作用。因此,语料库已经成为了NLP的重要基础。本章将介绍语料库的基本概念、种类与
  • 2024-03-27笔记-《A Survey of Large Language Models》- 4 预训练
    4预训练预训练为LLM的能力奠定了基础。通过在大规模语料库上进行预训练,LLM可以获得基本的语言理解和生成能力[55,56]。在这个过程中,预训练语料库的规模和质量对于LLM获得强大的能力至关重要。此外,为了有效地预训练LLM,也需要设计好模型架构、加速
  • 2024-02-26选择最适合数据的嵌入模型:OpenAI 和开源多语言嵌入的对比测试
    OpenAI最近发布了他们的新一代嵌入模型embeddingv3,他们将其描述为性能最好的嵌入模型,具有更高的多语言性能。这些模型分为两类:较小的称为text-embeddings-3-small,较大且功能更强大的称为text-embeddings-3-large。这些模型的设计和训练方式的信息披露得很少,模型只能通过付
  • 2024-02-04国产AI模型和美国顶级AI模型的距离在哪?—— 算力?算法?数据?
    前段时间去了长春一汽,聊了ReinforcementLearning方面的工作,既是面试,也是谈了谈意向,最后全部OK,本打算是签合同了,结果HR说要求有三年的社保缴纳证明工作经验,最后说可以减到24个月,不过说来也是有意思,我这人还真没社保,这就尴尬了,最后说这是上面的文件,国企就这要求,后来也只能作罢,但是
  • 2024-02-02HanLP — 命名实体识别
    目录8.命名实体识别8.1概述8.2基于隐马尔可夫模型序列标注的命名实体识别8.3基于感知机序列标注的命名实体识别8.4基于条件随机场序列标注的命名实体识别8.5命名实体识别标准化评测8.6自定义领域命名实体识别8.命名实体识别8.1概述命名实体文本中有一些描
  • 2024-01-31HanLP — 词性标注
    词性(Part-Of-Speech,POS)指的是单词的语法分类,也称为词类。同一个类别的词语具有相似的语法性质所有词性的集合称为词性标注集。词性的用处当下游应用遇到OOV时,可以通过OOV的词性猜测用法词性也可以直接用于抽取一些信息,比如抽取所有描述特定商品的形容词等词性标注词性标注指
  • 2024-01-301月30日(外包杯第一阶段成果验收)
    赛题:【A25】基于大模型语料库问答背景:首先介绍一下赛题的背景,通用型大型语言模型(LLM)已经在许多任务上取得了令人瞩目的成果。一些开源的大模型知识分布虽然很全面,但是在许多特定的垂直业务领域中,由于其与通用领域之间存在较大差异,直接采用开源的通用型LLM经常无法满足该领域应用
  • 2024-01-24大三寒假学习进度笔记15
    今日整理了一下本次项目中使用到的技术 首先数字人方面主要使用到的是辅助神经场(nerf)算法,有关此算法的具体讲解辐射神经场算法——NeRF算法详解-CSDN博客之后是NLP,NLP的全称是NatuarlLanguageProcessing,中文意思是自然语言处理,是人工智能领域的一个重要方向自然语言处理(NL
  • 2024-01-24TF-IDF
    定义:TF-IDF是针对一个文档集合(语料库)设计的,这种统计方法用于评估一个词语对于一份文件的重要程度就是TF-IDF的值越高,这个词在这篇文档中的重要性就越高TF(TermFrequency):这是一个单词在该篇文章中出现的频率。例如,如果一个单词在文档中出现了5次,而文档总共有100
  • 2024-01-22预训练对话大模型深度解读
    预训练对话大模型是自然语言处理领域的一项革命性技术,它通过大规模预训练语料库的利用,实现了对自然语言的高效理解和生成。本文将深入探讨预训练对话大模型的原理、实现方法及其在现实生活中的应用,帮助读者理解这一技术的前沿和潜力。一、预训练对话大模型的原理预训练对话大模型的
  • 2024-01-08Ngram模型在机器翻译中的应用与挑战
    1.背景介绍机器翻译是自然语言处理领域的一个重要研究方向,其目标是将一种自然语言文本自动翻译成另一种自然语言文本。在过去的几十年里,机器翻译技术发展了很长一段时间,从基于规则的方法(如规则引擎和统计规则)开始,到基于模型的方法(如统计模型、深度学习模型等)发展。在这些方法中,N-gr
  • 2023-12-28TF-IDF算法是什么呢?
    TF-IDF(TermFrequency-InverseDocumentFrequency)是一种常用于信息检索和文本挖掘的统计方法,用于评估一个词在文档集或一个语料库中的重要程度。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数
  • 2023-12-22LLM-大模型训练-全参数预训练
    随着深度学习技术的不断发展,大模型训练成为了自然语言处理(NLP)领域的重要研究方向。LLM(LargeLanguageModel)作为其中的一种,在预训练过程中采用了全参数预训练(Full-ParamPre-Training)的方法。本文将重点介绍LLM中的全参数预训练方法及其对LLaMA等模型的影响。一、全参数预训练全参
  • 2023-12-20Fine-Tuning: 精调大模型训练的关键步骤
    在LLM大模型训练的第三个步骤中,我们将探讨指令精调(SuperviserFine-Tuning)的重要性,以及如何利用中文指令语料库进行训练和无监督学习的应用。一、指令精调(SuperviserFine-Tuning)指令精调是一种训练LLM大模型的优化方法,旨在提高模型对于特定任务的性能。该方法的核心思想是将预训练
  • 2023-12-13HanLP — HMM隐马尔可夫模型 -- 语料库
    BMES=>B:词语开始、M:词语中间、E:词语结束、S:单独成词并非所有中文任务都需要分词语料库每行是一篇“文章”每篇文章用空格分开语料库的准确性,严重影响分词结果理论上,语料库越大越好每个字都有一个标识(隐藏状态),可以根据语料库得到所有标识中文分词就是为了得到状态