语料库

2024-12-11中国网络空间安全协会发布用于大模型的首批中文基础语料库
中文基础语料库页面截图。澎湃新闻从中国网络空间安全协会获悉，12月20日，中国网络空间安全协会人工智能安全治理专业委员会在北京发布了用于大模型的首批中文基础语料库。中国网络空间安全协会相关负责人介绍，在中央网信办相关业务部门指导下，网安协会人工智能安全治理专委会会
2024-12-02哪些工具可以有效解决团队协作障碍？
团队协作是现代工作环境中至关重要的一部分，但在实际操作中，很多团队面临着协作中的各种障碍。这些障碍不仅影响工作效率，也可能阻碍团队成员之间的合作与信任建设。根据PatrickLencioni在《团队协作的五大障碍》中的理论，团队协作的五大障碍分别是：缺乏信任、害怕冲突、欠缺投入、逃
2024-10-24解锁NLP新境界：免费语料库资源大揭秘！
欢迎关注我
2024-10-10A Taxonomy for Data Contamination in Large Language Models
本文是LLM系列文章，针对《ATaxonomyforDataContaminationinLargeLanguageModels》的翻译。大型语言模型中数据污染的分类法摘要1引言2分类3方法4案例研究：摘要5案例研究：问答6分析7结论8局限性摘要在广泛的Web语料库上预训练的大型语言模
2024-10-01斯坦福：合成LLM持续预训练语料
2024-08-13Milvus向量数据库-BM25稀疏嵌入
milvus向量数据库milvus支持混合搜索，多个向量同时检索，然后进行重排序最终返回结果。多向量包括（多个密集向量或稀疏向量）Embedding嵌入它是一种机器学习概念，用于将数据映射到高维空间，其中具有相似语义的数据被放置在一起。通常是来自BERT或其他Transformer家族的深度神经
2024-08-12词向量的转换理解以及与真实的关系
实际上就是去除该矩阵的某一行。该矩阵实际上就是一个有N个词的300维向量，或者说该矩阵就是一个完整的词向量词汇表。而这个词汇表是通过交叉熵损失最小来构造的。即归根到底是“在特定语料库中（包含context中共现概率），以数学方法计算输入产生哪些输出”最复合“实际情况，即语料
2024-06-15【NLP-08】NLP的语料库整理
史上最全开源中文NLP数据集：包括10大类、142条数据源，总有你钟意的那一款，后续将会对数据集进行动态更新；本项目中的NLP数据集囊括了NER、QA、情感分析、文本分类、文本分配、文本摘要、机器翻译、知识图谱、语料库以及阅读理解等10大类共142个数据集。具体而言，对于每
2024-06-11欢乐多国际尬聊语料库 keyword分析 23个视频
Type POS Headword Rankyou None None 1i None None 2okay None None 3yeah None None 4ha None None 5know None None 6oh None None 7like Non
2024-06-11欢乐多国际尬聊语料库 n-gram分析 23个视频
hihellosize2Type Rank Freqim 1 202dont 2 181its 3 156idon 4 126haha 5 118thats 6 109youknow 7 104（youknowi）youre 8 95thankyou 9 84okayokay 1
2024-06-01基于n-gram语言模型实现输入单词推荐功能（附源码及语料库）
一、开发环境1.语言：python2.开源工具：nltk3.语料库：维基百科英文语料库二、环境配置关于pyhton项目对nltk的部署，我看了以下文章。NLTK库安装教程在安装nltk库的过程中，我又遇到了pip更新的问题，看了以下文章。PIP更新三、实验要求利用n-gram语言模型完成，输入文字
2024-05-07中文语料库没有类似https://www.english-corpora.org/里的 A/B compare的好用的
BCC一旦用~，统计，就查不全CCL有个“搭配查询”但是很不好用，必须指明词性和词长/距离，coca里任意1-4距离，词性也是任意搭配查询，用于查询（对比）不同动词前后的共现名词的频次差异。例如：查询表达式“刷(n,=2)|擦(n,=2)”，表示查询“刷”和“擦”后面的词长为2的名词。两个动词
2024-04-20http://ccl.pku.edu.cn:8080/ccl_corpus/CCLCorpus_Readme.html
北京大学CCL语料库简介语料库网址： http://ccl.pku.edu.cn:8080/ccl_corpusCCL语料库及其检索系统为纯学术非盈利性的。不得将CCL语料库检索系统及其产生的检索结果用于任何商业目的。CCL不承担由此产生的一切后果。CCL语料库仅供语言研究参考之用。语料本身的正确性需要您自
2024-04-12【论文笔记-5】多语言命名实体识别
~2011年WeaklySupervisedNamedEntityTransliterationandDiscoveryfromMultilingualComparableCorpora动机：命名实体识别中许多语言缺乏有监督的数据方法：提出一种（几乎）无监督的学习算法，通过预先给定的与资源丰富的语言弱时间对齐的双语语料库。相关工作：已经有其他工
2024-04-09【论文笔记-4】Cross-lingual learning for text processing: A survey
跨语言知识迁移学习分类：转移资源：“什么”正在帮助转移multilingualwordembeddings：即来自多种语言的词汇共享一个语义向量空间。已经提出了许多用于训练多语言词嵌入（MWE）的模型（Mikolov,Le,&Sutskever,2013;Ammaretal.,2016;Gouws&Søgaard,2015）。Ruder(2017)提
2024-04-08基于SSE长连接的智能客服问答系统技术方案及完整项目源码
如果有帮助到您还请动动手帮忙点赞，关注，评论转发，感谢啦！
2024-04-02文心一言 vs GPT-4 —— 全面横向比较
对于文心一言和GPT-4这两者之间的全面横向比较，我们可以从多个方面来看待它们的区别和优劣势。文心一言文心一言是一款基于深度学习的中文文本生成模型，专注于生成优美的古风诗句和语录。以下是它的一些特点：专注于古风诗句和语录:文心一言的主要特点是生成古风风格的诗
2024-04-02中文自然语言处理小白教程（二）——语料库的安装与使用
自20世纪80年代以来，随着计算机应用技术的不断发展，世界各大语言都建立了许多不同规模、不同类型的语料库。这些语料库经过深度加工，应用范围也变得越来越广泛，在自然语言处理（NLP）中发挥着越来越重要的作用。因此，语料库已经成为了NLP的重要基础。本章将介绍语料库的基本概念、种类与
2024-03-27笔记-《A Survey of Large Language Models》- 4 预训练
4预训练预训练为LLM的能力奠定了基础。通过在大规模语料库上进行预训练,LLM可以获得基本的语言理解和生成能力[55,56]。在这个过程中,预训练语料库的规模和质量对于LLM获得强大的能力至关重要。此外,为了有效地预训练LLM,也需要设计好模型架构、加速
2024-02-26选择最适合数据的嵌入模型：OpenAI 和开源多语言嵌入的对比测试
OpenAI最近发布了他们的新一代嵌入模型embeddingv3，他们将其描述为性能最好的嵌入模型，具有更高的多语言性能。这些模型分为两类:较小的称为text-embeddings-3-small，较大且功能更强大的称为text-embeddings-3-large。这些模型的设计和训练方式的信息披露得很少,模型只能通过付
2024-02-04国产AI模型和美国顶级AI模型的距离在哪？—— 算力？算法？数据？
前段时间去了长春一汽，聊了ReinforcementLearning方面的工作，既是面试，也是谈了谈意向，最后全部OK，本打算是签合同了，结果HR说要求有三年的社保缴纳证明工作经验，最后说可以减到24个月，不过说来也是有意思，我这人还真没社保，这就尴尬了，最后说这是上面的文件，国企就这要求，后来也只能作罢，但是
2024-02-02HanLP — 命名实体识别
目录8.命名实体识别8.1概述8.2基于隐马尔可夫模型序列标注的命名实体识别8.3基于感知机序列标注的命名实体识别8.4基于条件随机场序列标注的命名实体识别8.5命名实体识别标准化评测8.6自定义领域命名实体识别8.命名实体识别8.1概述命名实体文本中有一些描
2024-01-31HanLP — 词性标注
词性（Part-Of-Speech，POS）指的是单词的语法分类，也称为词类。同一个类别的词语具有相似的语法性质所有词性的集合称为词性标注集。词性的用处当下游应用遇到OOV时，可以通过OOV的词性猜测用法词性也可以直接用于抽取一些信息，比如抽取所有描述特定商品的形容词等词性标注词性标注指
2024-01-301月30日（外包杯第一阶段成果验收）
赛题：【A25】基于大模型语料库问答背景：首先介绍一下赛题的背景，通用型大型语言模型（LLM）已经在许多任务上取得了令人瞩目的成果。一些开源的大模型知识分布虽然很全面，但是在许多特定的垂直业务领域中，由于其与通用领域之间存在较大差异，直接采用开源的通用型LLM经常无法满足该领域应用
2024-01-24大三寒假学习进度笔记15
今日整理了一下本次项目中使用到的技术首先数字人方面主要使用到的是辅助神经场（nerf）算法，有关此算法的具体讲解辐射神经场算法——NeRF算法详解-CSDN博客之后是NLP，NLP的全称是NatuarlLanguageProcessing，中文意思是自然语言处理，是人工智能领域的一个重要方向自然语言处理（NL