• 2025-01-12SamOut v3 发布-感叹转义词表能力太强【用em(voc_size=8000多,h)表达2000w 词汇 竟然还能,表达5000w词汇,怎一个愁字了得】
    项目地址说明v3主要更换了sky-pile数据集v3使用了转义词表技术,使得8000多的emsize能够表达2000多w的词表v3由于词表是使用jieaba分词,自然在相同token_id数量的情况下信息量更多(更多的字符)v3解码速度保持不变,同样训练消耗算力不变v3幻觉不变v3解码消耗显存
  • 2024-12-05高效训练领域大语言模型的“前预训练”框架
    通用大语言模型(LargeLanguageModels,LLMs)通常需要通过进一步的预训练,以深入掌握特定领域的专业知识。为提升领域大语言模型的预训练效率,并在一定程度上降低对训练数据和资源的依赖,本文提出了一种名为PreparedLLM的“前预训练”框架。该框架旨在优化预训练过程,助力领域模型
  • 2024-12-12第二章 2.4使用序贯方法构建神经网络nn.Sequential() 及打印神经网络模型摘要
     #https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch#https://github.com/PacktPublishing/Modern-Computer-Vision-with-PyTorch###################ChapterTwo#######################################importtorchimporttorch.nnas
  • 2024-12-09TLS1.3抓包分析----解密Application Data
    一、问题描述TLS1.3在两次握手后,开始加入加密传输。具体表现ChangeCipherSpec之后出现ApplicationData(加密后的数据,WireShark不能解密)。二、解决方案tls1.3交互的双方分别是谷歌浏览器和支持tls1.3的服务器。WireShark在抓包过程中的作用是呈现数据交互,它本身不会存储
  • 2024-11-24本博客园自定义样式
    找文章,发现 https://www.cnblogs.com/zhaoqingqing 的博客样式很好,在底部发现是基于ThemeSilencev2.0.2,现在坐着已经更新到v3.0.0-rc2, 作者GitHub:https://github.com/esofar/cnblogs-theme-silence ,自己做了一些小修改。基本可以配置出差不多的,可以参考我的配置:<script>
  • 2024-11-23【核心复现】模拟负荷不确定性——拉丁超立方抽样生成及缩减场景研究(Matlab全代码)
     
  • 2024-09-21Shopee虾皮卖家必备:SEO优化技巧
    互联网时代,信息传播方式与途径的变化使得搜索引擎优化(SEO)越来越重要,要在激烈的市场竞争中脱颖而出,提升所提供的产品和服务的关键字词排名是一个必要方法。一、Shopee卖家为什么要注重SEO1.可见度Shopee是东南亚跨境电商中的头部企业,虾皮的竞争程度自然十分激烈。消费者在搜
  • 2024-09-14TF-IDF(词频-逆文档词频)
    目录1.算法公式1.1TF(词频)1.2IDF(逆文档词频)2.算法使用2.1API使用2.2API工作3.参数详解3.1文档处理相关参数3.2词表构建相关参数3.3影响计算相关参数TF-IDF(TermFrequency–InverseDocumentFrequency)是一种用于信息检索与文本挖掘的常用技术。通过
  • 2024-09-13QA处理训练数据常见的4种方法
       大语言模型训练需要数万亿的各类型数据。如何构造海量“高质量”数据对于大语言模型的训练具有至关重要的作用。构造高质量的训练数据就是QA同学的头等大事,截止到目前,还没有非常好的大模型的理论分析和解释,也缺乏对语言模型训练数据的严格说明和定义。   预训
  • 2024-08-23一文弄懂 LLM 结构化数据生成原理
    前言目前LLM(LargeLanguageModel)从文本补全到内容创作,都展示出了强大的生成能力。然而通过LLM生成结构化的数据如JSON格式的输出,却仍然是一个有挑战性的任务。生成结构化的数据不仅要求模型输出符合特定的语法规则,还需要确保数据的正确性和一致性。虽然通过prompt
  • 2024-07-27《昇思25天学习打卡营第5天|数据变换 Transforms》
    数据变换Transforms通常情况下,直接加载的原始数据并不能直接送入神经网络进行训练,此时我们需要对其进行数据预处理。MindSpore提供不同种类的数据变换(Transforms),配合数据处理Pipeline来实现数据预处理。所有的Transforms均可通过map方法传入,实现对指定数据列的处理
  • 2024-06-30《昇思25天学习打卡营第4天 | 数据变换 Transforms》
    学习内容:MindSpore提供不同种类的数据变换通常情况下,直接加载的原始数据并不能直接送入神经网络进行训练,此时我们需要对其进行数据预处理。MindSpore提供不同种类的数据变换(Transforms),配合数据处理Pipeline来实现数据预处理。所有的Transforms均可通过map方法传入,实现对指
  • 2024-04-07人工智能,应该如何测试?(八)企业级智能客服测试大模型 RAG
    大模型的缺陷–幻觉接触过GPT这样的大模型产品的同学应该都知道大模型的强大之处,很多人都应该调戏过GPT,跟GPT聊很多的天。作为一个面向大众的对话机器人,GPT明显是鹤立鸡群,在世界范围内还没有看到有能跟GPT扳手腕的存在。也许很多人都认为GPT是非常强大的对话机器
  • 2023-12-26用ColossalAI完成一次完整的预训练
    太难了,累懵了,全是坑...   最近没更新,其实有机会(怎么个机会不细说了)可以玩玩两台新出炉的H100,而且是8卡400GIB的,这两台估计已经超过了库里南的价格了,极其的豪华...   因为我正好没看《乡村爱情15》,我买了个youku会员,可以边看《乡村爱情15》边拿H100跑一跑训练,看看具
  • 2023-12-19大语言模型训练数据常见的4种处理方法
    本文分享自华为云社区《浅谈如何处理大语言模型训练数据之一常见的数据处理方法》,作者:码上开花_Lancer。大语言模型训练需要数万亿的各类型数据。如何构造海量“高质量”数据对于大语言模型的训练具有至关重要的作用。虽然,截止到2023年9月为止,还没有非常好的大模型的理论分析
  • 2023-12-06大模型词表构建
    1.引言在文本输入embedding层之前,以中文文本为例,首先对文本进行分词并进行one-hot编码,分词肯定是根据词表来进行分词,那构建一个合适的词表就显得至关重要,过大或者过小都会对后续模型的训练效果产生影响。所以这里介绍当前各个大模型的词表构建方法。2.技术基础在介绍具体的词
  • 2023-10-26多模态大模型的grounding能力
    数据集a)QW-VL:VisualGenome,RefCOCO,RefCOCO+,RefCOCOg,b)CogVLM:Visual7W,Flickr30K-Entitiesc)Kosmos2:GRITOFAUnifyingArchitectures,Tasks,andModalitiesThroughaSimpleSequence-to-SequenceLearningFramework将多模态任务统一为seq2seq,最大模型900M文本,图片
  • 2023-10-01Llama2-Chinese项目:2.2-大语言模型词表扩充
    因为原生LLaMA对中文的支持很弱,一个中文汉子往往被切分成多个token,因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型,然后将中文tokenizer与LLaMA原生tokenizer进行合并,最终得到一个扩展后的tokenizer模型。国内Chinese-LLaMA-Alpaca开源项目详细
  • 2023-09-16Llama2-Chinese项目:2.2-大语言模型词表扩充
      因为原生LLaMA对中文的支持很弱,一个中文汉子往往被切分成多个token,因此需要对其进行中文词表扩展。思路通常是在中文语料库上训练一个中文tokenizer模型,然后将中文tokenizer与LLaMA原生tokenizer进行合并,最终得到一个扩展后的tokenizer模型。国内Chinese-LLaMA-Alpaca开源项目
  • 2023-05-10使用ICTCLAS JAVA版(ictclas4j)进行中文分词(附ictclas,停用词表,commons-lang-2.4.jar下载地址)...
    一、ICTCLAS的介绍中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专
  • 2023-04-14动词过去式、过去分词不规则变化词表
    一般来说,英语中使用过去时、完成时等时态时,动词要变为过去式或过去分词的形式。 那么动词过去式、动词过去分词如何变化呢? 一般情况下,规则动词的过去式、过去分词的构成规则相同。 规则动词变化形式有: ▪直接在动词原型后面+ed构成过去式,如called; ▪以不发音e结尾
  • 2022-12-28常见的分词方法接口+ jieba自定义领域内的词表然后加载词表进行分词
    ​​中文分词常见方法_mandagod的博客_中文分词​​另外,我们收集了如下部分分词工具,供参考:中科院计算所NLPIR ​​http://ictclas.nlpir.org/nlpir/​​ansj分词器 ​​ht
  • 2022-08-18NLP学习
    文本是序列数据的一种最常见的形式之一为了对文本进行预处理,通常将文本拆分成词元,构建词表将词元字符串映射为数字索引,并将文本数据转换为词元索引以供模型操作。