- 2024-11-05python实战(六)——推特文本分类
一、任务目标 这次我们用的是kaggle的入门数据集《NaturalLanguageProcessingwithDisasterTweets》,为了便于评估建模效果,我们仅使用带标签的train.csv文件。这个任务的目标是根据给出的推特文本判断是否真的是发生了灾难,这是由于一些人会使用与灾难相关的词语
- 2024-10-26python实战(三)——文本向量化/文本表示
一、概念 文本向量化是自然语言处理领域的重要环节,也是现在大语言模型开发重要基础。计算机程序无法理解文字信息(实际上非数值类型的信息都无法理解),因此我们需要将文字信息转换成计算机程序可理解的数值类型。通俗来说就是我们的算法模型是一系列函数和公式的组合
- 2024-10-21大模型agent开发之基于知识库的聊天机器人
1. 文本知识库的加载和分割实现一个智能文档助手,基于已有知识库给向ai发起提问使ai能够基于知识库回答更加准确的答案,首先需要加载对应的文档,文档类型可以是docx,xlsx,md等格式。并且对文档进行分割,将其分割成一块一块的Document类型并转成list类型方便后续处理。defgetFi
- 2024-09-20完善lazarus中文代码补全功能
当lazarus使用中文变量等代码补全时列表没对应的中文变量的: 解决方法:打开相应文件,添加红字代码,修改后重新编译lazarus就可以。1、\lazarus\ide\wordcompletion.pp找到procedureInitCharTable;(lazarus3.4在63行)procedureInitCharTable;varc:char;beginforc:=low(ch
- 2024-09-16对中文进行文本分类的常用方法
一:关键词分类和基于规则的分类关键词分类和基于规则的分类是两种常见的文本分类方法,它们可以应用于中文文本的分类。下面我将详细介绍这两种方法:关键词分类原理:这种方法通过识别文本中出现的特定关键词或短语来确定文本的分类。关键词可以是单个词汇,也可以是短语。应用:在中
- 2024-06-17Python中的属性
Python中的属性主要分为类属性,对象属性。1.类属性 类属性:类所有,所有的实例对象都能够共享,能通过类名和实力对象名访问,当当前的类属性被实例对象通过对象名.属性名的形式调用之后,当前对象就会多出一个实例属性,此后使用对象名.属性名的形式调用的就是对象属
- 2024-05-31山东大学项目实训-基于LLM的中文法律文书生成系统(十四)- RAG(3)
文档问答过程大概分为以下5部分,在Langchain中都有体现。上传解析文档文档向量化、存储文档召回query向量化文档问答今天主要讲langchain在文档embedding以及构建faiss过程时是怎么实现的。源码入口langchain中对于文档embedding以及构建faiss过程有2个分支,1.当第一次
- 2024-03-22LDA主题词提取 完整实战代码 详细代码数据
importpandasaspdfromgensim.modelsimportLdaModelfromgensim.corporaimportDictionaryfromwordcloudimportWordCloudimportmatplotlibimportmatplotlib.pyplotaspltmatplotlib.rcParams['font.sans-serif']=['SimHei']matpl
- 2024-03-15酒店评论情感判断模型训练(非神经网络)
hotel.txt1,距离川沙公路较近,但是公交指示不对,如果是蔡陆线的话,会非常麻烦1,商务大床房,房间很大,床有2M宽,整体感觉经济实惠不错!1,酒店比较新,装潢和设施还不错,只是房间有些油漆味。0,房间设施还可以,但酒店内非常的冷,冬天不推荐入住。0,太令人失望了。太差劲了。0,什么电力
- 2024-03-14Langchain-ChatGLM源码解读(二)-文档embedding以及构建faiss过程
一、简介Langchain-ChatGLM 相信大家都不陌生,近几周计划出一个源码解读,先解锁langchain的一些基础用法。文档问答过程大概分为以下5部分,在Langchain中都有体现。上传解析文档文档向量化、存储文档召回query向量化文档问答今天主要讲langchain在文档embedding以及构建fa
- 2024-03-02点击后鼠标所在的地方出现字符
用户点击页面上的任意一处地方后,在鼠标指针处出现字符!代码部分HTML<divclass='section'@click='showInteresting($event)'><transition-groupname='fade'tag='div'><divv-for='(item)intexts':key='item.
- 2023-12-05包含登陆界面的计算机小程序
1.UI设计(1)登陆界面 (2)注册界面 (3)计算器界面 2.流程图(1)登录流程图 (2)注册流程图 (2)计算器流程图 3.环境操作系统:windows10软件:DeskTopQt6.5.3MSVC2019 64bit4.测试功能效果(1)运行后默认登陆界面1ui->stackedWidget->setCurrentIndex(0);(2)点击登陆页
- 2023-11-27KMP算法
#include<iostream>usingnamespacestd;int*getNext(stringpattern){int*next=(int*)malloc(sizeof(int)*pattern.size());if(next==NULL){returnNULL;}next[0]=-1;intj=-1;for(inti=1;i<p
- 2023-10-30102102151黄靖数据采集实践三
作业一(1)要求:使用单线程和多线程的方法爬取中国气象网的限定数量的图片(2)下面给出代码实现:weather.pyimportscrapyfrom..itemsimportWeatherItemclassweatherSpider(scrapy.Spider):page=0number=0user_agent="Mozilla/5.0(WindowsNT10.0
- 2023-05-17文本分类(上)- 基于传统机器学习方法进行文本分类
简介自己由于最近参加了一个比赛“达观杯”文本智能处理挑战赛,上一周主要在做这一个比赛,看了一写论文和资料,github上搜刮下。。感觉一下子接触的知识很多,自己乘热打铁整理下吧。接着上一篇文章20newsgroups数据介绍以及文本分类实例,我们继续探讨下文本分类方法。文本分类作为NLP领
- 2023-02-04[keras] tokenization
目录keras-tokenization例1例2OOVtokenReferencekeras-tokenizationkeras中的文本标记实用类,用于分词:将文本转换为整数序列(每个数是词在词表中的索引)。将文本处理为
- 2023-02-02python内置函数map
map()函数介绍map()是python的一个内置函数,其作用是返回一个迭代器,该迭代器将function函数应用于iterable的每个项,并产生结果。map函数的语法:map(function,iterable,
- 2023-01-06ABP word下载 模板替换 文件下载
原文:https://github.com/A-Grass-Code/OpenDemo/tree/main/Word模板文件的替换并生成新的Word文件引用的包:DocX代码publicFileResultDownload(intid)
- 2022-11-04Springer数学丛书
1.SpringerUndergraduateMathematicsSeries2.GraduateTextsinMathematics3.UndergraduateTextsinMathematics4.ProblemBooksinMathematics
- 2022-11-01PowerShell 获取虎扑步行街热榜json数据
代码(curl"https://bbs.hupu.com/all-gambia").ParsedHtml.getElementsByClassName('t-info')|%{$texts=$_.getElementsByTagName('span')@{url=