首页 > 其他分享 >文本向量化

文本向量化

时间:2023-11-28 18:14:46浏览次数:40  
标签:AutoTokenizer AutoModel biobert dmis lab v1.1 量化 文本

 

词袋模型,词嵌入等等等等。都需要构建词汇表,个人能力是很有限,根本不可能构建一个效果好的。所以我不使用这些

小型效果也不好,得到96维度的向量。

 

直接使用dmis-lab/biobert-v1.1

地址:dmis-lab/biobert-v1.1 · Hugging Face

# Load model directly
from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("dmis-lab/biobert-v1.1")
model = AutoModel.from_pretrained("dmis-lab/biobert-v1.1")

 

 

结果是三维的

 在通过torch.max min mean等进行降维

标签:AutoTokenizer,AutoModel,biobert,dmis,lab,v1.1,量化,文本
From: https://www.cnblogs.com/mxleader/p/17862595.html

相关文章

  • 输入框、文本域中内容底部有红色波浪线,如何去掉?vue2 html
    取消检查就不会有红色波浪线添加属性:spellcheck="false"1<el-input2type="textarea"3:autosize="{minRows:2,maxRows:40}"4placeholder="请输入内容"5v-model.trim="text"......
  • TTS文本转语音工具
    微信小程序:配音神器Pro(抖音/快手都是用的里面的声音)主流云TTS:微软Azure、阿里、腾讯、讯飞;一、Toolfkhttps://www.toolfk.com/tools/online-text2video.html二、迅捷文字转语音三、微软文字转语音四、当贝文字转语音五、喜马拉雅云剪辑 五、nopapphttp://www.nopapp.com......
  • 倾斜摄影三维模型的根节点合并的轻量化技术方法分析
    倾斜摄影三维模型的根节点合并的轻量化技术方法分析 倾斜摄影三维模型的根节点合并是一种轻量化技术,旨在减小模型数据的大小,提高渲染效率和加载速度。在本文中,我们将探讨关于倾斜摄影三维模型根节点合并的轻量化技术方法。1、LOD(层次细节)技术:LOD是一种常用的轻量化技术,通过......
  • C++ 查找文本文件中字符串是否存在
    简介查找文本文件中字符串是否存在代码#include<iostream>#include<fstream>#include<vector>#include<string>usingnamespacestd;boolSearchString(stringfilePath,stringstrF){vector<string>lines;stringline;ifst......
  • 正则表达式与文本三剑客——grep awk sed
    正则表达式shell:/bin/bash正则表达式:匹配的是文章中的字符通配符:匹配的是文件名?任意单个字符元字符:不表示本来的含义,在正则表达式中有特殊含义的字符正则表达式元字符的使用:自己写很容易,读取别人的很困难正则表达式想用好:记忆元字符的含义多用正则表达式分为:......
  • vue3使用kindeditor富文本编辑器组件,支持上传图片(接口或base64)
    参考文章:https://blog.csdn.net/qq_27936291/article/details/1247689891.安装插件npmi@zhj-target/vue3-kind-editor--save或者yarnadd@zhj-target/vue3-kind-editor2.在vue项目中使用importVue3KindEditorfrom'@zhj-target/vue3-kind-editor'conststate=re......
  • 通过Python进行文本数据分析和自然语言处理
    在当今信息时代,文本数据已经成为获取和传递信息的重要方式之一。而Python作为一种功能强大的编程语言,可以利用其丰富的文本分析库和自然语言处理工具,对文本数据进行有效的挖掘和分析。本文将介绍如何使用Python进行文本数据分析和自然语言处理。1.文本数据预处理在进行文本数据分析......
  • shell变量类型--read--if语句正侧表达式(扩展)文本处理器、awk命令
    变量:是容器,值是可变的,变化的。作用就是增强脚本的灵活性。各种shell环境中都使用了“变量”的概念。shell变量用来存放系统和用户需要使用的特定参数(值),而且这些参数可以根据用户的设定或系统环境的变化而相应变化。通过使用变量,shell程序能够提供更加灵活的功能,适应性更强。变量(数......
  • shell变量类型--read--if语句正侧表达式(扩展)文本处理器、awk命令
    变量:是容器,值是可变的,变化的。作用就是增强脚本的灵活性。各种shell环境中都使用了“变量”的概念。shell变量用来存放系统和用户需要使用的特定参数(值),而且这些参数可以根据用户的设定或系统环境的变化而相应变化。通过使用变量,shell程序能够提供更加灵活的功能,适应性更强。变量(数......
  • ggml教程|mnist手写体识别量化推理
    title:ggml教程|mnist手写体识别量化推理banner_img:https://cdn.studyinglover.com/pic/2023/11/fa14d6dfd95fb9d38276a50a5519e2d2.webpdate:2023-11-1218:49:00ggml教程|mnist手写体识别量化推理MNIST手写体识别是经典的机器学习问题,可以被称作机器学习的helloworld......