杂物箱 | Doc2Vec代码实现

时间：2022-10-07 15:24:16浏览次数：34

标签：cut text 代码 train import model data Doc2Vec 杂物箱

1 分词

import gensim
import re
import jieba
import pandas as pd
import os
from gensim.models.doc2vec import Doc2Vec
def cut_txt(text):
    text = re.sub(u'[^\u4e00-\u9fa5]', '', text)
    words = jieba.lcut(text, cut_all=False)
    new_text = ""
    fs = open("data/stoplist.txt", 'r', encoding='utf-8')
    stoplist = fs.read()
    stoplist = stoplist.split('\n')
    for w in words:
        if (w not in stoplist and len(w) > 1):
            new_text += w + ' '
        if (w == "\n"):
            new_text += w
    return new_text

data = pd.read_csv("data/all_data.csv", encoding="utf-8")
b = data["text"].astype(str).apply(cut_txt).tolist()

2 转换TaggedDocument

TaggededDocument = gensim.models.doc2vec.TaggedDocument
def X_train(cut_sentense):
    x_train = []
    for i, text in enumerate(cut_sentense):
        word_list = text.split(' ')
        l = len(word_list)
        word_list[l-1] = word_list[l-1].strip()
        document = TaggededDocument(word_list, tags=[i])
        x_train.append(document)
    return x_train
c = X_train(b)

3 训练

def train(x_train, size=768):
    model = Doc2Vec(x_train, min_count=1, window=3, vector_size=size, sample=1e-3, workers=4)
    model.train(x_train, total_examples=model.corpus_count, epochs=10)
    return model
model_dm = train(c)

4 结果

# 句向量转换
test_text = data[i].split(' ')
inferred_vector = model_dm.infer_vector(doc_words=test_text)
# 计算相似度
sims = model_dm.docvecs.most_similar([inferred_vector], topn=10)

标签：cut,text,代码,train,import,model,data,Doc2Vec,杂物箱
From： https://www.cnblogs.com/rachel0701/p/16759795.html

腾讯优图——分布式知识蒸馏损失改善人脸识别困难样本（附论文代码）
计算机视觉研究院专栏作者：Edison_GECCV2020即将要开始，很多互联网络公司都有技术论文中标，腾讯优图就8篇入选，涵盖了目标跟踪、行人重识别、人脸识别等领域。今天我们详细分析......
又一新框架｜无监督图像转换任务新境界（附论文代码）
计算机视觉研究院2020IEEE国际计算机视觉与模式识别会议（IEEEConferenceonComputerVisionandPatternRecognition，简称CVPR）公布接收论文结果。清华大学计算机系“类脑......
BackgroundService 利用托管服务执行后台代码
ASP.NETCore中提供了托管服务(hostedservice)来供我们编写运行在后台的代码。只要继承抽象类BackgroundService，并实现方法 ExecuteAsync()，如果有需要释放的资源，......
CVPR2020 | 抑制不确定性用于大规模人脸表情识别（附源代码）
扫码关注我们公众号 :计算机视觉战队扫码回复：人脸表情，获取链接今天我们推送一篇关于人脸识别的文献，目前被CVPR2020录为最佳人脸识别框架之一。这次“计算机视觉研究院”简......
代码实践 | CVPR2020——AdderNet（加法网络）迁移到检测网络（代码分享）
公众号 :计算机视觉战队扫码回复：加法网络，获取源码论文链接记得前段时间“计算机视觉研究院”推送了一篇关于CVPR2020最佳分类的文献（链接：CVPR2020最佳目标检测|Adder......
KAL1 LINUX 官方文档之arm板版本 --- 在 ARM 设备上运行 x86 代码（更新于2022）
要运行x86代码，我们将使用qemu-user-static。安装必要的包kali@kali:~$sudoaptupdatekali@kali:~$kali@kali:~$sudoaptinstall-yqemu-user-staticbinfmt......
[答疑精选]EA生成代码变量命名不要m前缀，采用首字母小写咋设置（2016/3/26）
EA生成代码变量命名不要m前缀，采用首字母小写咋设置ANT:潘老师。ea里面要表示一个数组类型的属性怎么弄啊？c模板，变量命名不要m前缀，采用首字母小写咋设置潘加宇:数组已经是实现......
手撕堆排序（含图解，代码）
本篇重点1.什么是堆，有什么特性？2.堆排序概述3.堆排序图解4.代码5.堆排序时间复杂度/空间复杂度/稳定性6.堆排序/堆适用场景什么是堆1.堆是完全二叉树。一棵......
javascript 经典功能代码和经验教程
调整iframe的大小以适应其内容.txt:https://url18.ctfile.com/f/7715018-689115337-e76d2a?p=6511(访问密码:6511)调整表格列的大小.txt:https://url18.ctfile.com/f......
51单片机代码
延时函数：typedefunsignedintu16;voiddelay(u16i)//延时函数，i=1时，大约延时10us，i=50000时，大约延时450ms{while(i--);}voiddelay1s()//延时函数，延时1秒......

杂物箱 | Doc2Vec代码实现

1 分词

2 转换TaggedDocument

3 训练

4 结果

相关文章

赞助商

阅读排行