LLM 大模型文档语义分块、微调数据集生成

时间：2024-08-03 13:28:17浏览次数：18

标签：bert chinese sentence 分块语义文档 LLM import

1、LLM 大模型文档语义分块

参考：
https://blog.csdn.net/m0_59596990/article/details/140280541

根据上下句的语义相关性，相关就组合成一个分块，不相关就当场两个快
在这里插入图片描述
语义模型用的bert-base-chinese：
https://huggingface.co/google-bert/bert-base-chinese

代码：
对水浒传的分块

import torch
from transformers import BertTokenizer, BertModel
import re
import os
from scipy.spatial.distance import cosine


def get_sentence_embedding(sentence, model, tokenizer):
    """
    获取句子的嵌入表示

    参数:
    sentence

标签：bert,chinese,sentence,分块,语义,文档,LLM,import
From： https://blog.csdn.net/weixin_42357472/article/details/140889267

计算机毕业设计-基于python高校大学生评奖评优系统【源码+文档+PPT】
精彩专栏推荐订阅：在下方主页......
LLM问答[1]-9.9和9.11哪个大?
摘要使用各种LLM模型进行问答,不保证准确。关键信息模型:gemma2:2b后端:ollama前端:chatbox提示词:小红书的风格是：很吸引眼球的标题，每个段落都加emoji,最后加一些tag。请用小红书风格问答数学角度和版本号角度解释9.9和9.11哪个大?这真是个有趣的问题！......
An Introductory Guide to Fine-Tuning LLMs
AnIntroductoryGuidetoFine-TuningLLMshttps://www.datacamp.com/tutorial/fine-tuning-large-language-modelsFine-tuningLargeLanguageModels(LLMs)hasrevolutionizedNaturalLanguageProcessing(NLP),offeringunprecedentedcapabilitiesintaskslike......
SSM宠物托运网站8m8iz 本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上
本系统（程序+源码+数据库+调试部署+开发环境）带论文文档1万字以上，文末可获取，系统界面在最后面。系统程序文件列表系统内容：用户,经营范围,宠物百科,上门取件,收件人信息,完成下单开题报告内容一、选题背景与意义随着宠物经济的蓬勃发展，宠物托运服务需求日益增长。然而，市场......
SmolLM: 一个超快速、超高性能的小模型集合
简介本文将介绍SmolLM。它集合了一系列最尖端的135M、360M、1.7B参数量的小模型，这些模型均在一个全新的高质量数据集上训练。本文将介绍数据整理、模型评测、使用方法等相关过程。引言近期，人们对能在本地设备上运行的小语言模型的兴趣日渐增长。这一趋势不仅激发了相关业者......
基于java+springboot+vue基于JavaWeb的汽配汽车配件商品销售进销存采购管理系统万字文
前言......
基于java+springboot+vue基于JavaWeb的家装一体化平台装修管理系统家居用品商城设计管
前言......
基于java+springboot+vue基于Javaweb的二手儿童绘本交易系统设计与实现万字文档和PPT(
前言......
基于java+springboot+vue基于javaweb的宠物托管寄养服务管理系统万字文档和PPT(源码+L
前言......
易优CMS模板标签screening文档筛选指定自定义字段读取筛选条件
[基础用法]标签：screening描述：用于在列表页文档筛选场景（支持文章、产品、视频、图集以及自定义等模型）用法：{eyou:screeningid='field'currentclass='active'alltxt='不限'}<divclass="row"><divclass="filter-box"><......

LLM 大模型文档语义分块、微调数据集生成

1、LLM 大模型文档语义分块

相关文章

赞助商

阅读排行