• 2025-01-21关于双塔模型的简单介绍
            双塔模型是一种常用于推荐系统和信息检索等领域的深度学习架构,其核心思想是将用户和物品分别映射到不同的向量空间,通过计算两个向量的相似度来预测用户对物品的偏好或相关性。1.python示例 使用python语言来简单示例一下实现过程如下:importtensorflowas
  • 2025-01-20AI - 大模型的类别对比:LLM,Text Embedding,Rerank,Speech to text,TTS
    以下是大模型的几种类别对比:LLM、TextEmbedding、Rerank、SpeechtoText、TTS。LLM(大语言模型)定义:通过在大规模文本数据上进行预训练,学习语言的规律和模式,获得通用语言理解能力和生成能力的模型。特点:参数量大,计算资源需求高。具有强大的语言理解能力和生成能力
  • 2025-01-16Datawhale组队学习打卡-Fun-transformer-Task1引言
    文章目录写在前面Embedding:词汇到向量空间的映射**引入Embedding的意义****1.Embedding的定义****2.高维稀疏表示的特点****3.区别****1.什么是Embedding****2.Embedding的作用****3.一些常见的Embedding方法****4.代码示例****5.一些拓展**Seq2SeqSeq2Seq
  • 2025-01-14搜广推校招面经七
    抖音推荐算法一、广告系统中的数据流处理方法,怎么避免延迟回流问题延迟回流问题是指,实时系统(如广告点击预估)中,历史数据未及时更新或发生延迟,导致系统的实时预测偏离实际情况。避免延迟回流的方法有使用高效的流处理框架Kafka、Flink等流处理工具,确保实时性;使用滑动
  • 2025-01-14嵌入Embedding-计算理解语言的钥匙
    定义:将人类语言与数字建立联系的强大方法嵌入技术的演变:Wod2VecCBOW(ContinuousBagofWords):根据上下文词汇预测目标词汇(情感分析、文本分类、词相似性)Skip-Gram:根据目标单词预测周围单词在训练Word2Vec模型时,包含词典和词向量模型的训练词典的构建是训练过程的一部分。具
  • 2025-01-11使用自然语言查询 Supabase 的实践指南
    在本篇文章中,我们将介绍如何使用自然语言结构化查询Supabase数据库。Supabase是一个开源的Firebase替代品,构建在PostgreSQL之上。通过使用pgvector来存储嵌入向量,可以使得数据库的查询更为智能和高效。技术背景介绍Supabase提供了一种现代化的数据库管理方式,通
  • 2025-01-09240418PingCAP | TiDB Vector 太香啦:以图搜图初体验!
    本文来源公众号“PingCAP”,仅用于学术分享,侵权删,干货满满。原文链接:TiDBVector太香啦:以图搜图初体验!1导读TiDBServerless上的向量化功能终于开始邀约体验啦!本文是来自TiDB社区用户对TiDBVector功能初体验的详细分享,hey-hoho介绍了他从申请体验到实际操作的全过程
  • 2025-01-05PEPNet:融合个性化先验信息的多场景多任务网络
    论文链接:https://arxiv.org/pdf/2302.01115背景&动机现在推荐系统大多为多场景多任务,如下图所示,有多个页面,每个页面视为一个场景,如快手的精选、首页、发现页面,每个场景下有多个任务,如点赞、关注、收藏等。如果每个场景、每个任务都训练一个独立的模型,当场景、任务很多的
  • 2024-12-29深度解析 Transformer 模型中的位置嵌入(Positional Embedding)
    在上一篇中,我们探讨了词嵌入(WordEmbedding),它根据词嵌入矩阵将文本序列转换为数值向量,使得计算机能够理解和处理自然语言。现在,让我们进一步了解位置嵌入(PositionalEmbedding),这是让Transformer模型“知晓”词语顺序的关键。1.位置嵌入的作用想象一下,如果我们只用词嵌入,那
  • 2024-12-28基于insightface实现人脸注册和识别对比
    下面是一个完整的示例代码,演示如何使用insightface库实现人脸注册和对比。此示例包括人脸检测、特征提取、注册新的人脸以及对比已注册的人脸特征。安装依赖首先,确保你已经安装了insightface库:pipinstallinsightface人脸注册与对比以下代码演示了如何使用insig
  • 2024-12-18在 Spark 上实现 Graph Embedding
            在Spark上实现GraphEmbedding主要涉及利用大规模图数据来训练模型,以学习节点的低维表示(嵌入)。这些嵌入能够捕捉和反映图中的节点间关系,如社交网络的朋友关系或者物品之间的相似性。在Spark上进行这一任务,可以使用Spark的图计算库GraphX或者利用外部
  • 2024-12-17轻量高效的知识图谱RAG系统:LightRAG
    LightRAG是港大DataLab提出一种基于知识图谱结构的RAG方案,相比GraphRAG具有更快更经济的特点。架构1索引阶段:对文档进行切分处理,提取其中的实体和边分别进行向量化处理,存放在向量知识库2检索阶段:对用于输入分别提取局部和全局关键词,分别用于检索向量知识库中的实体和边关
  • 2024-12-14语义缓存:提升 RAG 性能的关键策略
    检索增强生成(Retrieval-AugmentedGeneration,简称RAG)(RAG综述:探索检索增强生成技术的多样性与代码实践)技术已经成为构建高性能AI模型的重要基石。RAG通过结合先进的语言模型与外部知识检索,能够生成既准确又富含上下文的响应。然而,尽管RAG功能强大,但它也伴随着一系列挑战,如高令牌
  • 2024-12-13DINOv2
    (一)dataprocessing1.1去重最开始精选数据集(curateddata)+未整理数据池(uncurateddata)包含1.2B张图像copydetectionpipeline-"ASelf-SupervisedDescriptorforImageCopyDetection"简称方法SSCD,是基于SimCLR的改进使用SSCD方法对图片抽取embedding,然后进行K-NN聚类(K=
  • 2024-12-13深入解析 Transformers 框架(五):嵌入(Embedding)机制和 Word2Vec 词嵌入模型实战
    通过前面几篇关于Transformers框架的技术文章,我们探讨了大模型的配置、分词器和BPE(Byte-PairEncoding)分词算法。这些技术帮助我们将一段文本序列处理成一个Token(词元)列表,并为每个Token分配一个唯一的TokenID。然而,这仅仅是大模型输入层工作的第一步。接下来,我们将深入探
  • 2024-12-07[利用自然语言查询Supabase:打造智能化数据库检索应用]
    引言在当今信息爆炸的时代,高效检索和分析数据变得尤为重要。Supabase作为一种开源的Firebase替代方案,结合了PostgreSQL的强大功能,尤其在处理嵌入和自然语言查询方面表现出色。本篇文章将介绍如何利用self-query-supabase模板,将自然语言查询功能集成到您的Supabase数据库中
  • 2024-12-03ComE:Learning Community Embedding with Community Detection and Node Embedding on Graphs阅读笔记
    ComE(CommunityEmbedding)LearningCommunityEmbeddingwithCommunityDetectionandNodeEmbeddingonGraphs用社区检测和图上的节点嵌入学习社区嵌入论文来源:CIKM2017https://www.sentic.net/community-embedding.pdf【2017】项目地址:https://github.com/andompesta/Co
  • 2024-12-03大模型面试题:目前大模型中的位置编码有哪些?
    我整理了1000道算法面试题,可以在下面的地方获取,面试题还是有点多的在大模型中,位置编码主要分为两大派:绝对位置编码和相对位置编码。主流的几种脍炙人口的位置编码如下所示:正弦编码正弦曲线(Sinusoidal)位置编码:这是Transformer原始论文中提出的位置编码方式。它通过正弦和
  • 2024-12-02循环神经网络设计同样可以使用预训练词“嵌入”
    序言:重新训练人工智能大型模型是一项复杂且高成本的任务,尤其对于当前的LLM(大型语言模型)来说,全球99.99%的企业难以承担。这是因为模型训练需要巨大的资源投入、复杂的技术流程以及大量的人力支持。因此,无论在科学研究还是实际应用中,人们通常依赖开源的预训练模型及其已经学习
  • 2024-12-02循环神经网络设计同样可以使用预训练词“嵌入”
    序言:重新训练人工智能大型模型是一项复杂且高成本的任务,尤其对于当前的LLM(大型语言模型)来说,全球99.99%的企业难以承担。这是因为模型训练需要巨大的资源投入、复杂的技术流程以及大量的人力支持。因此,无论在科学研究还是实际应用中,人们通常依赖开源的预训练模型及其已经学习到的
  • 2024-11-24PostgreSQL 数据库向量化的核心:pgvector
    pgvector介绍pgvector是一款开源的向量搜索引擎,除了具备所有Postgres数据库的特性外,最主要的特点是能在Postgres数据库存储和检索向量数据,支持向量的精确检索和模糊检索。向量格式除了传统embedding模型的单精度浮点数外,还支持半精度浮点数,二元向量或者稀疏向量。安装Dockerdo
  • 2024-12-13C++中多态性在实际项目中的应用场景有哪些?
    一、图形绘制系统:在一个图形绘制系统中,可以定义一个抽象的图形类,然后派生出各种具体的图形类,如圆形、矩形、三角形等。通过多态性,可以使用一个统一的接口来绘制不同类型的图形,而不需要为每种图形都编写单独的绘制函数。二、游戏开发在游戏开发中,不同的游戏角色可能有不同的
  • 2024-12-12信而泰网络测试仪校准解决方案
     一、影响仪表精度的因素网络测试仪是用于对数据网络及其相关设备性能参数进行测试的仪表,可以模拟网络终端产生流量,进行网络性能测试,对网络状态进行实时监测,分析和统计。数字计量对于精准数据的网络测试仪来说是一剂强心针,它能促进网络测试仪的规范化、数据化、准确化,测试仪出
  • 2024-12-09‌System Prompt VS User Prompt
    SystemPrompt(系统提示词)与UserPrompt(用户提示词)在定义、作用和特点上存在显著区别。‌定义‌SystemPrompt‌:系统提示词是指向AI提供的一组初始指令或背景信息,用于指导AI的行为方式和响应模式。它帮助设定AI的角色、语气、知识范围等,确保AI能够按照预期的方式与用户互动
  • 2024-12-08一文搞懂SQL存储过程创建
    一文搞懂SQL存储过程创建