• 2024-07-042024年7月3日Arxiv语言模型相关论文
    RankRAG:在大语言模型中统一上下文排名与检索增强生成原标题:RankRAG:UnifyingContextRankingwithRetrieval-AugmentedGenerationinLLMs作者:YueYu,WeiPing,ZihanLiu,BoxinWang,JiaxuanYou,ChaoZhang,MohammadShoeybi,BryanCatanzaro机构:乔治
  • 2024-06-21一个简单的python脚本,把latex项目的调用资源放在同一级,以便arxiv
    据说上传arxiv时所有资源需要在同一目录,也就是不能有文件夹(只是据说,有人说有文件夹也行,我没试过),所以写了一个简单的小脚本把latex项目的资源(主要是图片)放在和.tex一个路径下:importosimportshutiltex_file='main.tex'img_folder='imgs'encoding_type='utf-8'withopen
  • 2024-06-18Ragas实践问题记录1 ValueError: Directory ./arxiv-papers/ does not exist.
    纯小白,记录一下在尝试ragas时遇到的一些问题。尝试官方文档“CompareLLMsusingRagasEvaluations”时,在Createsynthetictestdata步骤复制github中的代码时,遇到了以下问题:ragas官方文档查看请点此解决方法是前往openxlab下载数据集,再使用本地的路径替换掉报错的地方
  • 2024-06-112024年6月11日Arxiv大语言模型相关论文
    cs.CL:在Token经济中的推理:大语言模型推理策略的预算感知评估原标题:ReasoninginTokenEconomies:Budget-AwareEvaluationofLLMReasoningStrategies作者:JunlinWang,SiddharthaJain,DejiaoZhang,BaishakhiRay,VarunKumar,BenAthiwaratkun摘要:
  • 2024-06-07今日arXiv最热大模型论文:大模型都能怎么用?中南大学最新综述:大模型时代的自然语言处理
    还记得2022年末ChatGPT的横空出世,带来了整个NLP乃至AI领域的震动,随后如LLaMA、ChatGLM、Qwen等类ChatGPT大模型(LLM)开始如雨后春笋般涌现,这些先进的模型不仅展示了在零样本学习中的出色表现,还在多种NLP任务中展示了其强大的能力,例如文本摘要、机器翻译、信息提取和情感分析等,使
  • 2024-06-05AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.25-2024.05.31
    文章目录~1.EmpoweringVisualCreativity:AVision-LanguageAssistanttoImageEditingRecommendations2.Bootstrap3D:Improving3DContentCreationwithSyntheticData3.Video-MME:TheFirst-EverComprehensiveEvaluationBenchmarkofMulti-modalLLMsin
  • 2024-05-29The stuff make you know 90% of what matters today
    ThetechnicalpaperstoshowyouthekeyunderthehoodtechnologiesinAI-2024-05-101.TheAnnotatedTransformer(AttentionisAllYouNeed-https://arxiv.org/pdf/1706.03762)https://nlp.seas.harvard.edu/annotated-transformer/TheTransformerhasbee
  • 2024-05-27MachineUnlearn 的一种方法
    MachineUnlearnMethod半白盒攻击LLMunlearning[1][2]可以视为RLHF的替代方案,用于消除LLM的幻觉,删除受版权保护的内容等,也可以视为事后防御策略,用于防止JailBreak在Eraser:JailbreakingDefense[2:1]文章中,作者直观地认为同一个问题的多个答案应当有相似之处
  • 2024-05-23CeiT:商汤提出结合CNN优势的高效ViT模型 | 2021 arxiv
    论文提出CeiT混合网络,结合了CNN在提取低维特征方面的局部性优势以及Transformer在建立长距离依赖关系方面的优势。CeiT在ImageNet和各种下游任务中达到了SOTA,收敛速度更快,而且不需要大量的预训练数据和额外的CNN蒸馏监督,值得借鉴来源:晓飞的算法工程笔记公众号论文:Incorpora
  • 2024-04-29VIT模型压缩综述(Comprehensive Survey of Model Compression and Speed up for Vision Transformers)
    摘要:  VIT是计算机视觉的开山之作,在不同的领域都表现了优越的性能.但是过大的计算量和内存需求,限制了其使用.该篇综述研究了并评估了四种模型压缩的方法,在VIT上的作用:量化,低秩分解,知识蒸馏,剪枝.系统的分析并比较了这些方法在资源受限的环境下,优化VIT方面的效果.我们
  • 2024-04-23如何提升大模型的Agent推理规划等能力?
    参考地址:https://mp.weixin.qq.com/s/0qkMbzlU9ks6DNS5MBiU8g论文地址:(1)cot:https://arxiv.org/pdf/2201.11903.pdf(2)tot:https://arxiv.org/pdf/2305.10601.pdf(3)react:https://arxiv.org/pdf/2210.03629.pdf(4)reflexion:https://arxiv.org/pdf/2303.11366.pdf(5)agenttunin
  • 2024-04-23大语言模型(LLM)评价指标小汇总
    大语言模型(LLM)评价指标小汇总(也许会更新)from:https://zhuanlan.zhihu.com/p/641416694​目录总之就是接了个小项目,这些天统计了一些LLM评价指标,不算很全面,很多方法的具体操作都不是很熟悉,参考论文也没找全,大家就凑合着看:1.榜单、论文统计方法描述
  • 2024-04-09EI 抽象作品集
    2023年ComputingPermanentsandCountingHamiltonianCyclesFaster(计算积和式和Hamilton路计数的更快算法)arXiv:2309.15422一句话:积和式和Hamilton路计数可以在\(2^{n-\Omega(\sqrtn)}\)时间内完成,之前的最好复杂度是\(2^{n-\Omega(\sqrt{n/\log\logn}
  • 2024-04-04Python - arxiv
    arxiv文章目录arxiv一、关于arxiv.py安装二、使用示例1、获取结果2、下载papers3、自定义client获取结果4、日志三、类型说明1、Client2、Search3、Result一、关于arxiv.pygithub:https://github.com/lukasschwab/arxiv.pyarxiv.py是arXivAPI的
  • 2024-03-29Translation in arxiv
    TranslationtheArxivbyaddingittothebrowservarmathElems=document.querySelectorAll('.ltx_Math,.ltx_equationgroup,.ltx_equation,.ltx_figure,.ltx_table,.ltx_bibitem');//遍历所有元素for(vari=0;i<mathElems.length;i++){//
  • 2024-03-13AI推介-大语言模型LLMs论文速览(arXiv方向):2024.03.05-2024.03.10—(1)
    文章目录~1.EditingConceptualKnowledgeforLargeLanguageModels2.TRAD:EnhancingLLMAgentswithStep-WiseThoughtRetrievalandAlignedDecision3.AreYouBeingTracked?DiscoverthePowerofZero-ShotTrajectoryTracingwithLLMs!4.CanLLMSubstit
  • 2024-01-08探索半监督图卷积网络在医学图像分析中的应用
    1.背景介绍医学图像分析是一种利用计算机科学方法处理、分析和解释医学图像的技术。医学图像分析涉及到的领域包括影像诊断、影像生成、影像处理、影像检测和影像识别等。随着医学图像数据的快速增长,传统的医学图像分析方法已经无法满足现实中的需求。因此,医学图像分析需要借鉴深度
  • 2024-01-08注意力机制与变压器:创新的自注意力机制
    1.背景介绍注意力机制(AttentionMechanism)是一种在深度学习中广泛应用的技术,它可以帮助模型更好地关注输入序列中的关键信息。变压器(Transformer)是一种新型的神经网络架构,它完全基于注意力机制,而不依赖于循环神经网络(RNN)或卷积神经网络(CNN)。这篇文章将详细介绍注意力机制和变压器的
  • 2024-01-01Proximal Policy Optimization (PPO): A Robust and Efficient RL Algorithm
    1.背景介绍ProximalPolicyOptimization(PPO)是一种强化学习(ReinforcementLearning,RL)算法,它在许多实际应用中表现出色,具有较强的鲁棒性和效率。在这篇文章中,我们将详细介绍PPO的核心概念、算法原理、具体实现以及潜在的未来趋势和挑战。1.1强化学习简介强化学习是一种
  • 2023-12-31GANs in the Wild: RealWorld Applications of Generative Adversarial Networks
    1.背景介绍生成对抗网络(GenerativeAdversarialNetworks,GANs)是一种深度学习算法,由伊戈尔·Goodfellow等人于2014年提出。这种算法通过两个神经网络来学习数据分布:一个生成器(Generator)和一个判别器(Discriminator)。生成器的目标是生成类似于训练数据的新数据,而判别器的目标是区分这
  • 2023-12-31GANs in Finance: Uncovering New Investment Opportunities with Generative Adversarial Networks
    1.背景介绍GenerativeAdversarialNetworks(GANs)havebeenahottopicinthefieldofdeeplearningandartificialintelligenceinrecentyears.Theyhaveshowngreatpotentialinvariousapplications,suchasimagesynthesis,dataaugmentation,andanomaly
  • 2023-12-31BERT在语言翻译中的挑战:如何克服语言差异
    1.背景介绍语言翻译是自然语言处理领域的一个重要任务,它涉及将一种语言中的文本翻译成另一种语言。随着大数据时代的到来,语言翻译技术的发展得到了重要的推动。随着深度学习技术的发展,语言翻译技术也从传统的统计模型逐渐转向深度学习模型。在2018年,Google发布了BERT(Bidirectional
  • 2023-12-31Attention Mechanisms in Speech Synthesis: A Revolution in Voice Technology
    1.背景介绍自从深度学习技术在语音合成领域取得了显著的进展,语音合成技术的发展得到了重大的推动。在这一过程中,注意力机制(AttentionMechanisms)发挥了关键作用,为语音合成技术提供了新的思路和方法。本文将从多个角度深入探讨注意力机制在语音合成中的应用和影响。1.1语音合成的发
  • 2023-12-27智能客户关系管理的AI教育与培训
    1.背景介绍智能客户关系管理(CRM)是一种利用人工智能(AI)技术来提高客户关系管理的能力的方法。随着数据分析、机器学习和自然语言处理等技术的不断发展,智能CRM已经成为企业客户关系管理的重要组成部分。在这篇文章中,我们将探讨智能CRM的AI教育与培训,包括背景介绍、核心概念与联系、核
  • 2023-12-27Neural Networks for Game AI: A Comprehensive Overview
    1.背景介绍随着计算机游戏的不断发展和进步,游戏人工智能(AI)已经成为游戏开发中的一个重要组成部分。在过去的几十年里,游戏AI的研究和应用已经取得了显著的进展,但仍然面临着许多挑战。这篇文章将深入探讨神经网络在游戏AI中的应用和挑战,并提供一个全面的概述。神经网络是一种模仿生物