llms

2025-01-08Confidence v.s. Critique: A Decomposition of Self-Correction Capability for LLMs
题目信心v.s.批判:LLM自我修正能力的分解论文地址：https://arxiv.org/abs/2412.19513项目地址：https://github.com/Zhe-Young/SelfCorrectDecompose摘要大型语言模型(LLM)可以纠正其自生成的响应，但自纠正后的准确性也有所下降。为了对自我纠错有更深入的理解
2025-01-07LLMs在时间序列中的应用：单个股票和统计套利策略
“LLMsforTimeSeries:anApplicationforSingleStocksandStatisticalArbitrage”论文地址：https://arxiv.org/pdf/2412.09394摘要大型语言模型（LLMs）在时间序列预测任务中展现了强大的能力，颠覆了其不适用于金融市场收益预测的传统观点。通过Chronos架构进行的预
2025-01-03LangChain总结阶段一
了解Prompttemplate，和大模型交互就靠它了提示板(PromptTemplate)是与大型语言模型(LLMs)交互时用来生成结构化提示的工具。它使用Python的str.format方法来构建带有占位符的模板字符串，允许开发者插入特定主题或其他变量以生成定制化的提示。这种方式简化了与LLMs的对话，使得生
2025-01-01您的公司需要小型语言模型
当专用模型超越通用模型时“越大越好”——这个原则在人工智能领域根深蒂固。每个月都有更大的模型诞生，参数越来越多。各家公司甚至为此建设价值100亿美元的AI数据中心。但这是唯一的方向吗？在NeurIPS2024大会上，OpenAI联合创始人伊利亚·苏茨克弗提出了一个观点：“我们所熟知的
2024-12-29【论文带读】LLMs as Zero-shot Graph Learners: Alignment of GNN Representations with LLM Token Embeddings
目录：TEA-GLM(TokenEmbedding-AlignedGraphLanguageModel）（NeurlPS2024）1背景介绍1.1GNN的局限性1.2LLM解决Graph问题的方案1.3LLMs与GNN结合中的关键问题1.4文章贡献2方法2.1模型框架2.2GNN的对比学习2.2.1GNN的实例对比学习2.2.2GNN的特征对比学习2.3
2024-12-27应用层修复大语言模型（LLMs）输出异常 JSON 通用解决方案
摘要：在应用集成大语言模型逐步深入的过程中，对于以JSON为代表的结构化数据输出逐步成为核心用例。在模型无法保证100%生成正确JSON输出的当下，应用层是否有一套能够适配多语言，多种结构化格式，同时提供更为健全修复能力的方案？本文结合个人经验，提出了一个基于ANTLR的修复方
2024-12-27大型语言模型（LLMs）演化树 Large Language Models
大型语言模型（LLMs）演化树LargeLanguageModelsflyfish下面的图来自论文地址Transformer模型（如BERT和GPT-3）已经给自然语言处理（NLP）领域带来了革命性的变化。这得益于它们具备并行化能力（能够同时对输入数据的多个部分进行计算）、处理长距离依赖关系的能力（可以考虑并理解
2024-12-26AAAI-2024 | 大语言模型赋能导航决策！NavGPT：基于大模型显式推理的视觉语言导航
作者：GengzeZhou,YicongHong,QiWu单位：阿德莱德大学，澳大利亚国立大学论文链接：NavGPT:ExplicitReasoninginVision-and-LanguageNavigationwithLargeLanguageModels（https://ojs.aaai.org/index.php/AAAI/article/download/28597/29161）代码链接：https://gi
2024-12-25如果你的大模型很差，请狂背这些……
2024最新常考大模型面试八股大模型(LLMS)基础面1.目前主流的开源模型体系有哪些?2.prefixDecoder和causalDecoder和Encoder-Decoder区别是什么?3.大模型LLM的训练目标是什么?4.涌现能力是啥原因?5.为何现在的大模型大部分是Decoderonly结构?6.简单介绍一下大模型
2024-12-23大语言模型学习工具及资源总结和落地应用
当前，随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels,LLMs）在各个领域的应用日益广泛。以下是国内外常见的大语言模型工具、已经落地部署的应用以及学习相关的网站和资源的详细介绍。一、国内外常见的大语言模型工具国际大语言模型1.OpenAIGPT
2024-12-20PydanticAI --- Agent Framework / shim to use Pydantic with LLMs
PydanticAIhttps://ai.pydantic.dev/PydanticAIisaPythonagentframeworkdesignedtomakeitlesspainfultobuildproductiongradeapplicationswithGenerativeAI.PydanticAIisaPythonAgentFrameworkdesignedtomakeitlesspainfultobuildproduc
2024-12-15ECCV-2024 | NavGPT-2：释放视觉语言大模型的导航推理能力
作者：GengzeZhou,YicongHong,ZunWang,XinEricWang,andQiWu阿德莱德大学，AdobeResearch，上海人工智能实验室，加利福尼亚大学圣克鲁斯分校原文链接：NavGPT-2:UnleashingNavigationalReasoningCapabilityforLargeVision-LanguageModels(https://link.spring
2024-12-14一幅清晰、完整的大模型RAG 技术蓝图
大型语言模型（LLMs）已经成为我们生活和工作的一部分，它们以惊人的多功能性和智能化改变了我们与信息的互动方式。前排提示，文末有大模型AGI-CSDN独家资料包哦！然而，尽管它们的能力令人印象深刻，但它们并非无懈可击。这些模型可能会产生误导性的“幻觉”，依赖的信息可能过时，处理
2024-12-12【论文研读】只用大模型写代码就够了？复旦发布ClassEval，首次评估LLMs类级别代码生成能力，结果喜忧参半
【导读】最近很多企业和校园学生开始使用大模型编程。但是有多少人知道大模型的实际代码生成能力？这篇文章提出了一个新颖的代码生成基准测试ClassEval，专注于类级别的代码生成，这是现有基准测试中较少涉及的领域。文章详细描述了ClassEval的构建过程，并通过实验评估了11种最先
2024-12-10XAI4LLM：结合ML和LLM的医疗诊断框架，通过不同的交互方式（NC/NL-ST）实现信息的有效传递
XAI4LLM：结合ML和LLM的医疗诊断框架，通过不同的交互方式（NC/NL-ST）实现信息的有效传递论文大纲理解1.排除推理：为什么选择LLM而不是传统ML方法？2.比较推理：NCvsNL-ST交互模式3.因果推理：领域知识如何影响模型性能作者解决思路全流程完全拆解数据分析解法拆解为什么作者选
2024-12-08Designing an LLMs accelerator
Assignment4220pts(+140bonuspts)Duedate:11:59PMPST,Dec6(Fri),2024Readtheentiredocumentcarefullyandprovideappropriateanswersbasedonthecontext.<Backgrounds>Figure1.Anillustrationofthebatchedmatrixmultiplication(BMM)
2024-12-06人工智能代理与代理系统的演变
人工智能代理（AIAgents）的演变经历了从简单的起步阶段到如今系统化的进展，这些系统结合了内部控制机制、外部语境基础以及认知输入，从而实现了更复杂和动态的交互。大型语言模型（LLMs）在知识和推理能力方面存在固有限制。具备语言能力的人工智能代理通过将LLMs与内部记忆和外部环境连
2024-12-04大模型（LLMs）学习笔记——基础知识
目录：前排提示，文末有大模型AGI-CSDN独家资料包哦！一.大模型介绍二.LayerNormalization三.激活函数四.Attention五.transformers函数六.损失函数七.相似度函数一.大模型介绍1.目前主流的开源模型体系有哪些？（1）CausalDecoder（因果解码器）介绍：从左到右的单项注
2024-12-02【大模型新书PDF分享】掌握大语言模型：高级技术、应用、尖端方法和顶尖LLMs
![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/93e5a5c008474f72a0335083ef9c4893.png)我已将这本大模型书籍免费分享出来，需要的小伙伴可以扫取。主要特性探索自然语言处理（NLP）基础和大语言模型基本原理，包括基础知识、挑战和模型类型。学习数据处理和预处
2024-11-29使用ROCm在AMD GPU上进行Llama 3.2视觉LLMs推理
InferencewithLlama3.2VisionLLMsonAMDGPUsUsingROCm—ROCmBlogsMeta的Llama模型现在支持多模态功能，扩展了其在传统文本应用之外的应用范围。Llama3.2模型有多种尺寸，包括用于视觉-文本推理任务的中型11B和90B多模态模型，以及为边缘和移动设备设计的轻量级1B和3B
2024-11-27从头开始构建一个大型语言模型《Build a Large Language Model (From Scratch)》附PDF版，爆火全网的大模型书籍
通过从头开始构建一个大型语言模型，了解如何创建、训练和调整大型语言模型（LLMs）！一、构建大型语言模型（从头开始）在《构建大型语言模型（从头开始）》中，你将了解如何LLMs从内到外工作。在这本富有洞察力的书中，畅销书作家塞巴斯蒂安·拉施卡（SebastianRaschka）将指导你逐步创建
2024-11-24表格数据处理中大语言模型的微调优化策略研究
论文地址ResearchonFine-TuningOptimizationStrategiesforLargeLanguageModelsinTabularDataProcessing论文主要内容这篇论文的主要内容是研究大型语言模型（LLMs）在处理表格数据时的微调优化策略。具体来说，论文探讨了以下几个关键方面：背景与挑战：大型语言模型
2024-11-2451c大模型~合集78
我自己的原文哦~ https://blog.51cto.com/whaosoft/12642335#LTX-VideoRTX4090可跑、完全开源，最快视频生成模型问世，实测一言难尽开源AI视频社区又一个重量级选手下场。这个周末，押注开源人工智能视频的初创公司Lightricks，有了重大动作。该公司推出了最快的视频
2024-11-24LLM应用测试策略与方法
评估LLMs是一个复杂的过程，因为与传统软件开发不同，LLMs的结果不可预测，缺陷也无法像逻辑可以归因于特定代码块那样进行调试。LLMs是一个黑盒，具有无限可能的输入和输出。然而，这并不意味着传统软件测试中的概念不能应用于测试LLMs。单元测试构成了功能测试、性能测试和可靠性测试，它们
2024-11-23机器学习（ML）和大型语言模型（LLMs）学习路线图
学生应该在微积分、统计学、计量经济学、基本经济理论和任何高级语言（最好是Python）的编程经验方面有扎实的基础。微积分有助于理解优化问题，这是许多机器学习算法的核心，特别是在梯度下降和神经网络。统计对于理解概率分布、假设检验和推理至关重要，这些是大多数机器学习模型的