LLMS

2024-11-08LLM APPLICATIONS ABILITIES LIMITS
applicationandabilityhttps://arxiv.org/pdf/2402.15116LMAs,proficientinprocessingdiversedatamodalities,surpasslanguage-onlyagentsindecision-makingandresponsegenerationacrossvariedscenarios.Theiradaptabilitymakesthemexceptionallyu
2024-11-08大模型（LLMs）学习笔记——进阶知识
一.生成式大模型简介1.什么是生成式大模型前排提示，文末有大模型AGI-CSDN独家资料包哦！生成式大模型(一般简称大模型LLMs)是指能用于创作新内容，例如文本、图片、音频以及视频的一类深度学习模型。相比普通深度学习模型，主要有两点不同:模型参数量更大，参数量都在Billion
2024-11-08大模型（LLMs）学习笔记——基础知识
一.大模型介绍1.目前主流的开源模型体系有哪些？前排提示，文末有大模型AGI-CSDN独家资料包哦！（1）CausalDecoder（因果解码器）介绍：从左到右的单项注意力代表模型：ChatGPT、LLaMA-7B、LLaMa系列。（2）PrefixDecoder（前缀解码器）介绍：输入双向注意力，输出单向注意力代表模型：ChatGLM、
2024-11-05全网最详细大语言模型(LLM)入门学习路线图
Github项目上有一个大语言模型学习路线笔记，它全面涵盖了大语言模型的所需的基础知识学习，LLM前沿算法和架构，以及如何将大语言模型进行工程化实践。这份资料是初学者或有一定基础的开发/算法人员入门活深入大型语言模型学习的优秀参考。这份资料重点介绍了我们应该掌握哪些核
2024-11-05计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01目录文章目录计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01目录1.APerspectiveforAdaptingGeneralistAItoSpecializedMedicalAIApplicationsandTheirChallenges2.S
2024-11-04大模型的微调新思路：XGBLoRA的崛起
2024-11-02NLP论文速读|DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models
论文速读|Duty-distinctchain-of-thoughtpromptingformultimodalreasoninginlanguagemodels论文信息:简介：论文探讨了如何使大型语言模型（LLMs）在多模态环境中进行复杂的推理，这一直是人工智能系统的长期目标。尽管最近的研究表明，通过模仿人类思维过程的“
2024-11-01Unleashing Reasoning Capability of LLMs via Scalable Question Synthesis from Scratch
1.概述LLM的SFT数据合成工作不可避免的可以划分为多个阶段：指令合成响应合成数据筛选。本篇文章采用了传统LLM的训练过程（SFT+DPO）进行数据合成。在领域专有模型（DeepSeekMath7B-RL，Qwen2-Math-7BInstruct）的基础上，指令合成：通过QFT（即SFT）使得模型能够正确的生成要求的指令，再
2024-10-31大模型算法面试题总结
更多面试题总结，请移步至https://i.afbcs.cn/naPbNY1.什么是大型语言模型（LLMs）以及它们的工作原理是什么？大型语言模型（LLMs）是设计用来理解、处理和生成类似人类文本的高级人工智能系统。例子包括GPT（生成预训练变换器）、BERT（来自变换器的双向编码器表示）、Claude和Llama。这些
2024-10-29大规模语言模型从理论到实践智能代理的应用实例
大规模语言模型，智能代理，自然语言处理，深度学习，Transformer，应用实例1.背景介绍近年来，人工智能领域取得了令人瞩目的进展，其中大规模语言模型（LargeLanguageModels，LLMs）作为一种重要的代表，展现出强大的文本生成、理解和翻译能力。这些模型通过训练海量文本数据，学习语言的复
2024-10-29AI大模型（LLMs）五大热点研究方向分享！
近年来，人工智能大模型（LLMs）的研究不断深入，衍生出了多个热门方向，聚焦提升模型的性能、适应性与应用场景，推动了技术的突破与革新。今天为大家梳理一下AI顶会上的五大热门研究方向，希望为那些专注大模型方向的研究者带来一些灵感和参考。Part.01检索增强生成（RAG）大模型虽然在生
2024-10-26计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-21
计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-21目录文章目录计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-21目录1.TheFairLanguageModelParadox摘要研究背景问题与挑战如何解决创新点算法模型实验效果重要数据与结论推荐阅
2024-10-26LLM-Mixer: 融合多尺度时间序列分解与预训练模型,可以精准捕捉短期波动与长期趋势
近年来,大型语言模型(LargeLanguageModels,LLMs)在自然语言处理领域取得了显著进展。受此启发,研究人员开始探索将LLMs应用于时间序列预测任务的可能性。由于时间序列数据与文本数据在特征上存在显著差异,直接将LLMs应用于时间序列预测仍面临诸多挑战。为了解决这一问题,Jin等
2024-10-24InternVL-1.0: Scaling up Vision Foundation Models and Aligningfor Generic Visual-Linguistic Tasks
论文：https://arxiv.org/abs/2312.14238代码：https://github.com/OpenGVLab/InternVL背景在LLM时代，视觉基础模型通常通过一些轻量级的“粘合”层（如QFormer或线性投影）与LLMs连接。然而，这些模型主要源自ImageNet或JFT等纯视觉数据集，或使用图像文本对与BERT系列对齐，缺乏与L
2024-10-24LLM速览篇【61-90】
这些论文展示了大型语言模型在提升任务性能、改善人机交互、辅助复杂决策以及优化各类应用场景中的巨大潜力，表明LLM在多个领域中的应用发展迅速，并为解决现实世界问题提供了强大的工具。LLM相关研究论文总结这些研究论文探索了大型语言模型（LLM）在多个领域中的应用与发展。
2024-10-23开源5款可用于LLMs的爬虫工具/方案
大家好，我是一颗甜苞谷，今天来分享5款可用于LLMs的爬虫工具/方案1、Crawl4AI功能:提取语义标记的数据块为JSON格式，提供干净的HTML和Markdown文件。用途:适用于RAG（检索增强生成）、微调以及AI聊天机器人的开发。特点:高效数据提取，支持LLM格式，多URL支持，易于集成和Docker容器化
2024-10-22CipherChat: 一个评估大型语言模型安全对齐泛化能力的创新框架
CipherChat:突破大型语言模型安全对齐的新范式在人工智能快速发展的今天,大型语言模型(LLMs)的安全性问题日益受到关注。为了确保LLMs的输出符合道德和法律标准,研究人员开发了各种安全对齐技术。然而,这些技术是否能够有效地应对各种语言形式的挑战?来自RobustNLP团队的研究人员
2024-10-20论文翻译：arxiv-2024.Dillon Bowen.Scaling Laws for Data Poisoning in LLMs
ScalingLawsforDataPoisoninginLLMshttps://arxiv.org/pdf/2408.02946论文主要研究了大型语言模型在数据中毒威胁下的脆弱性，发现模型规模越大，对有害行为的学习速度越快，强调了在更大模型中建立健全数据保护措施的必要性。在大型语言模型（LLMs）中数据投毒的规模法则
2024-10-14微软：LLM在RAG高效使用外部数据综述
2024-10-12LLM面试问题
1、大模型LLM的训练目标大语言模型（LLM）的训练目标通常是最大似然估计。最大似然估计是一种传统方法，用于从给定数据中估计概率模型的参数。在LLM的训练过程中，使用的数据通常是大量的文本语料库。训练目标是最大化模型生成训练数据中观察到的文本序列的概率。具体来说，对于每
2024-10-10Reducto：为大模型打造人类级文档解析能力，获840万美元种子轮融资
引言在人工智能领域，大语言模型（LLMs）的应用越来越广泛，但如何让这些模型像人类一样理解和处理复杂的文档一直是一个挑战。Reducto，一家成立于2023年的AI初创公司，正在通过其创新的技术解决这一问题，并已获得840万美元的种子轮融资。本文将详细介绍Reducto的背景、产品、差异化优
2024-10-09聊聊LLMs与CIM
聊聊LLMs与CIM1.LLMs的近况首先对LLMs，即大语言模型做个简单的回顾，之前也写过长文介绍过来龙去脉。我们知道目前LLMs的基础是2017年提出的Transformer模型结构，更准确的说，现在LLMs中的主流方案是使用Decoderonly的Transformer架构。LLMs的工作方式采用的简单的"predictnextwor
2024-10-08【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习
【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习0.论文信息Title:UnsupervisedHumanPreferenceLearningAuthors:SumukShashidhar,AbhinavChinta,VaibhavSahai,DilekHakkaniTurComments:EMNLP2024MainConferencehttps://arxiv.or
2024-10-08【RAG论文精读3】RAG论文综述1（2312.10997）-第1部分
收录于我的专栏：AI修炼之路简介论文中英文名Retrieval-AugmentedGenerationforLargeLanguageModels:ASurvey面向大型语言模型的检索增强生成：综述论文地址arxiv地址：https://arxiv.org/abs/2312.10997精读理由这篇综述论文对RAG在大型语言模型中的应用进行了
2024-10-08大模型面试八股+答案，LLM-offer手到擒来！
你是否也曾为面试大模型八股文而苦恼？别担心！今天我就来给你分享一些绝妙的面试技巧，让你轻松应对！