mllm

2024-11-08MLLM_20241101
Paper1题目:LongVU:SpatiotemporalAdaptiveCompressionforLongVideo-LanguageUnderstanding作者团队:MetaAI,KAUST,KoreaUniversity链接:https://arxiv.org/abs/2410.174341.论文试图解决什么问题？是否是一个新问题？MLLM长视频理解问题。是新问题。2.有哪
2024-11-08MLLM_20241025
Paper1题目:Yo’LLaVA:YourPersonalizedLanguageandVisionAssistant作者:ThaoNguyen,HaotianLiu,YuhengLi,MuCai,UtkarshOjha,YongJaeLee团队:UniversityofWisconsin–Madison（LLaVA原作者团队）链接:https://thaoshibe.github.io/YoLLaVA/1.论文试
2024-10-26A Survey of Multimodal Large Language Model from A Data-centric Perspective
本文是LLM系列文章，针对《ASurveyofMultimodalLargeLanguageModelfromAData-centricPerspective》的翻译。以数据为中心的多模态大型语言模型综述摘要1引言2背景和分类3数据收集和处理4以数据为中心的预训练5以数据为中心的自适应6评估7未来方
2024-10-12InternVL2识别边界框实践：捕获股票K线图启明之星
本文作者：谢志军，某互联网金融证券公司，算法工程师https://github.com/OpenGVLab/InternVL写在前面YOLO系列模型实现了对现实世界广泛物体的边界框识别，最新的开源多模态大模型(MLLM)/视觉语言模型(VLM)宣称能够给出特定物体的边界框坐标。笔者测试了一些常规图片并询问MLLM
2024-10-10多模态大语言模型（MLLM）-InstructBlip深度解读
前言InstructBlip可以理解为Blip2的升级版，重点加强了图文对话的能力。模型结构和Blip2没差别，主要在数据集收集、数据集配比、指令微调等方面下文章。创新点数据集收集：将26个公开数据集转换为指令微调格式，并将它们归类到11个任务类别中。使用了其中13个数据集来进行指令
2024-09-19LLM - 理解多模态大语言模型(MLLM) 的评估(Evaluation) 与相关技术 (六)
欢迎关注我的CSDN：https://spike.blog.csdn.net/本文地址：https://spike.blog.csdn.net/article/details/142364884免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。评估(Evaluation)是研发多模态大语言模型(MLLM)的重要部分，也为模型的优化提
2024-09-03英伟达™（NVIDIA®）发布 NVEagle：超级震撼的视觉语言模型，7B、13B 和 13B 聊天微调版
多模态大型语言模型（MLLM）是人工智能领域的一次重大飞跃，它将视觉信息和语言信息结合起来，能够更好地理解和解释复杂的现实世界场景。这些模型旨在观察、理解和推理视觉输入，使其在光学字符识别（OCR）和文档分析任务中发挥无价之宝的作用。这些MLLM的核心在于它们的视觉编码器，可
2024-08-20多模态大型语言模型（MLLM）综述（非常详细）零基础入门到精通，收藏这一篇就够了
ASurveyonMultimodalLargeLanguageModels多模态大型语言模型（MLLM）综述摘要—最近，以GPT-4V为代表的多模态大型语言模型（MLLM）已成为新兴的研究热点，它使用强大的大型语言模型（LLMs）作为“大脑”来执行多模态任务。MLLM出人意料的涌现能力，如基于图像编写故事和无需OCR的数学
2024-08-07LLM新巅峰||北大提出mllm-NPU,赋能1000字/秒的设备端LLM预填充
本文提出了mllm-NPU，这是第一个有效利用设备上神经处理单元（NPU）卸载的LLM推理系统。mllm-NPU的主要设计目标是减少预填充延迟和能耗。它针对主流的仅解码器的变压器架构的LLM（例如LlaMA、GPT等）。关键思想是最大限度地在移动NPU上执行预填充，以加速整数计算，同时保持在CPU/GPU上执行
2024-07-23多模态大模型：基础架构
多模态大型语言模型（MLLM）是人工智能领域的前沿创新，它结合了语言和视觉模型的功能，可以处理复杂的任务，如视觉问答和图像字幕。这些模型利用大规模预训练，集成了多种数据模态，以显著提高其在各种应用程序中的性能。架构概览较为常见的MLLM框架可以分为三个主要模块：接收且有效
2024-06-04Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean
本文是LLM系列文章，针对《OptimizingLanguageAugmentationforMultilingualLargeLanguageModels:ACaseStudyonKorean》的翻译。优化多语言大型语言模型的语言增强——以朝鲜语为例摘要1引言2相关工作3丰富MLLM词汇4LIMA上的指令调整5定量评估6定