• 2024-10-03o1 式开源推理链项目 g1:可基于 Llama 3.2-90b 模型
    g1简介g1是一个开源项目,利用Llama3.170b模型在Groq硬件上实现类似OpenAIo1的推理链能力。项目通过精心设计的提示策略引导语言模型进行逐步推理,解决了传统语言模型在逻辑推理方面的不足。工作原理利用动态推理链,逐步引导Llama3.1模型完成复杂逻辑问题模型按
  • 2024-09-28LlamaParse - 文档解析
    文章目录一、关于LlamaParse价格LlamaCloud例子二、使用入门三、与文件对象一起使用四、`SimpleDirectoryReader`一、关于LlamaParsegithub:https://github.com/run-llama/llama_parseLlamaCloud文档:https://docs.cloud.llamaindex.ai/LlamaParse是LlamaCl
  • 2024-09-27解析 Llama-Factory:从微调到推理的架构
    轻松搞定大模型微调与推理的开源神器©作者|DWT来源|神州问学一、前言:Llama-Factory的背景与重要性在人工智能(AI)领域,尤其是自然语言处理(NLP)技术迅速发展的今天,如何高效地微调和部署大型语言模型(LLM)成为了研究和应用的热点。Llama-Factory作为一个开源的微调框架,正是在
  • 2024-09-27GitHub每日最火火火项目(9.27)
    项目名称:localsend/localsend项目介绍:“localsend/localsend”是一个极具价值的开源项目。它为用户提供了一种跨平台的文件传输替代方案,可媲美AirDrop。在当今数字化时代,人们常常需要在不同操作系统的设备之间传输文件,但并非所有设备都能使用AirDrop。这个项目的出
  • 2024-09-27Llama 3.1 技术研究报告-4
    五、结果我们对Llama3进⾏了⼴泛的系列评估,研究了以下⽅⾯的性能:(1)预训练语⾔模型,(2)后训练语⾔模型,以及(3)Llama3的安全特性。我们在下⾯的各个⼩节中分别呈现这些评估的结果。5.1预训练语⾔模型在本节中,我们报告了我们预训练的Llama3(第3节)的评估结果,并将其与
  • 2024-09-27Llama 3.1 技术研究报告-5
    5.3人工评测除了在标准基准测试集上的评估外,我们还进⾏了⼀系列⼈类评估。这些评估使我能够测量和优化模型性能的更微妙⽅⾯,例如模型的语调、冗⻓性和对细微差别及⽂化背景的理解。精⼼设计的⼈类评估密切反映了⽤⼾体验,提供了模型在现实世界场景中表现的洞察。提⽰收集
  • 2024-09-24大模型培训讲师叶梓:Llama Factory 微调模型实战分享提纲
    LLaMA-Factory——一个高效、易用的大模型训练与微调平台。它支持多种预训练模型,并且提供了丰富的训练算法,包括增量预训练、多模态指令监督微调、奖励模型训练等。LLaMA-Factory的优势在于其简单易用的界面和强大的功能。用户可以在不编写任何代码的情况下,在本地完成上百种预
  • 2024-09-23聚焦Llama新场景和AR眼镜,扎克伯格用AI赋能元宇宙,Meta Connect 2024开发者大会直播约起
    北京时间9月26日凌晨1点(美国时间9月25日上午10点),MetaConnect2024年度开发者大会即将举行。届时,Meta首席执行官马克·扎克伯格将聚焦AI和元宇宙,向大家分享Meta最新的产品和服务。HyperAI超神经将在视频号同步直播~用开源助力创新,揭秘Llama模型的无限潜能据
  • 2024-09-22模型部署系列 | 如何本地部署LLM服务?以ollama为例
    简介小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖沙茶面的小男孩。这篇小作文主要介绍如何使用ollama在本地部署大模型服务。更多关于大模型相关,如模型解读、模型微调、模型部署、推理加速等,可以留意本微信公众号《小窗幽记机器学习》。安装ollama安装过程需要
  • 2024-09-20Phi-2: The surprising power of small language models
    Phi-2:Thesurprisingpowerofsmalllanguagemodelshttps://www.microsoft.com/en-us/research/blog/phi-2-the-surprising-power-of-small-language-models/ Phi-2EvaluationBelow,wesummarizePhi-2performanceonacademicbenchmarkscomparedtopopularla
  • 2024-09-20阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!
    今天凌晨,阿里巴巴官宣了史上最大规模的开源发布,推出了基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math。这三大类模型一共有10多个版本,包括0.5B、1.5B、3B、7B、14B、32B和72B,适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。如果不想进行繁琐
  • 2024-09-19Datawhile 组队学习Tiny-universe Task01
    Task01:LLama3模型讲解仓库链接:GitHub-datawhalechina/tiny-universe:《大模型白盒子构建指南》:一个全手搓的Tiny-Universe参考博客:LLaMA的解读与其微调(含LLaMA2):Alpaca-LoRA/Vicuna/BELLE/中文LLaMA/姜子牙_llama微调-CSDN博客https://zhuanlan.zhihu.com/p/694072728
  • 2024-09-191-bit 大模型(LLM)时代的到来
     人工智能咨询培训老师叶梓转载标明出处模型规模的扩大带来了部署上的挑战,并因其高能耗引对环境和经济产生了影响。为了应对这些挑战,研究者们开始探索使用低位宽量化技术来降低模型的推理成本,同时保持模型性能。微软公司和中国科学院大学的研究团队提出了一种名为BitNetb1.
  • 2024-09-16使用 GaLore 预训练LLaMA-7B
    项目代码:https://github.com/jiaweizzhao/galorehttps://github.com/jiaweizzhao/galore参考博客:https://zhuanlan.zhihu.com/p/686686751创建环境基础环境配置如下:操作系统:CentOS7CPUs:单个节点具有1TB内存的IntelCPU,物理CPU个数为64,每颗CPU核数为16GPUs:8卡
  • 2024-09-14OpenAI 的 o1 与 GPT-4o:深入探究 AI 的推理革命
    简介在不断发展的人工智能领域,OpenAI再次凭借其最新产品突破界限:o1模型和GPT-4o。作为一名几十年来一直报道科技的人,我见过不少伪装成革命的增量更新。但这个?这不一样。让我们拨开炒作的迷雾,看看这些新模型到底带来了什么。推荐文章《AI交通管理系列之使用Python
  • 2024-09-14OpenAI 的 GPT-o1(GPT5)详细评论 OpenAI 的 Strawberry 项目具有博士级智能
    简介OpenAI的GPT-5又名Strawberry项目,又名GPT-o1,又名博士级LLM现已推出。几个月来一直备受关注,从结果来看,它不负众望。OpenAI-o1是一系列模型,旨在增强科学、编码和数学等复杂领域的问题解决能力。推荐文章《AI交通管理系列之使用Python进行现代路线优化最
  • 2024-09-13autogen示例九:llamaindex的智能pandasai
            相信对于许多从事Python数据分析工作的小伙伴来说,大家都对尝试使用PandasAI所带来的智能化便捷性充满兴趣。然而,由于缺乏OpenAI的API密钥,许多人只能望洋兴叹,无法真正体验到这一技术带来的便利。        现在有一种替代方案,可以让我们绕过这个限制,那
  • 2024-09-12️ LLaMA-Omni: 人机口头交互的全新体验
    在人工智能飞速发展的今天,大语言模型(LLM)已经成为我们日常生活中不可或缺的助手。然而,大多数LLM仍然局限于文本交互,这在某些场景下可能会显得不够便捷。想象一下,当你双手沾满面粉正在厨房忙碌时,如果能直接用语音向AI助手询问下一步的烹饪步骤,那该有多方便啊!
  • 2024-09-12大模型微调j技术:GaLore、BAdam、Adam-mini、DoRA、LongLoRA、LLaMA Pro、Mixture-of-Depths、LoRA+、LoftQ、PiSSA的介绍
    引言1.1大模型微调的重要性随着人工智能技术的飞速发展,大型语言模型(LLMs)如GPT-3、BERT等已经成为自然语言处理(NLP)领域的核心技术。这些模型通过在大规模文本数据上的预训练,掌握了丰富的语言知识和统计特征。然而,尽管这些预训练模型在通用任务上表现出色,但在特定任务或领
  • 2024-09-1151c大模型~合集51
    #LLaMA大模型是如何炼成的?本文介绍来自MetaAI的 LLaMa 模型,类似于OPT,也是一种完全开源的大语言模型。LLaMa的参数量级从7B到65B大小不等,是在数万亿个token上面训练得到。值得一提的是,LLaMa虽然只使用公共的数据集,依然取得了强悍的性能。 本文介绍来自MetaAI的LL
  • 2024-09-10Llama Factory :百种以上语言模型的统一高效微调框架
    人工智能咨询培训老师叶梓转载标明出处大模型适应到特定下游任务时,传统的全参数微调方法成本高昂,因此,研究者们一直在探索更高效的微调技术。由北京航空航天大学和北京大学的研究团队提出了一个名为LlamaFactory的统一框架,旨在解决大模型高效微调的问题。该框架整合了一系列
  • 2024-09-06llama_vllm对话问答基础语言模型集合
    LLAMA论文https://arxiv.org/pdf/2302.13971.pdf模型结构LLAMA网络基于Transformer架构。提出了各种改进,并用于不同的模型,例如PaLM。以下是与原始架构的主要区别:预归一化。为了提高训练稳定性,对每个transformer子层的输入进行归一化,而不是对输出进行归一化。使用RMSN
  • 2024-09-05llama factory LoRA微调qwen大模型 | 新手炼丹记录(1)
            之前用本地机器微调qwen大模型,结果由于显存不够或者其他配置问题,总是无法正常训练,莫名其妙报错。只能去尝试一些参数很小的模型,qwen2:0.5b、gemma:2b之类的,实在不够看。    今天尝试使用了算力平台AutoDL算力云租赁计算资源来跑微调以及量化,尝试了qwe
  • 2024-09-05不用再找了,这是大模型实践最全的总结
    随着ChatGPT的迅速出圈,加速了大模型时代的变革。对于以Transformer、MOE结构为代表的大模型来说,传统的单机单卡训练模式肯定不能满足上千(万)亿级参数的模型训练,这时候我们就需要解决内存墙和通信墙等一系列问题,在单机多卡或者多机多卡进行模型训练。最近,我也在探索大模型相
  • 2024-09-04魔乐社区体验:探索Llama 3.1模型微调之旅
    在2024年的AI领域,Meta发布的Llama3.1模型无疑成为了研究者和开发者的新宠。我有幸通过魔乐社区提供的资源,对这一模型进行了深入的学习和实践。在这个过程中,魔乐社区的资源和支持给我留下了深刻的印象。环境准备的便捷性魔乐社区提供的实践指导非常详尽,从安装AscendCANNToolkit和