首页 > 其他分享 >微软正式开源超强小模型Phi-4 性能测试超越GPT-4o、Llama-3.1

微软正式开源超强小模型Phi-4 性能测试超越GPT-4o、Llama-3.1

时间:2025-01-13 11:58:59浏览次数:3  
标签:Phi Llama 推理 模型 开发者 测试 3.1 数据

微软近期在 Hugging Face 平台上发布了名为 Phi-4的小型语言模型,这款模型的参数量仅为140亿,但在多项性能测试中表现出色,超越了众多知名模型,包括 OpenAI 的 GPT-4o 及其他同类开源模型如 Qwen2.5和 Llama-3.1。

在这里插入图片描述
在之前的在美国数学竞赛 AMC 的测试中,Phi-4获得了91.8分,显著优于 Gemini Pro1.5、Claude3.5Sonnet 等竞争对手。更令人惊讶的是,这款小参数模型在 MMLU 测试中取得了84.8的高分,充分展现了其强大的推理能力和数学处理能力。

在这里插入图片描述
与许多依赖于有机数据源的模型不同,Phi-4采用了创新的方法来生成高质量的合成数据,包括多智能体提示、指令反转和自我修正等技术。这些方法大大增强了 Phi-4在推理和解决问题方面的能力,使其能够处理更为复杂的任务。

Phi-4采用了仅解码器的 Transformer 架构,支持长达16k 的上下文长度,非常适合处理大输入的数据。其预训练过程中使用了约10万亿个 token,结合合成数据与经过严格筛选的有机数据,确保在 MMLU 和 HumanEval 等基准测试中表现出色。

Phi-4的特点和优势包括:适用于消费级硬件的紧凑性和高效性;在 STEM 相关任务中超越了前代和更大模型的推理能力;支持与多样化的合成数据集进行微调,便于满足特定领域的需求。此外,Phi-4在 Hugging Face 平台上提供了详细的文档和 API,方便开发者进行集成。

在技术创新方面,Phi-4的开发主要依托三个支柱:生成合成数据的多智能体和自我修正技术,后期训练增强方法如拒绝采样和直接偏好优化(DPO),以及严格过滤的训练数据,确保与基准的重叠数据最小化,提高了模型的泛化能力。此外,Phi-4利用关键标记搜索(PTS)来识别决策过程中的重要节点,从而优化其处理复杂推理任务的能力。

在这里插入图片描述
随着 Phi-4的开源,开发者们的期待终于成真。该模型不仅可以在 HuggingFace 平台下载,还支持在 MIT 许可证下进行商业用途。这一开放政策吸引了大量开发者和 AI 爱好者的关注,HuggingFace 的官方社交媒体也对此表示祝贺,称其为 “史上最好的14B 模型”。

模型入口:https://huggingface.co/microsoft/phi-4

标签:Phi,Llama,推理,模型,开发者,测试,3.1,数据
From: https://blog.csdn.net/weixin_41446370/article/details/145097606

相关文章

  • Ollama REST API模型调用小试
    OllamaRESTAPI模型调用小试在上一篇文章中,我们已经完成了Ollama的安装部署以及模型的基本使用。接下来,我们将通过RESTAPI的方式调用Ollama模型,实现更灵活的集成和应用。启动Ollama服务在调用RESTAPI之前,确保Ollama服务已经启动。可以通过以下命令启动服务:olla......
  • Ollama部署及模型功能使用
    Ollama部署及模型功能使用Ollama官网Ollama官方GitHub源代码仓库安装部署本地安装自动安装curl-fsSLhttps://ollama.com/install.sh|sh手动安装具体安装及环境配置详见:https://github.com/ollama/ollama/blob/main/docs/linux.mddocker安装docker-compose.ymlve......
  • 使用Ollama和OpenAI实现多查询RAG的实践指南
    在本文中,我们将深入探讨如何使用Ollama和OpenAI来实现基于多查询检索增强生成(RAG)的应用。多查询检索器通过将用户的输入查询转换为多个不同视角的查询,从而在更广泛的背景下检索相关文档。这种方法可以提升答案生成的准确性和丰富性。技术背景介绍RAG(Retrieval-AugmentedG......
  • 3.1.链表
    链表链表是一种常见的基础数据结构,它由一系列节点组成,这些节点不必在内存中相连,而是通过指针相互连接,形成一个链式结构。以下是链表的详细定义:节点结构:链表中的每个节点至少包含两个部分,即数据域和指针域。数据域:用于存储节点的数据,可以是各种数据类型,例如整数、字符、字......
  • dolphinscheduler 创建 mssql 数据源失败解决
    解决方法:在参数处加入{"encryp":"false","trustServerCertificate":"true"}现象:[ERROR]2025-01-1110:44:36.821+0800org.apache.dolphinscheduler.plugin.datasource.api.datasource.AbstractDataSourceProcessor:[124]-Checkdataso......
  • [大模型]本地离线运行openwebui+ollama容器化部署
    本地离线运行Openweb-uiollama容器化部署说明安装internet操作内网操作问题线程启动错误最终命令总结说明最近公司有一个在内网部署一个离线大模型的需求,网络是离线状态,服务器有A100GPU,一开始是想折腾开源chatGML4大模型,因为使用过gml3,所以想着部......
  • 3.14 BGP路由过滤
    概述:BGP路由可以携各种各样的路由属性,例如PreferredValue属性、LocalPreference属性、ASPath属性、Origin属性、MED属性、NextHop属性、团体属性等。路由属性的丰富性可以为实现路由过滤、路由引入等路由策略和控制提供非常有利的条件。掌握:利用BGP路由的ASPath属性、Com......
  • RAG项目实战——基于Llamaindex微调BGE Embedding模型(附完整源码和转化好的数据集下载
    在自然语言处理(NLP)领域,检索增强生成(Retrieval-AugmentedGeneration,RAG)模型已经成为一种强大的工具,能够结合检索和生成任务,提供更准确的回答。然而,RAG模型的性能很大程度上依赖于嵌入模型的质量。为了进一步提升RAG模型的检索准确性,我们可以通过对嵌入模型进行微调(Fine-t......
  • DolphinScheduler自身容错导致的服务器持续崩溃重大问题的排查与解决
    01问题复现在DolphinScheduler中有如下一个Shell任务:current_timestamp(){date+"%Y-%m-%d%H:%M:%S"}TIMESTAMP=$(current_timestamp)echo$TIMESTAMPsleep60在DolphinScheduler将工作流执行策略设置为并行:定时周期调度设置为10秒一次:将定时调度上线后......
  • ArticleAssistant V3.1.3 文章下载及阅读摘录工具
    前言上世纪八十年代中,我刚工作时,学习、查找资料都是通过纸质的杂志,后来,当时的老领导搞“证型”研究,特意安排我们2个小青年脱产3个月查找、整理资料,将图书馆所有的专业杂志翻了个遍,整整90天的煎熬,现在仍历历在目。再后来,就有了CNKI,查找资料变得越来越方便、轻松。到了本世纪初,自学......