首页 > 其他分享 >千亿级、数学专用,MathGPT大模型开始公测了

千亿级、数学专用,MathGPT大模型开始公测了

时间:2023-11-10 13:02:20浏览次数:31  
标签:AI 模型 公测 MathGPT 解题 数学 千亿 教育


国内大模型市场又迎来了一个新的「选手」,这次是数学专用大模型。

今年 5 月,好未来曾公布正在进行自研数学大模型的研发,命名为 MathGPT。MathGPT 是面向全球数学爱好者和科研机构,以解题和讲题算法为核心的数学垂直领域的大模型,也是国内首个专为数学打造的大模型。

使用方式也很简单。用户使用 MathGPT 时,用文字或图片方式上传数学题,即可得到对话式的解答反馈,也可以通过 “随机来一题” 的按钮,随机生成数学题目并由系统给出解答。

千亿级、数学专用,MathGPT大模型开始公测了_人工智能

目前,MathGPT 支持中文、英文版本的 PC 端和移动端体验。

领先的数学解题能力

MathGPT 汇集了好未来多年教育教研数据积累,专注于数学领域。千亿级大模型的训练、推理、部署框架,为模型赋予了强大能力。通过优质教育数据,实现题目计算、讲解、问答等多任务持续训练和有监督微调,呈现出卓越表现。此外,借助人类反馈对齐,还将进一步提升模型综合素养。MathGPT 在解题准确率、稳定性及用户体验方面均有明显的优势。

据了解,MathGPT 的数学计算能力已覆盖小学、初中、高中的数学题,题目类型涵盖计算题、应用题、代数题等多个类型,还可以针对题目进行追问。不过暂未开放数学之外的问答互动。

千亿级、数学专用,MathGPT大模型开始公测了_数据_02

MathGPT 技术报告

具体效果如何呢?在 CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、高考数学和 Math401 等 6 个公开数学评测集合的测试结果中,MathGPT 取得了多项测试的最高分数。同时,MathGPT 在 C-Eval 的初高中的全科测试集合上也均有不错的表现。

千亿级、数学专用,MathGPT大模型开始公测了_算法_03

MathGPT 在 C-Eval 榜单初高中各科成绩

此外,在解题稳定性、讲解友好度方面,MathGPT 基于海量名师解题过程的数据进行模型训练,模型的解题步骤专业清晰。

我们以一道数列题为例,MathGPT 给出的答案包含 “分析”、“详解”、“点睛” 三个部分,比通用大模型的粗略讲解方式更为细致。其中“分析” 提供了题目的解题思路、思考方式,帮助用户更好地理解题目;“详解” 则给出具体的计算方式和答案;最后 “点睛” 的环节对题目的考点、难点、关键点进行提示,帮助用户回顾反思出题意图、举一反三。

千亿级、数学专用,MathGPT大模型开始公测了_数据_04

对于使用者而言,研究数学问题不仅在于得到答案本身,更在于答案背后的解题原理、思路逻辑。与其他通用大模型相比,MathGPT 能实现更高准确度的解题,也能把答案解析得更清楚、讲解得更明白,更好地满足用户使用 AI 产品解答数学问题的核心需求。

在 MathGPT 发布同时,好未来也更新了一个具有代表性和挑战性的数学任务评测集,供全球人工智能专家、数学爱好者体验和测评。好未来希望让 MathGPT 在数学教育领域发挥更大作用,并愿意把基于大规模、高质量的内容的千亿级大模型研发经验方法和业内分享,和行业共同进步。

好未来 AI 的厚积薄发

在 AI 浪潮的推动下,今年以来多家科技公司宣布推出通用大语言模型产品,而好未来选择了另一个方向,不基于将现有大语言模型做微调和接口调用、不做通用大语言模型,而是深入数学的垂直领域研发大模型,致力于打造自主、稳定、可持续、高质量的数学解决方案。

通用大模型 “重文轻理”,在数学问题的解决、讲解、问答和推荐方面则存在明显的短板。而在另一个层面,在通往通用人工智能的路上,数学推理能力很重要,全球有很多大型公司在做这方面的研究。

“好未来在数学的数据和业务上有 20 年的积累,有大量的教育数据的积累和持续生产教育数据的能力,所以选择做这个难而正确的事情。” 田密称,好未来希望用自己在数学和 AI 上的多年积累,做好 AI 大模型时代的数学基础工作。

其实早在 2017 年,好未来便成立了 AI lab 人工智能实验室。基于智慧教育人工智能开放创新平台助力,好未来 AI lab 获得各类顶级学术会议比赛冠军 16 项,亚军 6 项,发表国际期刊和会议高水平学术论文近百篇。

2019 年,科技部宣布依托好未来建设智慧教育国家新一代人工智能开放创新平台,好未来成为教育行业首批唯一一家人工智能 “国家队” 成员,在人工智能领域有多年深入研究。多年来,好未来以教育行业重大需求为牵引,构建了面向教育的人工智能算法能力、应用解决方案、基础软硬件体系和开源开放服务的国家教育科技创新平台。

好未来也在积极参与推动大模型标准体系建设,先后作为核心单位参与了由国家人工智能标准化总体组组织的大模型系列国家标准、中国信通院牵头编制的 “大模型预训练模型技术和应用评估方法” 系列团体标准,以及教育部教育信息化技术标准委员会暨全国信息技术标准化技术委员会主导的 “教育通用大模型” 系列标准编制工作。

近期,好未来正作为牵头单位与中国信通院、复旦大学、科大讯飞、百度等行业领先科研机构、高校、企业一同编制教育大模型团体标准,从覆盖场景、应用成效、服务可靠等维度全面评估教育大模型能力,为教育大模型应用落地提供参考与指导。

用 AI 实现大规模因材施教

随着大语言模型的兴起,如何用 AI 技术服务各行各业是社会关注的焦点。教育行业是最早开始布局 AI 领域的行业之一,AI 能为教育生态带来何种变化一直备受关注。

“AI 带来了重新定义教育行业的机会,大模型技术使得大规模的因材施教真正有了实现的可能。” 田密介绍,20 年来,好未来一直在探索个性化学习,从线下小班到线上大班,再到 AI 课,形式不断进化,但教的内容始终是固定的、学生和老师互动较少、颗粒度只能到题目级别。

田密认为,大模型的本质,是一种更高效的、从数据中学习知识并加以应用的方式。在 AI 能力的加持下,“学生自学 + AI 答疑” 的新型学习方式成为广泛的可能。学习者获得优质教学内容的门槛、成本降低,获得的教学内容个性化、精细化程度持续升高,可以实现千人千面的 AI 教学和答疑辅导,每个学生都能得到最适合自己的学习内容。

以 MathGPT 为基础,好未来将不断探索 AI 环境下的学习方式,更好地服务于全球的学习者、数学爱好者,并将经验及时与行业分享,通过 AI 技术助力教育科技的积极改变。

随着内测的顺利进行,MathGPT 的解题能力将得到持续提升,基于 MathGPT 的产品级应用也正在加速研发中,将于近期发布。

标签:AI,模型,公测,MathGPT,解题,数学,千亿,教育
From: https://blog.51cto.com/u_13046751/8296236

相关文章

  • StoneDB-8.0-V2.1.0 企业版正式发布!免费公测活动正在进行中,快来参加!
    很高兴告诉大家,我们StoneDB-8.0-V2.1.0企业版正式发布了!经过一个月的开发,我们的研发团队用极高的效率对2.0新架构版本查漏补缺,完善了最新架构的代码,并对性能、稳定性做出了优化,同时也修复了一些用户们反馈的bug,新增了一些更友好的基础特性。目前StoneDB-8.0-V2.1.0企业版正......
  • 面对一家营收上千亿的焦化厂,这家数科公司靠什么赋能业务?
    作者:郑思宇《 “十四五”规划纲要》曾多次提到“产业数字化”和“数字产业化”这样的概念,在这样的背景之下,数科公司实际上是一个不容忽视且极为重要的角色和纽带。尽管数科公司对数智化转型起到了重要的促进作用,但外界对它的了解却并不多,这也使数科公司与一众互联网公司相比,多了几......
  • 腾讯混元大模型—携千亿参数勇闯“百模大战”孰胜孰败,实力说话
    原创|文BFT机器人腾讯混元大模型“霸气”亮相9月7号,在深圳举行的2023腾讯全球数字生态大会上,腾讯混元大模型正式亮相,并宣布通过腾讯云对外开放。腾讯混元大模型是由腾讯全链路自研的通用大语言模型,拥有超千亿参数规模,预训练语料超2万亿tokens,具备强大的中文创作能力,复杂语境下的......
  • 阿里云 Serverless 应用引擎 2.0,正式公测!
    阿里云Serverless应用引擎SAE2.0正式公测上线!全面升级后的SAE2.0具备极简体验、标准开放、极致弹性三大优势,应用冷启动全面提效,秒级完成创建发布应用,应用成本下降40%以上。此外,阿里云还带来容器服务Serverless版、函数计算、第八代高主频计算实例、办公安全平台SASE......
  • 阿里云 Serverless 应用引擎 2.0,正式公测!
    阿里云Serverless应用引擎SAE2.0正式公测上线!全面升级后的SAE2.0具备极简体验、标准开放、极致弹性三大优势,应用冷启动全面提效,秒级完成创建发布应用,应用成本下降40%以上。此外,阿里云还带来容器服务Serverless版、函数计算、第八代高主频计算实例、办公安全平台SASE等......
  • 1300亿参数,国内首个数学大模型MathGPT上线!多项基准赶超GPT-4
    前言 数学的命运齿轮从此开始转动。国内首个专为数学打造的千亿级大模型MathGPT正式上线,在多项基准测试中碾压GPT-4,刷新SOTA。本文转载自新智元仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。......
  • RISC-V公测平台发布 · 数据库在RISC-V服务器上的适配评估
    前言上一期讲到YCSB在RISC-V服务器上对MySQL进行性能测试(RISC-V公测平台发布·使用YCSB测试SG2042上的MySQL性能),在这一期文章中,我们继续深入讨论RISC-V+数据库的应用。本期就继续利用HS-2平台来测试数据库软件在RISC-V服务器上的兼容性。参与此次实验的数据库如下:RedisMongo......
  • RISC-V公测平台发布· CoreMark测试报告
    一.CoreMark简介CoreMark是一款用于评估CPU性能的基准测试程序,它包含了多种不同的计算任务,包括浮点数、整数、缓存、内存等方面的测试。CoreMark的测试结果通常被用来作为CPU性能的参考,它可以帮助开发人员和系统管理员评估不同处理器和系统的性能,比较不同处理器之间的性能差异,也......
  • OBS Studio 30.0公测版可在Linux平台添加对Intel QSV支持
        据了解,日前OBSStudio30.0公测版发布,并且支持Linux平台上添加对IntelQSV(QuickSyncVideo)的支持,同时还为DeckLink输出提供HDR播放支持。OBSStudio30.0公测版还改进了GUI,重新设计了状态栏,帮助用户更有组织和结构化地管理内容,此外还引入了更具代表性和可识别性......
  • RISC-V公测平台发布 · 7-zip 测试
    简介7-Zip是一个开源的压缩和解压缩工具,具有高压缩比和快速解压缩的特点。除了普通的文件压缩和解压缩功能之外,7-Zip还提供了基准测试功能,通过压缩和解压缩大型文件来评估系统的处理能力和性能。7-Zip提供了一种在不同压缩级别和多线程设置下进行基准测试的方式,用户可以根据......