“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学”

时间：2024-07-29 08:56:52浏览次数：15

标签：AlphaGeometry 扫荡模型 IMO 问题数学围棋 AlphaProof

--->更多内容，请移步“鲁班秘笈”！！<---

谷歌称著名数学家蒂莫西·高尔斯爵士（Sir Timothy Gowers）和约瑟夫·迈尔斯（Joseph Myers）博士使用国际海事组织（IMO）的官方规则对人工智能模型的解决方案进行了评分。该公司报告称，其组合系统获得了42分中的28分，略低于29分的金牌门槛。

AlphaProof解决了两个代数问题和一个数论问题，而AlphaGeometry 2解决了几何问题。这包括在比赛中最难的问题上获得满分，谷歌声称今年只有五名人类参赛者解决了这个问题。

图表显示了AlphaProof+AlphaGeometry 2在IMO 2024上相对于人类竞争对手的性能。AI获得28分（满分42分），达到了与比赛中银牌得主相同的水平。

AlphaProof

形式语言的优势在于能够验证数学证明的正确性，但由于数据稀缺，在机器学习的过程成为瓶颈。自然语言方法可以拥有更多的数据，但会产生不正确的推理步骤。AlphaProof通过微调语言模型将自然语言问题陈述转化为正式陈述来弥合这一差距，从而创建一个具有不同难度级别的大型正式问题库。

AlphaProof使用Gemini模型的微调版本，将自然语言的数学问题转换为一种称为 Lean 的正式断言，同时将预训练的语言模型与AlphaZero强化学习算法相结合。

当给定一个问题时，它会生成候选解决方案，并通过在正式断言语言Lean中搜索证明步骤来证明或反驳它们。每个经过验证的证明都用于加强AlphaProof的语言模型，从而提高其解决更具挑战性问题的能力。

该系统针对涵盖各种困难和数学主题的数百万个问题进行了训练，这些问题涉及到广泛的数据领域，且都是相当困难的问题。哪怕它在参加国际数学奥林匹克竞赛（IMO）竞赛期间也进行了循环训练。

“事实上，程序可以提出像这样不明显的结构，这非常令人印象深刻，远远超出了我的认知。” — Timothy Gowers 爵士教授，IMO 金牌得主和菲尔兹奖获得者。

在今年的比赛之前，AlphaGeometry 2可以解决过去25年中所有历史IMO几何问题的83%，而第一代只能解决53%。

对于IMO 2024，AlphaGeometry 2在收到其形式化后的19秒内解决了问题4。

问题4要求证明∠KIL和∠XPY之和等于 180°。AlphaGeometry 2建议构造 E，即直线BI上的一个点，使∠AEB = 90°。点E有助于确定AB的中点L，从而创建许多相似三角形对，例如证明结论所需的 ABE ~ YBI和ALE ~ IPC。

正式的推理方法

AlphaProof训练自己用形式语言Lean来证明数学断言。它将预训练的语言模型与AlphaZero强化学习算法相结合，该算法以前自学如何掌握国际象棋、将棋和围棋的游戏。

上图为AlphaProof的强化学习训练循环的过程信息图。大约有100万个非正式数学问题被形式化网络翻译成正式的数学语言。然后，求解器网络搜索问题的证明或反驳，通过AlphaZero算法逐步训练自身以解决更具挑战性的问题。

这项研究的意义在于通过以更扎实的方式应用逻辑和推理来解决大型语言模型的最坏趋势的前景。大型语言模型往往难以掌握基本的数学知识，也无法从逻辑上推理问题。

未来神经符号方法可以为人工智能系统提供一种方法，将问题或任务转化为一种形式，可以以一种产生可靠结果的方式进行推理。例如OpenAI正在研发代号为“草莓”的系统。

研究人员指出谷歌DeepMind不会让人类数学家失业。“我们的目标是提供一个可以证明任何事情的系统，但这并不是数学家工作的终点，”，“数学的很大一部分是提出问题，并找到要问的有趣问题。你可能会把它看作是另一种工具，类似于滑尺、计算器或计算工具。”

标签：AlphaGeometry,扫荡,模型,IMO,问题,数学,围棋,AlphaProof
From： https://blog.csdn.net/Janexjy/article/details/140760977

Apache Doris + Paimon 快速搭建指南｜Lakehouse 使用手册（二）
湖仓一体（DataLakehouse）融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势，帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中，ApacheDoris持续加深与数据湖的融合，已演进出一套成熟的湖仓一体解决方案。为便于用户快速入门，我们将通过系列文......
闲话：IMO 2024 P5
这道题其实挺搞心态的，至少看到\(2024\)这种具体的数字一般都会想到\(12,13\)之类的东西上去吧？当然这几天知乎看饱了都知道答案是\(3\)了。下面给一下我的构造：第一步从\((1,1)\)走到\((2,1)\)，然后一路往右插过去，问出第二行的鬼的位置，位于\((2,x)\)。如果这个鬼不在......
ControlMyMonitor、MultiMonitorTool、autohotkey 设置笔记本和台式机切换屏幕
一、背景1.1台笔记本、1台台式机共用一个显示器。2.显示器1个vga输入、1个hdmi输入3.笔记本通过hdmi转vga连到显示器，台式机通过HDMI连到显示器二、需求通过键盘切换显示器输入。三、软件介绍ControlMyMonitor：控制显示器输入方式（选择vga、hdmi）MultiMonitorTool：控制电脑在哪......
【MIMO-OFDM】天线阵列几何形状大规模MIMO-OFDM系统半盲结构化信道估计性能的影响分析
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信或扫描文章底部QQ二维码。......
【MIMO检测】基于matlab ZF、MMSE、Ml检测性能比较（含信噪比）【含Matlab源码 5070期】
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信或扫描文章底部QQ二维码。......
【MIMO-OFDM】基于matlab天线阵列几何形状大规模MIMO-OFDM系统半盲结构化信道估计性能
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信或扫描文章底部QQ二维码。......
【MIMO检测】基于matlab MMSE-SIC和期望传播大规模MIMO检测（含误码率）【含Matlab源码 50
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信或扫描文章底部QQ二维码。......
机器人前沿--PalmE：An Embodied Multimodal Language Model 具身多模态大(语言)模型
首先解释这篇工作名称Palm-E，发表时间为2023.03，其中的Palm是谷歌内部在2022.04开发的大语言模型，功能类似ChatGPT，只是由于各种原因没有那样火起来，E是Embodied的首字母，翻译过来就是具身多模态大语言模型大模型，我们一般习惯将其称为具身多模态大模型。何为具身？这个词听起来非常......
MIMO-OFDM检测技术（三） ---- MMSE检测
......
Paimon Quick Start Demo
主要解读：1.Paimon和Hadoop的包放到lib2.此处2中格式均可以：'warehouse'='file:/tmp/paimon''warehouse'='file:///tmp/paimon'3.数据持久化到了2中文件，断开连接。插入目标表任务不会中断，这个任务生命周期应该是服务器级别的流任务。再次连接后，创建catalog即可读取word_......

“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学”

AlphaProof

正式的推理方法

相关文章

赞助商

阅读排行