网站首页
编程语言
数据库
系统相关
其他分享
编程问答
Outcomes
2025-01-10
Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games
题目超越成果:对LLM游戏推理的透明评估论文地址:https://arxiv.org/abs/2412.13602项目地址:https://visual-ai.github.io/gamebot摘要 大型语言模型(LLM)越来越多地部署在需要复杂推理的现实世界应用中。为了跟踪进展,需要强大的基准来评估它们在表面模式识别