• 2025-01-10Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games
    题目超越成果:对LLM游戏推理的透明评估论文地址:https://arxiv.org/abs/2412.13602项目地址:https://visual-ai.github.io/gamebot摘要    大型语言模型(LLM)越来越多地部署在需要复杂推理的现实世界应用中。为了跟踪进展,需要强大的基准来评估它们在表面模式识别