Outcomes

2025-01-10Beyond Outcomes: Transparent Assessment of LLM Reasoning in Games
题目超越成果：对LLM游戏推理的透明评估论文地址：https://arxiv.org/abs/2412.13602项目地址：https://visual-ai.github.io/gamebot摘要大型语言模型(LLM)越来越多地部署在需要复杂推理的现实世界应用中。为了跟踪进展，需要强大的基准来评估它们在表面模式识别