每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
OpenAI推出的首款“推理”AI模型o1发布后,人们很快注意到一个奇怪的现象:模型在处理问题时,有时会“转向”使用中文、波斯语或其他语言思考,即使问题本身是用英文提出的。
例如,在回答“单词‘strawberry’中有几个字母R?”这样的问题时,o1会通过一系列推理步骤得出答案。虽然问题和最终回答都是用英文,但中间的部分推理过程却会用另一种语言完成。
“为什么突然变成中文了?”
有用户在Reddit上发帖称,“o1推理到一半,突然开始用中文思考。”而在X平台上,另一位用户感到困惑:“整个对话都没有用中文,o1为什么突然切换到中文?”
对于这种奇怪的行为,OpenAI并未提供任何解释,甚至没有明确承认这种现象的存在。那么,o1到底为什么会这样呢?
数据标签和语言影响的可能性
一些AI专家对这种现象提出了猜测。一种理论认为,这可能与训练数据的语言分布有关。包括Hugging Face首席执行官Clément Delangue在内的多位专家提到,像o1这样的推理模型在训练中使用了大量包含中文字符的数据。此外,谷歌DeepMind研究员Ted Xiao指出,OpenAI等公司可能依赖中国的第三方数据标注服务来处理高难度的科学、数学和编码推理数据。这些服务的语言偏好可能对模型产生了影响。
“由于高端标注劳动力的可用性和成本原因,很多标注供应商位于中国,这可能导致中文在推理过程中的偏好表现,”Xiao在X平台上写道。
标签在AI训练中非常重要,它帮助模型理解和解读数据。例如,在图像识别模型中,标注可能是围绕物体的标记或对人、地点、物体的描述。然而,标注的偏见也可能导致模型的偏见。比如,一些研究发现,标注人员更可能将非标准英语(如非裔美国人使用的方言)标记为“具有攻击性”,从而导致AI将其错误地判定为有害内容。
更深层次的语言机制
不过,也有专家对数据标注的假设不以为然。他们指出,o1同样可能在推理过程中切换到印地语、泰语等其他语言。这说明问题可能不仅限于中文,而是更深层次的语言效率和模型训练机制。
“模型并不知道什么是语言,或者语言之间有什么区别,”阿尔伯塔大学AI研究员Matthew Guzdial表示,“对模型来说,一切都只是文本。”
AI模型处理的并不是单词本身,而是“令牌”(token)。令牌可以是完整的单词(如“fantastic”),也可以是音节(如“fan”、“tas”、“tic”),甚至是单个字符(如“f”、“a”、“n”等)。训练中不同语言的令牌分布可能导致模型在处理问题时更倾向于某些语言。
Hugging Face的软件工程师王铁真提出了类似观点。他认为模型可能在某些任务中选择了最有效的语言进行推理。“比如,我喜欢用中文做数学运算,因为每个数字只占一个音节,计算过程更加简洁。但涉及像无意识偏见这种概念,我会自动切换到英语,因为这些概念是用英语学习的。”
仍然是个谜
尽管有各种理论,AI专家也承认,当前对模型行为的解释仍然是推测性的。Allen Institute for AI研究员Luca Soldaini表示,由于这些模型的复杂性和不透明性,验证这些假设非常困难。“这正是AI系统需要更多透明度的原因之一。”
在OpenAI正式回应之前,o1为何“脑补”用法语哼歌但用中文讨论合成生物学,只能成为人们的好奇猜想之一。
标签:中文,语言,AI,模型,OpenAI,没人能,推理,o1 From: https://blog.csdn.net/2301_79342058/article/details/145170260