上周,英伟达和国内几家科研机构几乎同时发布了两篇相似的论文。首先是英伟达宣布开发了一个名为“VOYAGER”的全新游戏AI智能体,该智能体将AI大模型GPT-4整合到《我的世界》游戏中。基于GPT-4,VOYAGER能够在《我的世界》中扩充自己的物品和装备,完成建造、work、收集等基本生存技能,并且可以独立进行开放式探索,前往不同的城市和地点,甚至搭建传送门。
英伟达表示,VOYAGER在《我的世界》中的物品增加了3.3倍,旅行距离增加了2.3倍,解锁关键技能树的速度也比之前的方法快了15.3倍。接着,商汤科技联合清华大学、上海人工智能实验室等机构发布了通才AI智能体“Ghost in the Minecraft(GITM)”。同样将大语言模型(LLM)整合到《我的世界》中,GITM在《我的世界》的主世界中实现了100%的任务覆盖率,成功通关解锁了完整的科技树,而此前所有智能体的总和只能覆盖30%。此外,在“获取钻石”任务上,GITM的成功率达到67.5%,相比之前的最佳成绩,即OpenAI的VPT方法,提高了47.5%。
GITM在《我的世界》中的任务覆盖率远高于现有的AI智能体。虽然这些论文中涉及了一些技术细节,但我们可以先不谈论它们。为什么他们会不约而同地选择《我的世界》作为实验平台呢?
一、《我的世界》是一个大型AI试验场
《我的世界》已经成为训练AI的理想场所。在过去的几年中,许多AI都在《我的世界》中进行了训练。著名的莫拉维克悖论指出,对于人类而言困难的任务(如下棋)对AI来说很简单,而对人类来说相对简单的任务(如在开放世界中与环境交互、进行规划和决策)对AI来说却是巨大挑战。正是因为这种情况的存在,早在AI发展不像现在这么成熟的几年前,科学家们就开始在《我的世界》中使用AI完成一些简单的任务。
继续训练AI的原因之一是《我的世界》提供了一个广阔的、复杂的开放世界环境,让科学家们能够挑战AI在规划、决策和与环境交互等方面的能力。在过去的几年里,许多科学家和研究机构都选择在《我的世界》中进行AI训练。
2019年,Facebook开发了一款名为"craftassist bot"的AI助手,可以执行玩家指定的各种任务,如建造城市、与村民交互等。同年,卡内基·梅隆大学、微软、DeepMind和OpenAI联合举办了名为"MineRL"的《我的世界》AI比赛。这些活动都标志着AI在《我的世界》中的应用逐渐从简单的指令执行发展到更复杂的任务。
随着时间的推移,越来越多的公司和研究机构开始在《我的世界》中训练AI。美国国防高级研究计划局(DARPA)在2020年启动了ADAPT项目,旨在利用AI协助指挥官进行决策。Aptima公司利用《我的世界》训练AI与人类进行互动。哥本哈根信息技术大学、纽约大学和上海大学的研究者使用3D神经元胞自动机系统在《我的世界》中创建了复杂的实体。
去年,OpenAI通过引入视频预训练法成功训练出熟练的《我的世界》AI,掌握了高阶玩法。此外,DeepMind开发了名为"DreamerV3"的AI智能体,在《我的世界》中摸爬滚打17天,学会了如何挖钻石。这些成果的取得证明了《我的世界》作为AI训练场所的价值。
二、没有谁比《我的世界》更合适了
《我的世界》是一款受欢迎的游戏,具有广泛的玩家基础。其开放世界的游戏属性使其成为科学家们训练AI的理想场所。与其他游戏相比,如LOL和王者荣耀等单一的战略对战游戏,《我的世界》的游戏过程更为复杂,挑战了AI的极限。
《我的世界》不预先设定目标,提供了两种模式:生存和创造。在生存模式中,玩家需要通过采集资源、建造和生存来维持自己的生活。这种自由度很大程度上反映了现实世界的复杂性,给AI提供了更多的学习和适应的机会。
此外,《我的世界》的游戏世界是无限生成的,拥有各种地形、生物和物品。这种多样性使得AI在游戏中面临各种挑战,需要具备多样的技能和决策能力。AI必须能够规划路径、进行资源管理、解决问题和与环境进行交互,这些都是现实世界中重要的技能。
另一个重要的因素是《我的世界》的社交性质。玩家可以在游戏中与其他玩家进行合作或竞争。这种社交互动提供了一种机会,让AI学会与人类合作、协调和竞争。这对于AI在未来实际应用中的发展至关重要。
三、《我的世界》中的AI在本次开发中具有以下特点:
1.引入大语言模型(LLM):与以往基于《我的世界》训练的AI相比,本次开发采用了大语言模型作为核心训练方法。这一方法能够使AI自主驱动地探索并掌握广泛的技能,从而更好地模拟人类的学习过程。
2.自主驱动的探索:通过大语言模型的训练方法,AI可以根据总体目标提出问题并自动生成多个小任务。它通过存储有助于解决任务的行动程序,逐渐建立起技能库。当面临相似任务时,AI可以根据描述从技能库中检索相关知识。这使得AI能够自主驱动地探索和应对各种情况。
3.终身学习者:大语言模型方法使得AI能够在较长时间跨度内逐步获取、更新、积累和迁移知识。它能够缓解传统持续学习方法中的“灾难性遗忘”,更好地适应新环境和任务。
4.类人类决策过程和行为方式:通过训练和自主探索,《我的世界》中的AI能够根据当前技能水平和世界状态提出合适的任务,完善技能并存储已掌握的技能。它还能够自主探索世界,并以类似于人类的决策过程和行为方式进行行动。这使得AI在决策和行为上与人类非常相似。
5.面向现实世界的推测:AI能够通关《我的世界》表明它在该虚拟环境中具备高度适应能力。这引发了人们对于AI在现实世界中的潜在能力的思考。未来,AI可能能够像人类一样生活、具备各种技能,并且具有自己的想法,使人们难以区分其与真实人类的区别。
综上所述,通过大语言模型方法在《我的世界》中训练出的AI更接近于真实人类,具备自主学习、决策和行动的能力。这种训练方法的发展也引发了对于AI在现实世界中潜在应用的思考和想象。