采用纯视觉输入、纷乱行为输出的形式
发布日期:2024-11-28 04:01:42 作者: 九游会J9国际
人工智能大模型下围棋已不是新鲜事,玩电脑游戏水平如何?不久前,淘天集团未来生活实验室算法工程师,尝试利用多模态大模型体验国产电脑游戏《黑神话:悟空》,探索大模型在特定场景中的能力边界,取得令人惊喜的效果。相关研究成果已上线论文预印本网站arXiv。
《黑神话:悟空》是典型的动作角色扮演类游戏。在当前大模型研究领域,有不少研究者选择将该类游戏作为研究平台,采用纯视觉输入、复杂动作输出的模式,测试大模型在特定场景下的性能表现。其中,纯视觉输入是指模型仅通过理解和分析游戏截图进行决策,而复杂动作输出则需要模型生成并执行复杂而连续的动作,如战斗场景中的精确操作。
想要让多模态大模型控制游戏角色,要克服两大困难。一是直接视觉输入的挑战。由于大模型所需的环境数据不一定能通过游戏API(应用程序编程接口)获取,因此对于那些需要深入理解游戏界面的大型游戏而言,学习从视觉输入中进行推理是一种更直接的策略,这给大模型带来不小挑战。二是面向动作任务的困难。在动作类游戏中,基于强化学习的框架仍然占主导地位,但在特定任务上需要大量训练时间,迁移到其他任务上泛化能力较差,表现往往不佳。
为突破上述瓶颈,在此次研究中,技术团队提出了一个名为VARP Agent(视觉动作角色扮演智能体)的新框架。它直接以游戏截图为输入,通过一组多模态大模型的推理,最终生成可以直接操作游戏角色的代码,每个动作都是由各种原子命令组合而成的序列。这些原子命令包括轻攻击、躲避、重攻击、恢复血量等。同时,该框架包含三个库:情境库、动作库和人类引导库。这些库可以被检索和更新,以存储用于自我学习和人类指导的密集知识。
技术团队定义了10个基本任务和2个挑战任务,其中75%的任务发生在战斗场景中。对于战斗任务,如果玩家角色击败了敌人,则任务成功;如果玩家角色被敌人击败,则任务失败。研究结果显示,该框架在基本任务和简单到中等难度的战斗中,胜率高达90%,但在面对高难度任务时,表现相对较差。总体来看,其整体水平仍不如高水平人类玩家,但研究成果可为设计应对更广泛挑战、更复杂的智能体提供参考。
人民网北京10月20日电 (记者杨曦)据证监会消息,为深入贯彻落实党的二十届三中全会、9月26日中央政治局会议精神,近日证监会党委书记、主席吴清在北京召开进一步全面深化资本市场改革专题座谈会,与专家学者、财经媒体负责人代表深入交流,充分听取意见建议。 座谈中,大家一致认为,9月26日中央政治局会议召开以来,一揽子有针对性的增量政策接续发力,释放了加力推动经济持续回升向好的积极信号,有效提振了资本市场投资者信心和活跃度,股市活力的提升也将促进“金融活、经济活”正反馈效应的释放。…
人民网北京10月19日电 (记者许维娜)随着经济的发展和社会的进步,人们对风险保障的需求日益增长,保险行业作为风险转移和经济补偿的重要手段,在现代经济体系中扮演着至关重要的角色。 人才是行业发展的核心竞争力,优秀的保险人才能够更好地理解市场需求,开发出符合消费者期望的保险产品;能够熟练运用先进技术,推动行业的数字化转型;能够提供专业的服务,增强消费者对保险行业的信任。…