从打王者荣耀到踢足球腾讯AILab的又一次进化

发布时间:2024-05-15 18:33:12 来源:JRS直播网

从玩王者荣耀到踢足球,腾讯AI实验室的绝乌最近又进化了。

12月30日,首届谷歌足球大赛正式结束。 腾讯AI实验室的绝悟版本以1785.8的总成绩机器人足球竞赛与设计技术,在与全球顶尖技术团队的角逐中以显着优势夺得冠军。

这是继今年11月底腾讯AI实验室与《王者荣耀》联合开发的战略协同AI“绝物”升级为完整系统后,腾讯AI的又一新尝试。

王者荣耀手游将于11月28日至30日限时开放的绝武最终挑战赛中,玩家和AI可以选择当前版本游戏中几乎所有的英雄,还可以接受一个 5 人的团队。 在MOBA游戏中,自玩AI已经达到了无限接近成熟的水平。

据介绍,本次决武版本的整体设计是在对决武完整迁移的基础上,并根据足球比赛的特点进行了一些针对性的调整,展示了决武AI背后的深度强化学习方法的通用能力。

足球比赛前 10 名排名,来自

机器学习界的人对数据竞赛平台再熟悉不过了。 该平台成立于2010年,一直是全球最大的数据科学社区和竞赛平台。 本次足球人工智能大赛由英超曼城俱乐部联合举办。

举办这样的比赛自然是非常具有挑战性的:足球队策略因其复杂性、多样性和高难度而一直是困扰世界顶尖人工智能研究团队的难题。 曼城和谷歌提出的竞赛是全球首个足球人工智能领域的竞赛,为深度强化学习多智能体技术竞赛和基准评估提供了新的舞台。

城市足球集团数据洞察与决策技术总监布莱恩表示:“足球是一个极其复杂的环境,学习规则也很难。学习往往是一个试错的过程,但失败却很难改变。”在足球场上接受谷歌提出的虚拟环境为我们提供了一个测试战术概念和完善原则的好地方,以便教练能够将经验付诸实践。”

本次比赛采用强化学习环境,基于开源足球比赛开发,采用常规的11对11比赛形式。 参赛队伍需要控制其中一个智能体和十个内置智能体组成一个团队。 看起来有点像玩FIFA和直播。 职业模式。 大赛自今年9月启动以来机器人足球竞赛与设计技术,吸引了来自全球顶尖大学和研究机构的1100多支队伍参加挑战。

兼顾合作与对抗

- (on) 比赛以最流行的足球比赛为蓝本,其中一名特工控制一支足球队中的一名或全部足球运动员,学习如何在他们之间传球,并设法突破对手的防守进球。 比赛规则与普通足球比赛类似。 目标是将球踢入对方球门。 还有越位、黄牌和红牌规则。

与常见足球游戏中统一控制NPC球队不同,在本次比赛中,每个球员都由单独的智能体控制,参赛的AI模型根据比赛情况控制其中一个智能体,并与其他智能体进行交互。 10 个内置智能代理可供使用。 这就要求每个球员不仅要观察对方的行为,还要关注自己球员的情况。 这需要非常复杂的团队合作和竞争策略来支持。

(黄色球衣)对阵(本次比赛第二名)最近的比赛片段。

例如,当对方球员控球时,自己的经纪人不仅需要根据球场两侧球员的分布来预测控球球员的下一步动作,还需要与其他球员合作球队中的球员在没有犯规的情况下抓住球。 由于法庭动态瞬息万变,还需要高速、实时的决策能力。

此外,利用强化学习方法从头开始训练一个完整的足球人工智能实际上是相当困难的。 与MOBA游戏不断有经济、血量、经验等实时学习信号不同,足球游戏的激励非常稀疏,只能依靠进球得分。 调整奖励机制一直是强化学习领域面临的一大难题。

绝悟AI的冠军之路

得益于深度强化学习在游戏领域的快速发展,从雅达利游戏、围棋到星际争霸、Dota2等电子游戏,AI智能体在不断迭代进化中变得越来越强大机器人足球竞赛与设计技术,足球队的策略也是最新的人工智能的目标。

绝物版首先使用强化学习和自对弈从头开始训练模型,并部署了异步分布式强化学习框架。 这种异步架构虽然在训练阶段牺牲了一些实时性能,但灵活性显着提升,并且还支持训练过程中计算资源的按需调整,使其能够适应11-agent足球比赛的训练环境。

由于MOBA游戏和足球游戏的任务目标存在差异,绝物版采用了生成对抗模拟学习(GAIL)和人工设计奖励相结合的方式,在功能和奖励设计上进行扩展和创新。 该解决方案采用生成对抗训练机制来拟合专家行为的状态和动作分布,让觉悟版本可以向其他团队学习。 随后,研究人员将GAIL训练的模型作为固定对手进行进一步的自我博弈训练,进一步提高了策略的鲁棒性。

GAIL的优点(奖励设计结合了GAIL和GAIL两种方案)

然而,这种通过自博弈强化学习获得的模型有一个天然的缺点:很容易收敛到单一风格。 在实际比赛结束时,风格单一的“球队”很容易因为没有见过某种打法而表现失常,最终导致成绩不佳。 我们知道,在足球运动一百多年的发展过程中,出现了很多流行的战术:防守反击、全面进攻、提基塔卡……

因此,为了提高策略的多样性和鲁棒性,觉悟还针对多智能体学习任务采用了(几个策略池)多风格的强化学习训练方案。

这种多风格强化学习训练方案的主要过程可以简单概括为先专业后综合。

首先,训练有一定竞技能力的基本模型,如运球、传切、投篮等。 然后,在基本模型的基础上训练多个风格化模型。 每个模型都专注于一种游戏风格。 在风格化模型训练过程中,会定期添加主模型作为对手,避免过于坚持风格而丧失基本能力。

最后,研究人员在多个基础模型的基础上训练了一个主模型。 主模除了使用自己的历史款作为对手外,还定期添加所有风格化对手的最新款作为对手,以保证主模能够适应完全不同的风格。 对手。

腾讯内部能力评分系统显示,加入对手池进行训练后,主模型在基础模型的基础上可以提升200分,比最强风格化打法高出80分。

最终,基于觉悟完整的架构迁移、定制化的框架改进以及关键的生成对抗模拟学习(GAIL)方案和(多个策略池)多风格强化学习训练方案,觉悟取得了比其他竞品更好的优势AI 队伍最终获得冠军。

在一场比赛中进球。

决武版在足球比赛中获得冠军,这意味着决武全面升级后,其背后的深度强化学习解决方案训练出了能够适应复杂足球比赛场景的AI模型,验证了腾讯的底层架构和方法绝无艾。 的多功能性。 未来,这项技术可以进一步发展,扩展到更真实、更复杂的场景。

据了解,绝物团队的研究方向正在从足球比赛中单一智能体的控制转向11个智能体的同时控制和协调运行。 当场上需要控制的独立足球智能体数量达到11个时,强化学习的难度将会呈指数级增长。 同时,由于足球智能体之间没有太大差异,如何自动形成角色划分并在不同角色之间分配激励一直是多智能体强化学习中的难题。

在此前的5v5(多智能体)谷歌天梯赛中,腾讯觉悟团队也获得了冠军,展示了觉悟AI的巨大潜力。

在足球比赛中,大数据分析和人工智能早已出现。 人们经常听说,球员的一举一动都可以通过球场内的摄像头监控,让战术和训练变得更加精细。 在西甲和英超联赛中,几乎所有球队都在大规模使用这些技术。

而通过强化学习从头开始的自我对弈能否像围棋一样为足球世界带来前所未有的战术呢? 这也许是我们未来可以期待的事情。

©结束

相关足球新闻

友情链接: JRS直播网 jrs直播 jrs直播低调看直播 jrs直播吧 jrs直播(无插件)直播nba jrs低调看高清直播 jrs直播NBA jrs直播极速体育 英超直播 jrs低调看

声明:JRS直播网是一个体育导航,所有直播和视频链接均由网友提供,并链接到其他网站播放

©2023-2025 All rights reserved.JRS直播网版权所有 XML地图 备案号:晋ICP备2023014412号