0531-86018775

背景提升丨国内科研远程1V1-基于强化学习的游戏AI设计研究

作者: 2022-02-07 11:34 来源:济南编辑

项目介绍

 

▎正式科研:1v1线上定制辅导

▎项目收获:科研报告、导师推荐信

▎科研补充包:48课时科研基础课+15课时学术写作基础课

 

 


涉及领域

 

本课题涉及到 人工智能 | 强化学习 | 卷积神经网络 | 神经网络结构搜索 | 深度学习模型设计 | 训练方法 等方面的知识,适合申请 算法 | 数据科学 | 人工智能 | 深度学习 | 多媒体 | 强化学习 | 计算机科学 等相关专业的学生

 

 


适合人群

 

有意提高自身知识水平及学术能力的学生

有意掌握最前沿科研热点及科研方法的学生

有留学意向、跨专业深造的学生


 

 研究前沿性

 

自OpenAI Five团队2:0战胜Dota2职业战队、TI8冠  军OG,基于强化学习的人工智能算法再一次吸引了众多关注。基于从零开始学习的强化学习算法和人类学习相比,更加依赖海量的游戏数据和使用更原始的、无人能及的计算能力,这也使得在竞技进程中,游戏AI可以展现出超乎常规的,无法被人类游戏团队所理解的决策。正是这些出乎意料的、抛弃人类先验知识的小决策才最终组成了游戏AI最后的胜利。自从19世纪50年代诞生人工智能以来,竞技游戏一直是评测人工智能算法的最有效途径之一。竞技游戏可以直接将人工智能算法的抽象能力模拟地表现在分数上,并且提供了人机对抗的平台,每当新的人工智能算法出现,游戏都可以便捷地提供一个相对公平的评测指标。基于竞技游戏的人工智能,从最开始的“深蓝”国际象棋算法,到现在的AlphaGo围棋算法以及即时战略游戏算法,人工智能算法所面对的游戏场景越发的复杂,相应的核心算法发也从最开始的暴力穷举法发展到了以自主学习为主的强化学习方法。

 

 


研究介绍

 

本项目将从机器学习发展及经典算法、深度学习及卷积神经网络和强化学习及深度强化学习算法三个模块开展。

 

其中机器学习模块将以两个部分进行展开和切入。第  部分让学生了解机器学习的基本概念和发展,了解现存机器学习算法分类包括监督学习,非监督学习以及强化学习,让同学对机器学习拥有完整的认知。第二部分通过介绍监督学习以及非监督学习里的经典算法,加深对经典算法的数学理解以及机器学习的概念。

 

深度学习模块以三个部分进行展开切入。第  部分让学生了解深度学习与传统机器学习算法区别,同时通过经典案例介绍深度学习算法的学习架构。第二部分以卷积神经网络为例,介绍流行特征提取网络结构,并联合课后作业,上手编程增加学生对于卷积神经网络的作用和工作原理。第三部分将设计特有的轻量级数据库,使得学生可以自主设计及测试提出的神经网络结构,从而在真实的调参过程中理解数据处理方法以及训练的重要参数。学生将亲手设计并训练自己的竞技游戏AI。并且在基于现存算法的基础上提出针对游戏场景的改进算法,并在老师的指导下实现并调试。

 


课题要点

 

课题研究方法

文献学习、建立模型、代码开发。

 

课题难点

Python、Pytorch基础编程能力,数学分析能力,深度学习基础知识理解。

 


1v1定制化辅导参考任务

 

任务一

掌握查阅文献和研究方法

 

  掌握查阅文献和面向文献学习的方法;

 

  掌握文献管理的方法;


  通过查阅文献,学习该方向的研究热点和方向;

 

  掌握快速提炼文献重要信息的方法。

任务二

掌握深度学习基本理论和训练框架、数据集


  掌握机器学习基本概念、通用的机器学习流程、机器学习的不同方法以及如何验证和评测机器学习模型;


  学习人工智能背景知识及基础深度学习原理;


  学习掌握python语言以及深度学习训练框架pytorch,会用pytorch进行简单模型设计和训练。

 任务三

掌握卷积神经网络和经典图像识别模型

 

  学习卷积神经网络模型的构成要素,学会卷积神经网络模型的参数量、计算量的计算方法;

 

  查阅相关文献,熟悉经典卷积神经网络模型如VGG、ResNet、DenseNet、MobileNet等的设计理念和网络结构;


  熟练掌握使用pytorch设计卷积神经网络模型,并进行训练和调参。

任务四

掌握强化学习概念

 

  通过查阅文献及相关资料掌握强化学习的基础定义和概念;

 

  掌握强化学习的三个核心思想、四个主要方法;


  熟练运用基于Q-learning的强化学习训练框架。

   任务五

掌握OpenAI游戏AI开发库

 

  通过OpenAI官网提供的API说明掌握其提供的代码接口使用方法;

 

  以OpenAI Gym库中的雅达利打砖块游戏为主要研究场景,熟悉代码接口并将之前设计的强化学习框架部署在游戏场景中,测试模型 的智能化水平。

任务六

项目收尾 

  撰写整体报告;

 

  准备一次20~30分钟的presentation。


(以上任务仅供参考,实际辅导根据定制化要求展开)

 

 


热门活动

注册/登录

+86
获取验证码

登录

+86

收不到验证码?

知道了

找回密码

+86
获取验证码
下一步

重新设置密码

为您的账号设置一个新密码

保存新密码

密码重置成功

请妥善保存您的密码
立即登录

为了确保您的帐号安全

请勿将帐号信息提供给他人/机构