训练 ai 使用强化学习玩口袋妖怪红-人生就是博尊龙凯时

2023年10月18日下午7:47 • 工具软件

许多用途、生产力技巧、自动化、工作流程和其他使用 ai 来提高您的结果、技能等的方法。然而，到目前为止，我们还没有介绍的一个应用程序是使用 ai 来玩神奇宝贝红。本指南提供了了解有关使用强化学习训练 ai 模型的更多信息的机会。以及ai在游戏中的学习过程，ai的成功和失败，ai开发的技术细节，有效运行实验的，未来的改进以及如何在自己的计算机上运行程序，如果您有兴趣。

人工智能被训练使用强化学习来玩神奇宝贝红，这个过程始于人工智能对游戏一无所知，只有按下随机按钮的能力。在五年的模拟游戏时间里，人工智能学会了捕捉神奇宝贝，进化它们，甚至击败了健身房的领导者。这个学习过程由奖励系统指导，该系统激励人工智能完成目标并通过反复试验来学习。

训练ai使用强化学习玩口袋妖怪

人工智能的学习过程被可视化，以了解其行为和决策。这种可视化为人工智能的学习过程提供了宝贵的见解，并有助于指导人工智能训练的未来改进。观看下面的视频，了解有关该过程的更多信息并查看其实际效果。

鼓励人工智能探索游戏地图并寻找新奇事物，发现新屏幕会给予奖励。然而，这一学习过程并非没有挑战。由于新颖性奖励系统，人工智能有时会专注于某些领域。为了调整ai的行为，修改了奖励系统，例如提高新颖性奖励的门槛，以鼓励探索新地点。添加了额外的奖励以激励 ai 参与战斗并升级其神奇宝贝。

人工智能学会了导航游戏地图，参与战斗，甚至利用游戏的随机数生成器。对人工智能的行为进行了分析和可视化，以了解其学习过程和决策。该分析表明，ai与游戏环境的交互以及奖励功能的设计是训练过程中的关键考虑因素。

人工智能使用称为近端策略优化的强化学习算法进行训练。选择该算法是因为它能够处理神奇宝贝红的复杂和动态环境。然而，人工智能的训练并非没有挑战。在游戏中回溯的需要、运行训练的成本以及仔细设计奖励函数的需要都是必须考虑的因素。

运行ai的训练可以在个人计算机上完成，并在项目的github存储库中提供说明。但是，请务必注意，默认情况下，游戏将在 32k 步或大约一小时后终止。这可以通过调整ep_length变量来增加，但它也会使用更多的内存。默认情况下，这最多可以使用大约 100g 的 ram。这可以通过减少num_cpu或ep_length来减少，但它可能会影响结果。此外，在开始改进之前，模型行为可能会在前 50 次左右的训练迭代中退化。

使用强化学习训练 ai 模型的步骤：

1. 问题表述：

状态空间：定义代理可能遇到的所有可能状态的集合。
操作空间：定义代理可以执行的所有可能操作的集合。
奖励函数：定义一个基于状态-操作对提供标量奖励的函数。
策略：代理用来根据当前状态确定下一步操作的策略。
目标：通常，目标是最大化预期的累积奖励，通常会随着时间的推移而打折。

2. 环境设置：

您可以使用预先构建的环境（如openai gym），也可以构建一个模拟您尝试解决的问题的自定义环境。

3. 初始化参数：

初始化策略和其他参数，如折扣系数、学习率等。

4. 训练循环：

观察：观察环境的当前状态。
操作选择：使用当前策略选择要在观察状态下执行的操作。
执行：执行操作并观察新的状态和奖励。
学习：根据观察到的奖励和过渡更新策略或中间函数（如价值函数或行动-价值函数）。
循环：继续此过程，直到满足终止条件，该条件可以是最大迭代次数、问题定义的令人满意的学习水平或其他条件。

5. 政策改进：

经过充分培训后，优化或优化策略以获得更好的性能，这可以使用策略迭代、价值迭代等技术或通过更高级的方法（如参与者-评论家模型）来完成。

6. 评估：

在测试环境或实际方案中运行经过训练的代理以评估其性能。

算法：

在学习阶段可以使用不同的算法，每种算法都有自己的优点和缺点：

价值迭代、策略迭代：主要用于教育目的的基本方法。
q-learning，sarsa：适用于高维状态空间的无模型方法。
深度q网络（dqn）：将q学习与深度学习相结合。
策略梯度：直接优化策略功能。
参与者-评论家：结合基于价值和基于策略的方法。

库和工具：

python库，如tensorflow，pytorch，用于构建神经网络，如果你使用函数逼近器。
用于环境模拟的openai gym。

通过强化学习，人工智能已经学会了在游戏世界中导航、参与战斗，甚至利用游戏的机制。尽管面临挑战，但人工智能的培训为人工智能的学习过程和决策提供了宝贵的见解，并为人工智能在游戏中的未来改进和应用铺平了道路。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/yun261039.html

人工智能定义

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

如何在较旧的不受支持的mac上安装macos sonoma

上一篇 2023年10月18日下午7:47

创建 autogen 多 ai 代理应用程序以更有效地解决问题

下一篇 2023年10月18日下午7:48

工具软件

tolan：人格化的 chatbot

tolan：人格化的 chatbot 一个友好的小外星人，你可以和他谈论任何事情，他甚至可以帮助你想象你的想法。看起来支持类似实时语音能力，小外星人的形象也可以自定义非常可爱

2024年9月20日
工具软件

advancedliveportrait：自定义面部表情动画

advancedliveportrait：自定义面部表情动画 live portrait 被玩出花了。advancedliveportrait 这个插件可以让你手动编辑人脸图片的表…

2024年9月20日
这就是为什么大多数人还没有进入人工智能的原因

人工智能是一个加载的术语。对一些人来说，它象征着未来的道路;对其他人来说，这是一种颠覆性的技术，可以让他们摆脱工作。尽管仍处于早期阶段，但大型科技公司正在对聊天机器人和虚拟助手等支…

工具软件 2024年6月16日
ai 将在 nothing phone 3 中无处不在！

在最近的一段视频帖子中，nothing 首席执行官 carl pei 在 x（前身为 twitter）上谈论了该公司为我们准备的一些重大新闻和发展。在智能手机业务中，nothin…

工具软件 2024年6月16日
谷歌google

android 上的 chrome 现在是一款“画中画”应用程序

google chrome 现在有一个有价值的小功能，称为“最小化 chrome 标签页”，可让您在画中画窗口中最小化 chrome 自定义标签页。有了它，您可以打开本机应用程序的…

2024年5月31日
谷歌google

谷歌正在测试人工智能概述中的广告

在最近的一篇博客中，谷歌证实，它正在测试在人工智能生成的查询结果中投放广告的方式。 “在早期测试中，我们听说人们发现广告在人工智能生成的概述上方和下方消失很有帮助。很快，我们将开始…

2024年5月29日
谷歌 pixel 8a 如何重新定义整个中端智能手机细分市场

pixel 8a终于来了。谷歌最新的中端智能手机几乎没有被隐藏过，是几次泄密和谣言所暗示的一切。但是，随着规格的确定，我们现在可以更好地确定最新的a系列pixel设备的全部内容。 …

2024年5月20日 • 最新资讯
工具软件

krea ai 发布 ai 视频生成功能

krea ai 发布 ai 视频生成功能是可以定义首位帧的，而且每张图片对应的提示词都可以自定义。看起来像是之前发过的基于 ipadapter 的 animatediff 的工作…

2024年5月20日
cohere 发布 cohere toolkit ai 工具包

cohere 发布 cohere toolkit ai 工具包 cohere 发布 cohere toolkit ai 工具包，初始应用程序是一个知识助手。可以连接到企业数据并针…

工具软件 2024年5月10日
工具软件

chatgpt 体验优化

chatgpt 体验优化：现在 open ai 给免费的 gpt3.5 用户增加了使用速率限制，达到限制会要求注册账号。 “context connectors”，它的首次实现很…

2024年5月10日
bestever：创意人工智能广告工具

bestever：创意人工智能广告工具 bestever 是一个专门为品牌定制图像和视频广告的平台。它提供多种工具，让用户能轻松地将品牌的标志、颜色和字体整合到广告创意中。这些创意…

工具软件 2024年5月10日
perplexity-inspired llm answer engine：开源的 ai 搜索应用

perplexity-inspired llm answer engine：开源的 ai 搜索应用一个开源的类似 perplexity 的 ai 搜索应用，含构建复杂答案引擎所需…

工具软件 2024年5月10日
工具软件

ai音乐生成工具udio发布

ai音乐生成工具udio发布音乐生成应用udio正式发布比suno有更多的自定义能力。同时整个软件的设计也更偏向内容消费，不只是单纯的当工具在做。前谷歌deepmind的顶尖a…

2024年5月10日
工具软件

microsoft、谷歌和人工智能巨头在人工智能服务中加强儿童保护措施

为了打击人工智能（ai）技术的潜在滥用，microsoft和谷歌宣布承诺在其生成式人工智能服务中实施新的儿童安全措施。这些承诺是与致力于打击儿童性虐待的非营利组织 thorn 和 …

2024年4月25日
谷歌google

谷歌正在将 sge ai 摘要扩展到美国的更多用户，即使他们没有注册

美国的一些用户开始在搜索页面顶部获得人工智能生成的查询摘要。新的搜索从顶部结果中提取信息，提供参考链接和图像，并以一口大小的句子总结信息，使用户能够快速获得查询的答案。这可能会让…

2024年4月6日
最新资讯

threads 在美国推出了一项新的“trending now”功能

美国的 threads 用户已开始在他们的 feed 中看到一个新的“trending now”部分。在这里，用户可以找到热门话题，这些话题正在激发平台上越来越多的对话。trend…

2024年4月2日
新的人工智能模型可以在有限的人工干预下相互交谈和学习

人工智能系统正在快速发展。发表在《自然》杂志上的一篇新论文强调了人工智能网络的发展，该网络不仅可以仅依靠书面指令来学习和执行任务，还可以教另一个没有此类指令或经验的“姐妹”人工智能…

工具软件 2024年4月2日
ms outlook中未显示的组日历：组

集团日历总结了即将举行的活动并记录了重要会议，以保持可持续的工作流程。但是，如果组日历未显示在 microsoft outlook 中怎么办？鉴于所有组成员都使用组日历，这可能会很…

2024年4月1日 • 工具软件
工具软件

mistral ai 创始人 arthur mensch 讨论开源 ai

mistral ai 创始人 arthur mensch 讨论开源 ai 在 ai ascent 大会上，mistral ai 的创始人 arthur mensch 提出了一个令人…

2024年3月29日
工具软件

创建可信赖 ai 模型的 5 个基本原则

创建可信赖 ai 模型的 5 个基本原则随着人工智能（ai）越来越多地渗透到我们的生活中，对这些系统的信任变得至关重要。ibm 概述了五项基本原则，这些原则对于创建 ai 模…

2024年3月29日
微软microsoft

微软为厂商定义 ai pc：必须配备 copilot 键

英特尔、微软、高通以及 amd 等科技巨头，近月来一直在推广所谓的「ai pc」概念。虽然我们仍在等待微软就其windows中人工智能大计的更多细节进行分享，英特尔已开始公布微软…

2024年3月29日
工具软件

nvidia 和 ai 个人计算的未来

nvidia 和 ai 个人计算的未来 nvidia 应用深度学习研究副总裁 bryan catanzaro 和 imbue 首席执行官 kanjun qiu 在最近的一次采访中解…

2024年3月26日
我该使用哪款 ai？ai 模型的超能力与现状

一年多来，gpt-4 一直是占主导地位的 ai 模型，显然比任何其他可用的 llm 系统都要聪明得多。这种情况在上个月发生了变化，现在有三个gpt-4级模型，它们都为自己的聊天机器…

2024年3月26日 • 工具软件
工具软件

有关 openai q-star 的更多细节揭晓

有关 openai q-star 的更多细节揭晓关于 openai 的 q-star 有一个未经证实的泄漏，这是一个对话系统，据说利用基于能量的模型（ebm）来生成响应。据报…

2024年3月24日
工具软件

macbook的基本技巧和窍门

macbook的基本技巧和窍门对于希望提高工作效率和个性化数字工作空间的 macbook 用户来说，这里有大量功能等待您去发现。本指南将引导您了解几个不可或缺的提示和技巧，这些技…

2024年3月24日