一、强化学习基本概念

一、强化学习基本概念

  • 1.1 何为强化学习?
  • 1.2 强化学习的环境
  • 1.3 强化学习的目标
  • 1.4 强化学习的数据

1.1 何为强化学习?

  强化学习(Reinforcement Learning, RL)是机器通过与环境交互来实现目标的一种计算方法。机器和环境的一轮交互是指:机器在环境中的某一状态下采取一个动作决策,并把该决策应用到环境中,环境发生相应的改变,并将改变产生的奖励值和决策后的下一状态返回给机器。通常交互是迭代进行的,机器的目标是在多轮交互过程中实现奖励最大化(也可能是最小化,取决于奖励函数的设计)。在强化学习中,上述“机器”被描述为智能体( Agent ),与监督学习中的模型不同,强化学习的智能体可以感知环境信息,且能通过决策影响环境,而非单纯给出预测信号。

  强化学习的交互过程如图1-1所示。在每一轮的交互中,智能体感知环境目前所处状态,经过自身计算给出本轮的决策,并将其应用到环境中;环境在智能体做出决策后,产生相应的实时奖励值并发生状态转移。智能体则在下一轮交互中感知到新的环境状态,以此类推,直到任务完成。

在这里插入图片描述

图1-1 强化学习交互过程

  根据描述,智能体有3大关键要素,即感知、决策与奖励。

  • 感知:智能体感知环境状态。
  • 决策:智能体根据当前状态计算出达到目标需要采取的动作的过程。决策策略是智能体智能形式的体现,是不同智能体的核心区别。
  • 奖励:环境根据状态和智能体采取的动作,产生一个标量信号作为奖励反馈。这个标量信号是衡量智能体该轮动作好坏的依据。

面向决策任务的强化学习与面向预测任务的监督学习的区别?

  1. 决策任务往往涉及多轮交互,即序贯决策;而预测任务通常是单论独立任务。
  2. 如果决策也是单轮的,则可以转化为“判别最优动作”的预测任务。
  3. 因为决策是多轮的,所以智能体需要在每轮决策时根据环境变化做出相应改变,因此当前轮带来的最大奖励反馈动作从全局来看不一定是最优的。

1.2 强化学习的环境

  强化学习的智能体是在和一个动态环境的交互过程中玩成序贯决策的。所谓动态环境,即环境会随着某些因素的变化而不断演变,在数学和物理学中,我们称之为随机过程。动态环境在生活中随处可见,例如城市交通、足球比赛、星系运动等。对于随机过程,关键要素即状态以及状态转移的条件概率分布。

  若在环境自身演变的随机过程中加入外来干扰因素,即智能体的动作,那么环境的下一时刻概率分布就将由当前状态和当前状态下智能体动作共同决定,用数学公式可表示为:
下一刻状态 ∼ P ( ⋅ ∣ 当前状态 , 智能体的动作 ) 下一刻状态 \sim \bm{P}(·|当前状态, 智能体的动作) 下一刻状态P当前状态,智能体的动作)

  上式可知,智能体决策的动作应用到环境中,使得环境发生相应的状态改变,而只能提则需要在新的状态下进一步给出决策。

  由此可知,与面向决策任务的智能体进行交互的环境是一个动态随机过程,其未来状态的分布由当前状态和智能体决策的动作共同决定,并且每一轮状态转移都伴随着两方面的随机性:一是智能体决策动作的随机性,二是环境基于当前状态和智能体动作来采取下一刻状态的随机性。

1.3 强化学习的目标

  在上述动态环境下,智能体和环境每次进行交互时,环境会产生相应的奖励信号,往往用标量表示。这个奖励信号是衡量当前动作好坏的标准。整个交互过程每一轮获得的奖励信号可以累加,形成智能体的整体回报(return),好比一盘游戏最后的分数值。根据环境的动态性我们可以知道,即使智能体的策略不变,智能体的初始状态不变,对应获得的奖励也可能不同。因此,在强化学习中,我们关注回报的期望,并将其定义为价值(value),这就是强化学习中智能体学习的优化目标。

  的计算相对复杂,需要对交互过程中每一轮智能体采取的动作的概率分布和环境相应状态转移的概率分布做积分运算。

1.4 强化学习的数据

  从数据层面,我们分析强化学习和监督学习的区别:
  监督学习的任务建立在从给定的数据分布中采样得到训练数据集,通过优化在训练数据集中设定的目标函数(如最小化预测误差)来找到模型的最优参数。训练数据集背后的数据分布是完全不变的。在强化学习中,数据是在智能体与环境交互过程中得到的。如果智能体不采取某个决策的动作,那么该动作对应的数据就永远无法被观测到,所以当前智能体的训练数据源于之前智能体的决策结果,因此,智能体的策略不同,与环境交互所产生的数据分布就不同。

  强化学习中有一个关于数据分布的概念,即占用度量(occupancy measure)。归一化的占用度量用于衡量一个智能体决策与一个动态环境交互过程中,采样到一个具体的状态动作(state-action pair)的概率分布。

  占用度量有一个重要性质:给定两个策略及其与一个动态环境交互得到的两个占用度量,那么当且仅当这两个占用度量相同时,这两个策略相同。也就是说,如果一个智能体的策略有所改变,那么他和环境交互得到的占用度量也会相应改变。

  根据占用度量这一重要性质,我们可以引申到强化学习本质的思维方式:

  1. 强化学习的策略在训练过程中会不断更新,其对应的数据分布(占用度量)也会相应地改变。因此,强化学习的一大难点在于,智能体看到的数据分布是随着智能体的学习而不断发生改变的。
  2. 由于奖励建立在状态动作对之上,一个策略对应的价值其实就是一个占用度量下对应奖励的期望,因此寻找最优策略也对应着寻找最优占用度量

  对于监督学习的任务,我们的目标是找到一个优化函数,使其在训练集上最小化一个给定的损失函数。在训练数据独立同分布的假设下,这个优化目标表示最小化模型在整个数据分布上的泛化误差(genneralization error),简要公式概括如下:
最优模型 = a r g   m i n 模型   E ( 特征,标签 ) ∼ 数据分布 [ 损失函 数 ( 标签,模 型 ( 特征 ) ) ] 最优模型=arg\ min_{模型}\ E_{(特征,标签) \sim 数据分布}[损失函数_{(标签,模型_{(特征)})}] 最优模型=arg min模型 E(特征,标签)数据分布[损失函(标签,模(特征))]

  相比之下,强化学习的最终优化目标是最大化智能体策略在和动态动态环境交互过程中的价值。据1.3可知,策略的价值可以等价转换成奖励函数在策略的占用度量上的期望,即:
最优策略 = a r g   m a x 策略   E ( 状态,动作 ) ∼ 策略的占用度量 [ 奖励函 数 ( 状态,动作 ) ] 最优策略 = arg \ max_{策略}\ E_{(状态,动作)\sim 策略的占用度量}[奖励函数_{(状态,动作)}] 最优策略=arg max策略 E(状态,动作)策略的占用度量[奖励函(状态,动作)]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/770817.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

FlinkCDC-3.1.1 DataStream Source

问题&#xff1a; Caused by: java.lang.ClassNotFoundException: org.apache.flink.table.catalog.ObjectPath 解决&#xff1a; 在poml文件中&#xff0c;导入的flink-table依赖把“ <scope>”去掉 <properties><maven.compiler.source>8</maven.compi…

安卓稳定性之crash详解

目录 前言一、Crash 的基本原理二、Crash 分析思路三、实例分析四、预防措施五、参考链接 前言 在开发和测试 Android 应用程序时&#xff0c;遇到应用程序崩溃是很常见的情况。 Android 崩溃指的是应用程序因为异常或错误而无法正常执行&#xff0c;并且导致应用强制关闭。 一…

通过一个单相逆变器仿真深度学习PR控制器

目录 前言 ​编辑 PR控制器的理论 PR控制器不同表达式及其建模 PR控制器连续积分组合及模型 PR控制器连续传递函数及模型 PR控制器离散积分及模型 PR控制器离散传递函数及模型 PR控制器差分方程及模型 系统仿真效果 总结 前言 在项目开发中常用PI控制器&#xff0c;这次在…

java实现【 生成小程序二维码:图片+二维码备注】

1.逻辑&#xff1a;进行获取小程序的token进行-获取不限制的小程序码。2.参考的地址&#xff1a;微信官方文档&#xff1a;官网-获取不限制的小程序码 需要注意的点&#xff1a;1. 如果传入page这个参数的话必须定义check_path参数&#xff0c;不然无法识别-page指定的目录2. …

2024微信小程序期末大作业-点奶茶微信小程序(后端nodejs-server)(附下载链接)_微信小程序期末大作业百度网盘下载

菜单展示 购物车展示&#xff1a; 提交订单&#xff1a; 支付详情页展示&#xff1a; 订单查看&#xff1a; 查看历史消费&#xff1a; 部分代码展示&#xff1a; <!--pages/home/home.wxml--> <block wx:for"{{listData}}" wx:key"itemlist&qu…

国标GB28181视频汇聚平台LntonCVS视频监控安防平台与国标协议对接解决方案

应急管理部门以“以信息化推动应急管理能力现代化”为总体目标&#xff0c;加快现代信息技术与应急管理业务深度融合&#xff0c;全面支持现代应急管理体系建设&#xff0c;这不仅是国家加强和改进应急管理工作的关键举措&#xff0c;也是应对日益严峻的应急管理形势和满足公众…

数据列表组件-报表

当数据在后端接口查询到&#xff0c;需要在页面展示出来&#xff0c;如果项目有很多report &#xff0c;可以把列表做一个组件 效果如下&#xff1a; js代码&#xff1a; <!DOCTYPE html> <html> <head><meta charset"utf-8" /><title&g…

PKUMOD同学又双叒获奖啦~

近期王选所数据管理研究室的同学们 凭借在各自领域的卓越表现 获得了多项荣誉和奖励 让我们共赏风采~ 期待他们在未来的科研道路上 取得更加辉煌的成就 庞悦 前沿交叉学科研究院2020级博士生 荣获2024年北京大学校长奖学金 庞悦&#xff0c;北京大学元培学院2016级本科生&…

zabbix小白入门:从SNMP配置到图形展示——以IBM服务器为例

作者 乐维社区&#xff08;forum.lwops.cn&#xff09;许远 在运维实践中&#xff0c;Zabbix作为一款强大的开源监控工具&#xff0c;被广泛应用于服务器、网络设备和应用程序的监控&#xff0c;成为保障业务连续性和高效运行的关键。然而&#xff0c;对于Zabbix的初学者来说&a…

2024年前端面试题及答案

7、 nginx代理跨域 8、 nodejs中间件代理跨域 9、 WebSocket协议跨域 前端数据加密问题 1 一般如何处理用户敏感信息&#xff1f; 前端一般使用md5、base64加密、sha1加密&#xff0c;想要了解详情请自行百度。 前端http相关问题 1 HTTP常用状态码及其含义&#xff1f; …

vue-element-admin集成方案如何运行以及代码解读

文章目录 1.vue-admin-admin介绍2.运行方法3.代码解读3.1基础外层文件解读&#xff0c;以及eslint关闭&#xff08;如下图&#xff09;3.2内层src文件分析3.2.1 login流程解析 1.vue-admin-admin介绍 1.1 是一个后台前端解决方案(vueelementui)&#xff0c;内置i18国际化解决方…

行业洞察 | 2024应用程序安全领域现状报告

在信息爆炸的时代&#xff0c;我们每天都在使用各种应用&#xff0c;从社交娱乐到工作学习&#xff0c;应用已经成为我们生活中不可或缺的一部分。然而&#xff0c;你是否知道&#xff0c;在这些便捷的背后&#xff0c;隐藏着巨大的安全风险&#xff1f; 近年来&#xff0c;应用…

Build a Large Language Model (From Scratch)附录D(gpt-4o翻译版)

来源&#xff1a;https://github.com/rasbt/LLMs-from-scratch?tabreadme-ov-file https://www.manning.com/books/build-a-large-language-model-from-scratch

Windows系统安装SSH服务结合内网穿透配置公网地址远程ssh连接

前言 在当今的数字化转型时代&#xff0c;远程连接和管理计算机已成为日常工作中不可或缺的一部分。对于 Windows 用户而言&#xff0c;SSH&#xff08;Secure Shell&#xff09;协议提供了一种安全、高效的远程访问和命令执行方式。SSH 不仅提供了加密的通信通道&#xff0c;…

单片机IO

一、简单GPIO口 保护二极管&#xff1a;IO引脚上下两边两个二极管用于防止引脚外部过高、过低的电压输入。 当引脚电压高于VDD时&#xff0c;上方的二极管导通&#xff0c;电压被钳位在VDD0.7V&#xff1b; 当引脚电压低于VSS时&#xff0c;下方的二极管导通&#xff0c;防止不…

设计模型 - 学习笔记

学习参考&#xff1a; https://blog.csdn.net/m0_65346405/article/details/136994128 《系统分析师教程》 《设计模式之禅》 一. 设计模式的5大原则 1. 单一职责原则 一个类应该只有一个变化因子。 就是说&#xff0c;一个类要变化&#xff0c;比如增加功能&#xff0c;那么引…

Elasticsearch 8.x 存储有无压缩?能压缩到多少?

1、认知前提 Elasticsearch 支持压缩&#xff0c;压缩方式默认为&#xff1a;LZ4 压缩算法。 具体参见&#xff1a; The default value compresses stored data with LZ4 compression, but this can be set to best_compression which uses DEFLATE for a higher compression r…

mybatis mapper.xml 比较运算符(大于|小于|等于)的写法: 转义和<![CDATA[]]>

文章目录 引言I 使用xml 原生转义的方式进行转义II 使用 <![CDATA[ 内容 ]]>引言 应用场景:查询时间范围 背景:在 *.xml 中使用常规的 < > = <= >= 会与xml的语法存在冲突 <![CDATA[]]> 比 转义符 来的繁琐 <![CDATA[]]> 表示xml解析器忽略…

Linux内网端口转公网端口映射

由于服务商做安全演练&#xff0c;把原先服务器内网的端口映射到外网端口全都关闭了&#xff0c;每次维护服务器特别麻烦&#xff0c;像数据库查询如果用原生的mysql 去连接&#xff0c;查询返回的结果乱了&#xff0c;非常不方便。 查了服务还是可以正常访问部分外网的&#x…

mongodb在windows环境安装部署

一、mongodb 1.释义 MongoDB 是一种开源的文档型 NoSQL 数据库管理系统&#xff0c;使用 C 编写&#xff0c;旨在实现高性能、高可靠性和易扩展性。MongoDB 采用了面向文档的数据模型&#xff0c;数据以 JSON 风格的 BSON&#xff08;Binary JSON&#xff09;文档存储&#x…
最新文章