迁移学习:将策略从 simulator 转移到 real-world。
多保真 RL(MFRL):
结合多保真优化 [6] 和 model-based RL,"面对不确定性的乐观主义 "启发式方法,RL [7] 的 "知道它知道什么"(know what it knows,KWIK)model-learning framework。1 在 coarse model 里探索,2 用 fine model 更新 coarse model。与只向现实世界的 agent 传递一次 heuristics 的单向方法不同[5],MFRL 框架还规定了 agent 何时应该向上移动到高保真模拟器,以及在更昂贵的模拟中进行过度探索之前,向下移动保真度的规则。有理论上的收敛、采样效率的保证。
(资料图片仅供参考)
具体来说,该框架
(1)不会在高水平上运行已被证明为次优的行动,(2)(在一定条件下)将最高 fidelity 的样本数量降到最低,(3)限制 sample 总数。此外,可以证明 MFRL without resets 在最高 fidelity 的 simulator 上的样本数(最坏情况)不比“单向传输”方法多。main contributions:
(1)介绍 MFRL framework;(2)对该框架的 sample complexity 进行了理论分析;(3)实验。2 related workRL:1 在 simulator 里学,然后直接在 real-world 跑,2 一直在 real-world 里跑,但用 low-fidelty simulator 算 policy gradient。
已经有监督学习的 multi-fidelty 工作了。
使用 low-fidelty model 生成的东西,作为指导 exploration 的 heuristic。
不是 用上一个环境训出来的 policy 指导当前环境学习的迁移学习(transfer learning,TL)。不是 在 action space 不同的环境间的 TL [10],因为 env 的 dynamics 和 rewards 也不一样。类似的方法是 transferred delayed Q-learning(TDQL)[5]。可以证明我们的方法在 highest-fidelity env 上的 sample 数量 ≤ TDQL。
我们的工作将多保真优化(MFO)[6] 扩展到顺序决策(sequential decision-making)问题,借鉴 MFO 的经验,用 high-fidelity 数据更新模型,并根据 low-fidelity 结果作为 RL exploration 的 constraint。
3 背景 & 假设3.1 RL & KWIK(know what it knows)的背景KWIK:是一种 standardize RL sample complexity 的 framework。sample complexity 就是次优步骤的数量。如果 agent 对 (s,a) 的预测 (s", r) 有把握,即 || prediction - ground truth || ≤ ε,则使用预测值 (s", r),否则 agent 给出⊥,表示它不知道 (s,a) 会发生什么。KWIK-Rmax RL:于是,使用预测的 s" 和 real env 的 reward 建立近似 MDP。如果 agent 给出了⊥,则乐观的将 reward 设成 (1-γ)R_max。它保证了多项式的 sample complexity。(并没有听懂)3.2 问题定义用 Σ 表示 MDP simulator。貌似,假设 low-fidelity 是 high-fidelity 的一种状态集结,用 |Q(s, a) - Q(ρ[s], a)| 来定义 fidelity f(Σi, Σj, β),其中 ρ 是 Si → Sj 的 state mapping,Σi 的 fidelity<Σj。(见公式)所以,Σi 对 Σj 的 fidelity 与它们最优 Q function 的误差成(负的)正比,前提是 low-fidelity Σi 对 Q function 的低估(还是高估)不超过 β,否则就是负无穷。合理性解释:在汽车模拟器中,low-fidelity Σi 假设行动会有完美的结果,然而在 higher-fidelity 中,这些乐观的 Q function 被更现实的 value function 所取代。Definition 1: optimistic multi-fidelity simulator chain:一系列 Σ1 .. ΣD,其中 ΣD 是 real world,并且对于一个特定的 ρi 和 βi,有 fidelity(Σi, Σ_{i+1}, βi) 不是负无穷。Assumption 1: 假设对于 low-fidelity Σi 和 high-fidelity Σ_{i+1},在后者上模拟一步的 cost 是在前者上模拟多项式步(polynomial)的 cost。Assumption 2: 只能通过连续 trajectory 的方式使用模拟器,不能随机访问 (s,a) 或直接读参数。objectives:尽量减少 ΣD(real-world)的 sample 数量。sample 数量是多项式的约束?switch simulator 次数是多项式的约束。4 Multi-Fidelity Bandit Optimization考虑最简单的 setting:一个带有随机性的、只包含一个 state、k 个 action(称为 arm)的 MDP,使用 MF 优化寻找最优 arm。
4.1 MF 寻找最优 arm 的算法(MF-bandit)变量与初始化:
首先维护一个 reward 集合 R_d(a),用于存储尝试各种 action(arm)的经验。如果 reward 经验集合 R_d(a) 里关于某 action a 的经验超过 m 条,则取这些经验 reward 的平均值为 reward 估计值 U^_{d,a};否则给出⊥即“我不知道”,并将 R_max 作为估计值(乐观估计)。维护 bool 变量 closed_d,表示 Σ_d 的 action 是否收敛。维护采取某 action 后的 reward 的 upper bound,U_{d,a}。维护 bool 变量 con_{d,a},表示 d 层的 action a 我是否了解透了。维护 bool 变量 change_d,表示 d 层的 a* = argmax R_d(a) 是不是要变了。算法:
首先取 a* = argmax U_{d,a},即 reward 上界最大的 action。更新 closed_d = con_{d,a*} 或者 a* 肯定是 near optimal,表示 Σ_d 的 action 收敛了。如果 closed_d == false,即 Σ_d 中 action 的 reward 还没收敛,则执行 a*,得到 reward r,更新 reward 经验集合 R_d(a)。然后,更新 reward upper bound U_{d,a*} = min(U_{d,a*}}, U^_{d,a*})。最初的 U_{d,a} = U_{d-1,a} + β_{d-1} 是来自 low-fidelity 的 heuristic,是 low-fidelity simulator 的 heuristic 加上高估的极限 β。如果 R_d(a) 能够给出对于 a 的 reward 估计(即经验超过 m 条)了,则con_{d,a*} = true,表示 a* 我了解透了;change_d = true,表示 既然我获得了基于真实经验的 reward 估计值,可能 d 层的 a* = argmax R_d(a) 要换一换了。如果 closed_d == true,即 Σ_d 中 action 的 reward 收敛了,则 d += 1。同时更新 heuristic U_{d+1,a} = U_{d,a} + β_d,changed_{d+1} = false。如果 con_{d-1,a*} == false(目前给出的 a* 还没了解透)&& change_d == true(上一轮得到了一个 action 的真实 reward 估计,所以这一轮换 argmax action 了),则代表 a* = argmax R 换了个 action,但这个 action 在 low-fidelity 中还没理解透(也就是所谓的 low-fidelity 给出的最佳 action 在 high-fidelity 表现不好),要回溯到 low-fidelity simulator,d -= 1。更新 changed_{d-1} = false。for 所有的 action a:如果 con_{d,a} == true(表示 action a 在 simulator d 研究透了),then把 high-fidelity 的经验 R_{d} 拷贝到 low-fidelity 经验集合 R_{d-1},设置 con_{d-1,a} == true(既然上层研究透了,下层也不用做研究了),change_{d-1} = true。4.2 一个例子 4.3 理论证明不愿多看。
5 Multi-Fidelity RL5.1 MFRL algorithm变量与初始化:
ρ 是 simulator 之间的 state mapping。m_known 是去往更高 fidelity 的采样次数。Q function 初始化为 R_max / (1-γ),乐观的估计。如果模型参数发生变化,change_d = true,重新计算 Q 值。关键技术和前面的 MF-bandit 很像:如果在当前 fidelity 上,刚刚模型学到了更多 (s,a) 的值(change == true),导致 Q function 重新计算,a* = argmax Q 的 a* 变化了;然而,变化后的 a* 在上一 fidelity(d-1 层)仍然存在不确定性,那么就回溯到 d-1 层。算法:
首先取 a* = argmax Q_d(s,a),即估计的 Q function 上界最大的 action。如果 d>1 && change_d == true && \(T_{d-1}[ρ_{d-1}^{-1}(s),a]\) == ⊥ 或者 \(R[ρ_{d-1}^{-1}(s),a]\) == ⊥,则回溯到 low-fidelity simulator,d -= 1。\(Q_{d-1}[s,a] = P(\hat\Sigma_{d-1}, Q_{d-2} + \beta_{d-2})\)。m_k = 0。else,执行 action a*,观测 r 和 s"。如果 \(R_d[s,a^*]\) == ⊥ 或者 \(T_d[s,a^*]\) == ⊥,那么 m_k = 0,更新 R_d 和 T_d。else,m_k += 1。如果 \(R_d[s,a^*]\) 和 \(T_d[s,a^*]\) 从 ⊥ 变成 known,那么\(Q_d[s,a^*] = P(\langle S_d,A,R_d,T_d,\gamma\rangle, Q_{d-1} + \beta_{d-1})\) 。对于所有 d" ≤ d,根据 \(R_d[s,a^*]\) 和 \(T_d[s,a^*]\) 的新值,来更新 \(\langle R,T\rangle_{d"}(ρ_{d-1}^{-1}(s),a^*)\)。把 high-fidelity 的数据传递给【所有】更低的 fidelity。并且 change_d" 都 = true。如果 d<D && m_k == m_{known},那么增加 fidelity,去 d+1 层,d += 1。\(Q_{d+1}(s,a) = P(\hat\Sigma_{d+1},Q_d+\beta_d)\) 。m_k = 0,change_d == false。5.2 一个例子 5.3 理论证明不愿多看。
6 实验:RC car results自己开 Google 翻译看就好啦。
看起来实验 setting 蛮 naive 的。
7 extensions & conclusions虽然这项工作是 tabular transition model & tabular reward,但 NN 近似当然可以。生成一些样本(?)第二段没看懂。MFRL:sequential decision 的 multi-fidelity optimization,用 low-fidelity 作为 heuristic 来指导 high-fidelity 探索。与 transfer learning 不同,我们还可以从 high-fidelity transfer 到 low-fidelity。有一堆理论证明。在遥控汽车上做实验。Reinforcementlearningwithmulti-fidelitysimulators,是14年的ICRA...
1、找到“得力集团官网”点击“下载中心”搜索到型号33021的介绍地...
1、《智能制造管理系统项目需求管理通用要求》是2020年5月13日实施...
西南证券股份有限公司杜向阳近期对百克生物进行研究并发布了研究报...
日本陆上自卫队18日表示,应对恐怖袭击和绑架案等的陆自唯一特种部...
1、当然还是实名举报好,有利于执法部门调查核实,但是,目前的举报...
掌趣科技4月18日在互动平台回答投资者提问时表示,公司正在积极尝试...
15-20分钟。烤板栗的时间是由板栗大小和烤箱温度决定的,选择烤箱温...
【中国那些事儿】外媒:中国经济复苏超预期将提振全球经济增长,美国...
新华社北京4月18日电美国皮尤研究中心发布的最新调查报告显示,如今...
ST泰禾00073204月18日在投资者关系平台上答复了投资者关心的问题投...
合锻智能:合肥合锻智能制造股份有限公司2022年年度业绩预告更正公告
花了近七万买的“欧米茄超霸”两年多时间内多次停摆
1、攲斜,拼音qīxié,出自陆贾《新语·怀虑》。本文到此分享完毕...
1、证件号码??不是你的QQ登陆号码的吧,是你去申请或修改密码保护...
近期 各地陆续启动多项职业资格考试报名 有报考计划的小伙伴...
据中国报告大厅对2023年4月18日山东省硼酸价格最新走势监测显示:20...
近日,零刻宣布开始一波促销活动,SER6ProVEST迷你主机的价格从原价...
国资委公告,1-2月,国有企业营业总收入122395 2亿元,同比增长5 ...
在本周研究报告中,她研究了标准普尔500指数在可追溯到1937年的衰退...
去年以来,受疫情和经济环境的影响,全球许多国家都在面临持续通货膨...
【北京市区联动打造科幻产业重点项目群科幻产业总产值占全国1 3】...
三部门:鼓励金融机构允许新市民以京津冀三地内异地押品提供增信
AITO问界M9作为华为和赛力斯汽车共同深度赋能的旗舰产品,华为智能...
上期回顾:排列三第2023097期奖号开出685,奖号类型为组六,大小比...
1、产生罚息这是金钱上的损失。如果信用贷款出现逾期,贷款机构会先...
2023上海车展中,岚图追光正式上市,共计推出3款车型,售价区间为32...
今天来聊聊关于碳纤维是什么材料做的怎么做,碳纤维是什么材料的文...
央视网消息:中国国家统计局今天(4月18日)发布的数据显示,今年一...
面包:库里是防不住的&你只能尽力让他难受小米切尔就是这样干的赛后...