Jian's Note

It's better to burn out than fade away!

RL学习笔记 [5] | 用时序差分法(TD)求解

0 引言 在强化学习(四)用蒙特卡罗法(MC)求解中,我们讲到了使用蒙特卡罗法来求解强化学习问题的方法,虽然蒙特卡罗法很灵活,不需要环境的状态转化概率模型,但是它需要所有的采样序列都是经历完整的状态序列。如果我们没有完整的状态序列,那么就无法使用蒙特卡罗法求解了。本文我们就来讨论可以不使用完整状态序列求

RL学习笔记 [6] | 时序差分在线控制算法SARSA

0. 引言 在强化学习(五)用时序差分法(TD)求解中,我们讨论了用时序差分来求解强化学习预测问题的方法,但是对控制算法的求解过程没有深入,本文我们就对时序差分的在线控制算法SARSA做详细的讨论。 SARSA这一篇对应Sutton书的第六章部分和UCL强化学习课程的第五讲部分。 1. SARSA算法的引入 SAR

RL学习笔记 [4] | 用蒙特卡罗法(MC)求解

0. 引言 在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型 $P$ 都无法知道,这时动态规划法根本没

RL学习笔记 [3] | 用动态规划(DP)求解

0. 引言 在强化学习(二)马尔科夫决策过程(MDP)中,我们讨论了用马尔科夫假设来简化强化学习模型的复杂度,这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。 动态规划这一篇对应Sutton书的第四章和UCL强化学习课程的第三讲。 1. 动态规划和强化学习

RL学习笔记 [2] | 马尔科夫决策过程(MDP)

0. 引言 在强化学习(一)模型基础中,我们讲到了强化学习模型的8个基本要素。但是仅凭这些要素还是无法使用强化学习来帮助我们解决问题的, 在讲到模型训练前,模型的简化也很重要,这一篇主要就是讲如何利用马尔科夫决策过程(Markov Decision Process,以下简称MDP)来简化强化学习的建模。 MDP这一篇对应Sut

RL学习笔记 [1] | 模型基础

0. 引言 从今天开始整理强化学习领域的知识,主要参考的资料是Sutton的强化学习书和UCL强化学习的课程。这个系列大概准备写10到20篇,希望写完后自己的强化学习碎片化知识可以得到融会贯通,也希望可以帮到更多的人,毕竟目前系统的讲解强化学习的中文资料不太多。 第一篇会从强化学习的基本概念讲起,对应Sut

车辆路径规划之Dubins曲线与RS曲线简述

0. 描述 Dubins和RS曲线都是路径规划的经典算法,其中车辆运动学利用RS曲线居多,因此简单介绍Dubins并引出RS曲线。 花了点时间看了二者的论文,并阅读了一个开源的代码。 1. Dubins曲线 Dubins曲线是在满足曲率约束和规定的始端和末端的切线(进入方向)的条件下,连接两个二维平面的最短路径。它

Git 命令查询

Git 常用命令汇总 常规操作 git push origin test 推送本地分支到远程仓库 git rm -r --cached 文件/文件夹名字 取消文件被版本控制 git reflog 获取执行过的命令 git log --graph 查看分支合并图 git merge --no-ff -m '合并描述' 分支名 不使用Fast forward方式合并,采用这种方式合并可以看到合并记录 git check-ignore -v 文件名 查看忽略规则 git add -f 文件名 强制将文件提交 Git 创建项目仓库 git init 初

Git 核心知识点总结

Git核心知识总结 Git 总览 1.什么是Git 在了解Git之前,我们先了解一下版本控制这个概念。 1.1 什么是版本控制 版本控制是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。 除了项目源代码,你可以对任何类型的文件进行版本控制。 1.2 为什么需要版本控制 有了它你就可以将某个文件回溯到之前的状态,甚

CMake 笔记 | [45] 使用Doxygen构建文档

一、导言 导言 文档在所有的软件项目都是有必要的: 对于用户来说,了解如何获得并构建代码,并且如何有效地使用源代码或库; 对于开发人员来说,文档可用来描述你源码细节,并帮助其他程序员参与其中为该项目作出贡献。 Doxygen是非常流行的源代码文档工具。可以在代码中添加文档标记作为注释,而后运行Doxygen提
0%